A IA é apenas o mercado mais recente e mais ávido para computação de alto desempenho, e os arquitetos de sistemas estão trabalhando sem parar para extrair cada gota de desempenho de cada watt. Startup sueca Zero pontosmunido de 5 milhões de euros (5,5 milhões de dólares) em novos financiamentos, quer ajudá-los com uma nova técnica de compressão de memória na escala de nanossegundos – e sim, é exatamente tão complicado quanto parece.
O conceito é este: compactar dados sem perdas antes de entrarem na RAM e descompactá-los depois, ampliando efetivamente o canal de memória em 50% ou mais apenas adicionando um pequeno pedaço ao chip.
A compressão é, obviamente, uma tecnologia fundamental na computação; como apontou o CEO da ZeroPoint, Klas Moreau (à esquerda na imagem acima, com os cofundadores Per Stenström e Angelos Arelakis): “Hoje, não armazenaríamos dados no disco rígido sem compactá-los. A pesquisa sugere que 70% dos dados na memória são desnecessários. Então, por que não comprimimos na memória?”
A resposta é que não temos tempo. Compactar um arquivo grande para armazenamento (ou codificá-lo, como dizemos quando é vídeo ou áudio) é uma tarefa que pode levar segundos, minutos ou horas dependendo de suas necessidades. Mas os dados passam pela memória em uma pequena fração de segundo, entrando e saindo tão rápido quanto a CPU consegue. O atraso de um único microssegundo, para remover os bits “desnecessários” de uma parcela de dados que vai para o sistema de memória, seria catastrófico para o desempenho.
A memória não avança necessariamente na mesma proporção que a velocidade da CPU, embora as duas (junto com muitos outros componentes do chip) estejam inextricavelmente conectadas. Se o processador for muito lento, os dados serão armazenados na memória – e se a memória for muito lenta, o processador desperdiçará ciclos esperando pela próxima pilha de bits. Tudo funciona em conjunto, como você poderia esperar.
Embora a compactação de memória super-rápida tenha sido demonstrada, ela resulta em um segundo problema: essencialmente, você tem que descompactar os dados tão rápido quanto os comprimiu, retornando-os ao seu estado original, ou o sistema não terá ideia de como. para lidar com isso. Portanto, a menos que você converta toda a sua arquitetura para esse novo modo de memória compactada, será inútil.
ZeroPoint afirma ter resolvido esses dois problemas com compactação de memória hiper-rápida e de baixo nível que não requer mudanças reais no resto do sistema de computação. Você adiciona a tecnologia deles ao seu chip e é como se você tivesse duplicado sua memória.
Embora os detalhes essenciais provavelmente só sejam inteligíveis para pessoas nesta área, os princípios básicos são fáceis de entender para os não iniciados, como Moreau provou quando me explicou.
“O que fazemos é pegar uma quantidade muito pequena de dados – uma linha de cache, às vezes de 512 bits – e identificar padrões nela”, disse ele. “É da natureza dos dados, eles são preenchidos com informações não tão eficientes, informações que estão escassamente localizadas. Depende dos dados: quanto mais aleatório for, menos compressível será. Mas quando olhamos para a maioria das cargas de dados, vemos que estamos na faixa de 2 a 4 vezes [more data throughput than before].”
Não é nenhum segredo que a memória pode ser compactada. Moreau disse que todos na computação em grande escala conhecem a possibilidade (ele me mostrou um artigo de 2012 demonstrando isso), mas mais ou menos a descartaram como acadêmica, impossível de implementar em escala. Mas o ZeroPoint, disse ele, resolveu os problemas de compactação – reorganizando os dados compactados para serem ainda mais eficientes – e de transparência, de modo que a tecnologia não apenas funciona, mas funciona perfeitamente nos sistemas existentes. E tudo acontece em poucos nanossegundos.
“A maioria das tecnologias de compressão, tanto de software quanto de hardware, são da ordem de milhares de nanossegundos. CXL [compute express link, a high-speed interconnect standard] pode reduzir esse número para centenas”, disse Moreau. “Podemos reduzir para 3 ou 4.”
Aqui está o CTO Angelos Arelakis explicando do seu jeito:
A estreia do ZeroPoint é certamente oportuna, com empresas de todo o mundo em busca de uma computação mais rápida e barata para treinar mais uma geração de modelos de IA. A maioria dos hiperscaladores (se devemos chamá-los assim) está interessada em qualquer tecnologia que possa fornecer mais energia por watt ou permitir que reduzam um pouco a conta de energia.
A principal advertência para tudo isso é simplesmente que, como mencionado, isso precisa ser incluído no chip e integrado desde o início – você não pode simplesmente colocar um dongle ZeroPoint no rack. Para esse fim, a empresa está trabalhando com fabricantes de chips e integradores de sistemas para licenciar a técnica e o design de hardware para chips padrão para computação de alto desempenho.
É claro que são suas Nvidias e Intels, mas cada vez mais também empresas como Meta, Google e Apple, que projetaram hardware personalizado para executar internamente sua IA e outras tarefas de alto custo. A ZeroPoint está posicionando sua tecnologia como uma economia de custos, mas não como um prêmio: é concebível que, ao duplicar efetivamente a memória, a tecnologia se pague em pouco tempo.
A rodada A de € 5 milhões recém-fechada foi liderada pela Matterwave Ventures, com a Industrifonden atuando como líder nórdica local, e os investidores existentes Climentum Capital e Chalmers Ventures também contribuindo.
Moreau disse que o dinheiro deverá permitir-lhes expandir-se para os mercados dos EUA, bem como duplicar a aposta nos mercados suecos que já procuram.