Pedimos muito a nós mesmos quando bebês. De alguma forma, devemos evoluir de bolhas sensoriais para comunicadores móveis, racionais e atentos em apenas alguns anos. Aqui está você, um bebê sem vocabulário, em uma sala cheia de brinquedos e bichos de pelúcia. Você pega um Lincoln Log e seu zelador lhe diz: “Isto é um 'log'”. Eventualmente você entende que “log” não se refere estritamente a este cilindro de plástico marrom em particular ou aos cilindros de plástico marrom em geral, mas a cilindros de plástico marrom que incorporam as características de partes de árvores derrubadas e desnudas, que também são, é claro, “toras”.
Tem havido muita pesquisa e debate acalorado sobre como os bebês conseguem isso. Alguns cientistas argumentaram que a maior parte da nossa aquisição de linguagem pode ser explicada por aprendizagem associativa, à medida que relacionamos sons com sensibilidades, assim como os cães associam o som de uma campainha à comida. Outros afirmam que existem características incorporadas na mente humana que moldaram as formas de todas as línguas e são cruciais para a nossa aprendizagem. Outros ainda afirmam que as crianças construir sua compreensão de novas palavras além da compreensão de outras palavras.
Este discurso avançou numa recente manhã de domingo, enquanto Tammy Kwan e Brenden Lake entregavam amoras silvestres de uma tigela na boca de sua filha de 21 meses, Luna. Luna estava vestida com leggings rosa e um tutu rosa, com um babador de silicone no pescoço e um chapéu rosa suave na cabeça. Uma câmera leve do tipo GoPro foi acoplada na frente.
“Babooga”, disse ela, apontando o dedo redondo para as frutas. O Dr. Kwan deu-lhe o resto e o Dr. Lake olhou para a tigela vazia, divertido. “Isso equivale a cerca de US$ 10”, disse ele. Uma luz na câmera piscou.
Durante uma hora por semana, nos últimos 11 meses, o Dr. Lake, psicólogo da Universidade de Nova York cuja pesquisa se concentra na inteligência humana e artificial, acoplou uma câmera a Luna e registrou coisas do ponto de vista dela enquanto ela brinca. Seu objetivo é usar os vídeos para treinar um modelo de linguagem usando a mesma informação sensorial a que uma criança é exposta – um LunaBot, por assim dizer. Ao fazer isso, ele espera criar melhores ferramentas para compreender a IA e a nós mesmos. “Vemos esta pesquisa como finalmente estabelecendo essa ligação entre essas duas áreas de estudo”, disse o Dr. “Você pode finalmente colocá-los em diálogo entre si.”
Existem muitos obstáculos ao uso de modelos de IA para compreender a mente humana. Afinal, os dois são totalmente diferentes. A linguagem moderna e os modelos multimodais – como o GPT-4 da OpenAI e o Gemini do Google – são montados em redes neurais com pouca estrutura integrada e melhoraram principalmente como resultado do aumento do poder de computação e de maiores conjuntos de dados de treinamento. O mais recente modelo de linguagem grande do Meta, Llama 3, é treinado em mais de dez trilhões de palavras; uma criança média de cinco anos está exposta a cerca de 300.000.
Esses modelos podem analisar pixels em imagens, mas são incapazes de provar queijo ou frutas vermelhas ou sentir fome, tipos importantes de experiências de aprendizagem para crianças. Os pesquisadores podem fazer o possível para transformar todo o fluxo sensorial de uma criança em código, mas aspectos cruciais de sua fenomenologia serão inevitavelmente perdidos. “O que estamos vendo é apenas o resíduo de um aluno ativo”, disse Michael Frank, psicólogo de Stanford que há anos tenta capturar a experiência humana diante das câmeras. Seu laboratório trabalha atualmente com mais de 25 crianças em todo o país, incluindo Luna, para registrar suas experiências em casa e em ambientes sociais.
Os humanos também não são meros receptáculos de dados, como são as redes neurais, mas animais intencionais. Tudo o que vemos, cada objeto que tocamos, cada palavra que ouvimos combina com as crenças e desejos que temos no momento. “Existe uma relação profunda entre o que você está tentando aprender e os dados que chegam”, disse Linda Smith, psicóloga da Universidade de Indiana. “Esses modelos apenas prevêem. Eles pegam tudo o que lhes é colocado e dão o próximo melhor passo.” Embora você possa ser capaz de imitar a intencionalidade humana estruturando dados de treinamento – algo que o laboratório do Dr. Smith tem tentado fazer recentemente – os modelos de IA mais competentes, e as empresas que os fabricam, há muito estão voltados para o processamento eficiente de mais dados, não fazer mais sentido com menos.
Há, adicionalmente, uma questão mais conceptual, que decorre do facto de as capacidades dos sistemas de IA poderem parecer bastante humanas, embora surjam de formas não humanas. Recentemente, alegações duvidosas de consciência, inteligência geral e senciência surgiram dos laboratórios industriais do Google e da Microsoft após o lançamento de novos modelos. Em março, Claude 3, o mais novo modelo de uma startup de pesquisa em IA chamada Anthropic, despertou debate quando, após analisar uma frase aleatória sobre coberturas de pizza escondidas em uma longa lista de documentos não relacionados, expressou a suspeita de que estava sendo testada. Esses relatórios muitas vezes cheiram a manobras de marketing, em vez de projetos científicos objetivos, mas destacam a nossa ânsia de atribuir significado científico à IA.
Mas as mentes humanas estão convergindo com as virtuais de outras maneiras. Tom Griffiths, um cientista cognitivo de Princeton, sugeriu que, ao descrever as limitações da inteligência humana e construir modelos que tenham limitações semelhantes, poderíamos acabar com uma melhor compreensão de nós mesmos e com uma IA mais interpretável e eficiente. a inteligência humana nos ajuda a compreender e modelar melhor os computadores, e podemos usar esses modelos para compreender a inteligência humana”, disse o Dr. Griffiths. “Tudo isso é muito novo. Estamos explorando o espaço de possibilidades.”
Em fevereiro, Lake e seus colaboradores criaram o primeiro modelo de IA treinado nas experiências de uma criança, usando vídeos capturados no laboratório do Dr. Frank há mais de uma década. O modelo foi Publicados na revista Science e, com base em 60 horas de filmagem, conseguiu combinar diferentes momentos com palavras. Digite “areia” e a modelo vai relembrar o momento, há 11 anos, em que o menino cujas experiências a modelo foi treinada visitou a praia com a mãe. Digite “carro” e a modelo traz um vídeo em primeira pessoa do menino sentado em sua cadeirinha.
Os vídeos de treinamento são antigos e granulados, e os dados são bastante esparsos, mas a capacidade do modelo de formar algum tipo de mapeamento conceitual do mundo sugere que pode ser possível que a linguagem seja captada principalmente por meio de associação. “Tivemos um revisor do artigo que disse: 'Antes de ler isto, eu teria pensado que isso era impossível'”, disse Wai Keen Vong, pesquisador da NYU que ajudou a liderar o trabalho.
Para Lake, e para outros investigadores como ele, essas questões interligadas: até que ponto podemos tornar a IA humana? O que nos torna humanos? — apresentar as pesquisas mais interessantes no horizonte. Perseguir a primeira questão peça por peça, modelando interações sociais, intenções e preconceitos, coletando imagens de vídeo abrangentes de uma câmera montada em uma criança de um ano, é chegar mais perto de responder à última.
“Se o campo puder chegar ao ponto onde os modelos são treinados apenas com os dados que uma única criança viu, e eles se saem bem em um enorme conjunto de tarefas, isso seria uma enorme conquista científica”, disse o Dr.
Em seu apartamento, o Dr. Kwan estavam reunindo Luna e seu irmão mais velho, Logan, para uma festa de aniversário. As crianças, aglomeradas na porta, calçaram as meias e os sapatos. Dr. Lake interrompeu a gravação na câmera de Luna e entregou-lhe um par de luvas brancas felpudas com rostos de ovelha. “O que são isso, Luna?” ele perguntou.
“Baa baa,” Luna disse.
Kwan disse: “Houve um tempo em que ela não conhecia a palavra ‘não’ e era apenas ‘sim’ para tudo”. Ela se dirigiu a Luna: “Beijos, você quer beijos?”
“Não”, Luna disse.
“Oh”, disse o Dr. Lake, rindo. “Sinto falta da fase do ‘sim’.”
Áudio produzido por Sara Diamante.