Afinal, o GPT-4 não obteve pontuação entre os 10% melhores no exame da ordem, sugere uma nova pesquisa.
OpenAI, a empresa por trás do modelo de linguagem grande (LLM) que alimenta seu chatbot ChatGPT, fez a reclamação em março do ano passado, e o comunicado enviado ondas de choque na web e a profissão jurídica.
Agora, um novo estudo revelou que o tão elogiado número do percentil 90 foi, na verdade, direcionado para os participantes repetidos do teste que já haviam reprovado no exame uma ou mais vezes – um grupo com pontuação muito mais baixa do que aqueles que geralmente fazem o teste. O pesquisador publicou suas descobertas em 30 de março na revista Inteligência Artificial e Direito.
“Parece que a comparação mais precisa seria com os participantes do teste pela primeira vez ou na medida em que você acha que o percentil deveria refletir o desempenho do GPT-4 em comparação com um advogado real; então a comparação mais precisa seria com aqueles que passam no exame”, autor do estudo Eric Martinezestudante de doutorado do Departamento de Cérebro e Ciências Cognitivas do MIT, disse em um Curso de educação jurídica continuada da Ordem dos Advogados do Estado de Nova York.
Relacionado: A IA pode ‘fingir’ empatia, mas também encorajar o nazismo, sugere estudo perturbador
Para chegar a sua afirmação, a OpenAI usou um Estudo de 2023 em que os pesquisadores fizeram o GPT-4 responder às questões do Uniform Bar Examination (UBE). Os resultados do modelo de IA foram impressionantes: obteve 298 pontos em 400, o que o colocou entre os décimos primeiros candidatos.
Mas acontece que inteligência artificial (AI) obteve pontuação apenas entre os 10% melhores quando comparado com participantes repetidos. Quando Martínez comparou o desempenho do modelo de forma mais geral, o LLM obteve pontuação no percentil 69 de todos os participantes do teste e no percentil 48 daqueles que realizaram o teste pela primeira vez.
O estudo de Martínez também sugeriu que os resultados do modelo variaram de medíocres a abaixo da média na seção de redação do teste. Ele caiu no percentil 48 de todos os participantes do teste e no percentil 15 daqueles que fizeram o teste pela primeira vez.
Para investigar melhor os resultados, Martínez fez o GPT-4 repetir o teste novamente de acordo com os parâmetros definidos pelos autores do estudo original. O UBE normalmente consiste em três componentes: o Multistate Bar Examination (MBE) de múltipla escolha; o Teste de Desempenho Multiestadual (MPT), que faz com que os examinandos executem diversas tarefas de advocacia; e o Exame de Ensaio Multiestadual escrito (MEE).
Martínez conseguiu replicar a pontuação do GPT-4 para o MBE de múltipla escolha, mas identificou “várias questões metodológicas” na classificação das partes MPT e MEE do exame. Ele observou que o estudo original não utilizou as diretrizes de classificação de redações estabelecidas pela Conferência Nacional de Examinadores da Ordem, que administra o exame da ordem. Em vez disso, os pesquisadores simplesmente compararam as respostas com “boas respostas” daqueles do estado de Maryland.
Isto é significativo. Martínez disse que a seção de redação é o representante mais próximo no exame da ordem das tarefas desempenhadas por um advogado em exercício, e foi a seção do exame em que a IA teve o pior desempenho.
“Embora o salto do GPT-3.5 tenha sido sem dúvida impressionante e muito digno de atenção, o fato de o GPT-4 ter tido dificuldades particularmente na redação de ensaios em comparação com os advogados em atividade indica que grandes modelos de linguagem, pelo menos por si próprios, têm dificuldades em tarefas que mais se assemelha muito ao que um advogado faz diariamente”, disse Martínez.
A pontuação mínima para aprovação varia de estado para estado entre 260 e 272, então a pontuação da redação do GPT-4 teria que ser desastrosa para que ele fosse reprovado no exame geral. Mas uma queda de apenas nove pontos na pontuação de sua redação arrastaria sua pontuação para o último quarto dos candidatos a MBE e abaixo do quinto percentil de advogados licenciados, de acordo com o estudo.
Martínez disse que as suas descobertas revelaram que, embora sem dúvida ainda impressionantes, os actuais sistemas de IA devem ser cuidadosamente avaliados antes de serem utilizados em ambientes legais “de uma forma involuntariamente prejudicial ou catastrófica”.
O aviso parece ser oportuno. Apesar da sua tendência para produzir alucinações – fabricar factos ou conexões que não existem – os sistemas de IA estão a ser considerados para múltiplas aplicações no mundo jurídico. Por exemplo, em 29 de maio, um juiz de um tribunal federal de apelações sugeriu que os programas de IA poderiam ajudar a interpretar o conteúdo dos textos jurídicos.
Em resposta a um e-mail sobre as descobertas do estudo, um porta-voz da OpenAI encaminhou a Live Science para o “Apêndice A na página 24” do Relatório técnico GPT-4. A linha relevante diz: “O Uniform Bar Exam foi realizado por nossos colaboradores da CaseText e Stanford CodeX.”