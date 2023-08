Com o aumento da Inteligência Artificial no mercado, várias empresas estão oferecendo seus serviços. Meta, OpenAI, Cohere e Anthropic se destacam, mas qual deles tem a melhor tecnologia e qual é a pior?

Um grupo de pesquisadores da Arthur AI testou seus respectivos modelos: Llama 2 (Meta), Cohere, GPT-4 (utilizado no ChatGPT por OpenAI) e Claude 2 (Anthropic), estabelecendo qual era o pior e qual o melhor.

A base está nas respostas de cobertura e nas chamadas "alucinações" ou erros persistentes nas respostas.

Esta iniciativa de pesquisa classifica as forças e fraquezas das ofertas de modelos grandes de idiomas de líderes da indústria como OpenAI, Anthropic e Meta, bem como outros modelos de código aberto, de acordo com o portal da Arthur AI.

Adam Wenchel, fundador e CEO da Arthur, disse à CNBC que este é o primeiro relatório "que fornece uma visão abrangente das taxas de alucinação, em vez de simplesmente fornecer um único número que fala sobre onde eles estão em uma tabela de classificação de LLM".

Qual é o melhor e o pior modelo de Inteligência Artificial, de acordo com suas respostas?

Todos os modelos foram fornecidos com um conjunto de dados de perguntas desafiadoras em matemática combinatória, presidentes dos Estados Unidos e líderes políticos marroquinos, procurando descobrir qual responderia melhor.

Em linhas gerais, a Inteligência Artificial da Cohere foi a de pior desempenho. E isso gerou o rechaço de um porta-voz, citado pela CNBC: “A tecnologia de geração aumentada de recuperação da Cohere, que não estava no modelo testado, é muito eficaz para dar às empresas citações verificáveis para confirmar as fontes de informação”.

Logotipo da OpenAI (Foto AP/Michael Dwyer) AP (Michael Dwyer/AP)

Llama 2 de Meta alucina mais em geral do que o GPT-4 e Claude 2 da Anthropic.

GPT-4 do ChatGPT (OpenAI) foi o que teve o melhor desempenho de todos os modelos testados, descobrindo os pesquisadores que as alucinações eram menores do que em GPT-3.5.

Para Wenchel, a importância dos resultados é “provar a sua carga de trabalho exata” e “compreender como funcionam para o que estão tentando alcançar”.