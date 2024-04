Os chatbots com inteligência artificial (IA) estão revolucionando a forma como interagimos na internet. E é que eles oferecem uma ampla gama de vantagens: Em primeiro lugar, estão disponíveis 24 horas por dia, 7 dias por semana, prontos para fornecer atendimento ao cliente ou responder perguntas a qualquer momento. Eles também são eficientes e têm a capacidade de personalizar suas respostas de acordo com as necessidades e preferências de cada usuário, oferecendo uma experiência mais personalizada.

No entanto, também enfrentam desafios pela frente, principalmente em relação aos matizes da linguagem humana. Coisas como o sarcasmo ou expressões informais ainda são um desafio para esses programas. E não é demais dizer que existe um risco potencial de que perpetuem preconceitos presentes nos dados com os quais são treinados, o que poderia resultar em respostas discriminatórias.

Saber isso, agora a pergunta sobre "qual é o melhor?" é repetida constantemente. No entanto, a resposta continua sendo um enigma. Embora os usuários costumem responder que usam um chatbot específico (ChatGPT, Copilot, Gemini, Claude ou qualquer outro) porque ele funciona bem para eles, a dúvida sobre se existe uma opção superior para o seu caso permanece.

A paradoxo dos benchmarks

Apesar da existência de vários benchmarks que tentam avaliar o desempenho dos modelos de IA, a diferença entre os resultados desses testes e a experiência real do usuário costuma ser significativa. O que é uma resposta satisfatória para alguns pode não ser para outros, e a variabilidade nas respostas dos chatbots dificulta a comparação precisa.

Como bem apontado pelo The New York Times, as empresas que apresentam novos modelos de IA costumam recorrer a afirmações subjetivas e difíceis de verificar, como "capacidades aprimoradas", sem especificar detalhes concretos.

A falta de clareza sobre qual é o melhor chatbot é um problema real para a indústria. Não há informações precisas sobre se o Gemini escreve código melhor do que o ChatGPT ou Copilot, se o ChatGPT Plus vale a pena pela qualidade de suas respostas ou qual modelo de geração de imagens é superior para criar rostos realistas.

O Índice de IA: uma análise reveladora

O Índice de IA, um estudo realizado pelo Instituto de IA Centrada em Humanos da Universidade de Stanford, destaca esse problema em sua segunda seção sobre o desempenho técnico dos modelos. Os pesquisadores apontam que, embora a IA supere os humanos em algumas tarefas, não são em todas, e que os modelos atuais atingiram o limite das avaliações tradicionais como ImageNet, SQuAD ou SuperGLUE.

Em resposta a esta situação, estão sendo desenvolvidos testes mais exigentes como SWE-bench para geração de código, HEIM para geração de imagens, MMMU para raciocínio geral, MoCa para raciocínio moral, AgentBench para comportamento de agentes de IA e HaluEval para analisar se os modelos estão "alucinando".

A opinião do usuário: uma métrica cada vez mais relevante

Além dos testes sintéticos, a opinião dos usuários está ganhando cada vez mais importância. Sistemas como o Chatbot Arena Leaderboard, que registram o "sentimento público" sobre um chatbot, permitem que os usuários votem em seu favorito e fornecem informações valiosas sobre a percepção da qualidade desses modelos.

O recente lançamento do Claude 3 Opus, um modelo da Anthropic, exemplifica essa tendência. Embora, em alguns cenários "sintéticos", ele supere até mesmo o GPT-4 (até agora a referência), seu sucesso na Chatbot Arena Leaderboard (onde o GPT-4 recuperou o trono) demonstra que a preferência dos usuários é um fator crucial.

No mundo dos processadores, os benchmarks costumam oferecer uma ideia clara do desempenho. Embora os testes sintéticos nem sempre coincidam exatamente com a experiência final, eles fornecem uma referência confiável. No caso dos modelos de IA, a situação é mais complexa e, por enquanto, a resposta à pergunta “qual é o melhor chatbot?” ainda é um mistério.