GPT-4.5 da OpenAI é capaz de enganar humanos
Este pode ser o último lançamento da linha clássica de LLMs da OpenAI

Recentemente, o modelo de linguagem GPT-4.5, desenvolvido pela OpenAI, atingiu um marco relevante ao ser aprovado no Teste de Turing, evidenciando sua capacidade para interações que se mostram indistinguíveis das realizadas por um ser humano.
O que é um LLM?
Um Large Language Model (LLM), ou Modelo de Linguagem de Grande Escala, é um tipo de programa de inteligência artificial projetado para compreender e gerar linguagem humana. Esses modelos são treinados em vastos conjuntos de dados textuais, permitindo-lhes executar tarefas como tradução, resumo e conversação. Eles utilizam arquiteturas avançadas de redes neurais, como os transformadores, para processar e produzir texto de maneira coerente e contextualmente relevante.

O que é o Teste de Turing?
O Teste de Turing foi proposto em 1950 por Alan Turing, um dos pioneiros da computação. A ideia é simples, mas poderosa: se uma máquina consegue conversar com um ser humano sem que este perceba que está interagindo com uma IA, então ela pode ser considerada "inteligente".
No experimento, um avaliador humano conversa por texto com duas entidades — um humano e uma máquina — e tenta descobrir qual é qual. Se a máquina consegue enganar o avaliador em mais de 50% das vezes, ela "passa" no teste.
Esse teste é considerado um divisor de águas na história da inteligência artificial, pois marca o ponto em que a IA deixa de ser apenas uma ferramenta e se torna algo que pode interagir de maneira semelhante ao ser humano.
Como o teste foi feito?
O estudo que levou ao reconhecimento do GPT-4.5 como a primeira IA a passar no Teste de Turing foi conduzido pela Universidade da Califórnia em San Diego.
Foram recrutadas 284 pessoas para participar do experimento.Cada uma interagiu com duas entidades simultaneamente por cinco minutos: uma IA e um ser humano.
O desafio: identificar qual era o humano.
O GPT-4.5 foi instruído a assumir uma persona — ou seja, adotar um estilo de comunicação e uma identidade fictícia para parecer mais humano. Os resultados foram impressionantes: 73% dos avaliadores acharam que estavam conversando com um humano, quando na verdade era o GPT-4.5. Para efeito de comparação, os próprios humanos foram identificados corretamente apenas em 63% das vezes.
Esse resultado não só mostra a capacidade linguística do modelo, mas também sua habilidade de imitar emoções, hesitações, dúvidas e sutilezas da comunicação humana.
Quais outras LLMs foram testadas?
Além do GPT-4.5, os pesquisadores colocaram outros modelos à prova:
- LLaMa-3.1 (Meta): acertou em 56% dos casos — um bom desempenho, mas ainda abaixo do GPT-4.5.
- GPT-4o (OpenAI): apesar de ser um modelo otimizado para respostas mais rápidas, só alcançou 21% de acertos.
- ELIZA (1966): o chatbot clássico serviu como comparação histórica e foi identificado como humano em 23% das vezes — ainda melhor que o GPT-4o, o que surpreendeu os pesquisadores.
Esses resultados mostram que nem toda LLM moderna é convincente o suficiente para passar no Teste de Turing, e que o GPT-4.5, especificamente, atingiu um novo patamar.
O que torna o GPT-4.5 diferente dos outros modelos?
O GPT-4.5 apresenta avanços importantes em personalização, contexto de memória e respostas emocionais mais refinadas.
Ele consegue manter o tom e o estilo da conversa de forma mais consistente, além de simular nuances humanas com mais precisão. Isso o torna ideal para aplicações que exigem empatia, naturalidade e fluidez.

