Estudo de Harvard publicado na Science: OpenAI o1 taxa de precisão no diagnóstico de emergência 67%, superando dois médicos humanos

Harvard Medical School e Beth Israel Deaconess Medical Center publicaram uma pesquisa na revista Science, usando uma amostra de 76 pacientes de emergência, para testar a capacidade de decisão diagnóstica do modelo OpenAI o1.
Os resultados mostraram que o o1 atingiu uma precisão de 67%, significativamente superior aos 55% e 50% de dois médicos clínicos internos.
No entanto, os pesquisadores também emitiram um aviso importante: o grupo de controle não eram médicos de emergência especializados, e o estudo não afirma que a IA já possa tomar decisões de vida ou morte em situações reais.
(Preâmbulo: Pesquisa da Universidade da Califórnia sobre o fenômeno de “névoa de IA”: 14% dos trabalhadores de escritório enlouquecem com agentes e automação, com 40% considerando sair do emprego)
(Informação adicional: Autor de Sapiens: a IA está se tornando uma ameaça, invadindo os sistemas operacionais da civilização humana! Como armas nucleares)

Um artigo da Harvard Medical School, discretamente publicado na revista acadêmica de ponta Science, marca a entrada oficial da discussão sobre IA médica no círculo de pesquisa clínica, saindo do palco de demonstrações para o campo real.

Este estudo, conduzido pela Harvard Medical School em parceria com Beth Israel Deaconess Medical Center, utilizou registros de 76 pacientes reais de emergência como amostra de teste, permitindo que o OpenAI o1, GPT-4o, e dois médicos clínicos internos fizessem diagnósticos para cada caso.
O critério de avaliação foi: a proporção de respostas consideradas “precisas ou muito próximas do correto”.

Os números finais chamaram atenção — o o1 atingiu uma precisão de 67%, enquanto os dois médicos humanos ficaram em 55% e 50% respectivamente.
O GPT-4o também foi incluído como controle, mas apresentou desempenho inferior ao o1.

Quais pontos o o1 se destaca?

A equipe de pesquisa destacou que a maior diferença entre o o1 e os médicos humanos ocorreu na fase de “triagem inicial” — ou seja, no momento em que o paciente entra na emergência, com o menor volume de informações e maior incerteza.

Nessa situação, o o1 precisa integrar a descrição do queixa principal, sintomas e sinais vitais para formar uma hipótese diagnóstica preliminar.
Isso cai exatamente na área de força dos grandes modelos de linguagem: reconhecimento de padrões em textos estruturados, rápida integração de conhecimentos multidisciplinares, e a capacidade de fornecer raciocínios bem organizados mesmo com informações incompletas.

Embora o GPT-4o também tenha participado do teste de controle, seu desempenho sob as mesmas condições foi menos estável, e a diferença em relação ao o1 foi menor.
Os pesquisadores acreditam que isso está diretamente relacionado à arquitetura de raciocínio mais robusta do o1.

Do ponto de vista do significado do estudo, não se trata mais apenas de “IA venceu em benchmarks” — os dados vêm de registros reais de atendimentos de emergência, não de questões artificialmente criadas, conferindo ao resultado uma certa validade clínica.

Não se deixe levar pelo título: três premissas que você precisa entender antes

Antes que essa pesquisa gere um debate amplo, há três pontos que vale a pena desacelerar e confirmar com cuidado.

Primeiro, o grupo de controle não eram médicos de emergência especializados.
Os dois médicos utilizados na comparação eram “médicos clínicos internos”, não médicos de emergência treinados especificamente para o ER.
A complexidade do diagnóstico de emergência reside na alta pressão, multitarefa, fragmentação de informações — e, nesse cenário, médicos de clínica geral não são o padrão de referência mais forte.
O próprio quadro de comparação da pesquisa já apresenta uma área passível de questionamento.

Segundo, trata-se de uma “triagem textual”, não do ambiente multimodal real de emergência.
O próprio líder do estudo afirmou claramente: “Isso é apenas triagem textual, não equivale ao ER multimodal real.”
Na prática, o atendimento de emergência envolve leitura de imagens, observação física, comunicação no local, procedimentos de urgência — aspectos que os grandes modelos de linguagem ainda não conseguem abordar.

Terceiro, a equipe de pesquisa não afirma que a IA já possa tomar decisões de vida ou morte.
Ao divulgar os resultados, os pesquisadores reforçaram as limitações do estudo e não recomendaram a aplicação direta do diagnóstico por IA na prática clínica.

Do ponto de vista técnico, essa pesquisa representa um marco real — na pista de “diagnóstico textual estruturado”, a IA já consegue superar médicos humanos em certos contextos.
Porém, entre a “precisão de laboratório” e a “implantação na prática clínica”, ainda há obstáculos como responsabilidades regulatórias, integração multimodal, conexão com sistemas hospitalares, e — o mais difícil — quem assume a responsabilidade pelos erros.
A barreira técnica pode estar superada, mas os desafios para a implementação real da IA médica estão apenas começando.

Ver original
Esta página pode conter conteúdo de terceiros, que é fornecido apenas para fins informativos (não para representações/garantias) e não deve ser considerada como um endosso de suas opiniões pela Gate nem como aconselhamento financeiro ou profissional. Consulte a Isenção de responsabilidade para obter detalhes.
  • Recompensa
  • Comentário
  • Repostar
  • Compartilhar
Comentário
Adicionar um comentário
Adicionar um comentário
Sem comentários
  • Marcar