Fonte: Vibe Saúde
A inteligência artificial (IA) está revolucionando a área da saúde, com avanços significativos na assistência médica. No entanto, a precisão e a confiabilidade dessas tecnologias continuam sendo temas de discussões entre os profissionais de saúde, especialmente os médicos.
A Vibe Saúde conduziu uma análise comparativa detalhada dos assistentes de IA mais populares do Brasil. “Decidimos criar esse estudo para reforçar nosso compromisso com a segurança e responsabilidade no uso da IA. Analisamos as versões 3.5 e 4.0 do ChatGPT da OpenAI, e Bard e Gemini da Google, utilizando uma amostra de 556 diálogos retirados do subreddit /askdocs de 2022. As respostas foram minuciosamente avaliadas por nossa equipe”, explica Felipe Cunha, CEO da healthtech.
O estudo, que durou seis meses, resultou na criação do “Escore de Segurança Clínica”. Médicos avaliadores, com vasta experiência clínica e acadêmica, revisaram manualmente quase 2.000 respostas de assistentes de IA, aplicando a Teoria de Resposta ao Item, uma técnica estatística robusta utilizada na correção do Enem.
Os assistentes de IA foram avaliados com base em três atributos principais:
- Urgência: rapidez com que o assistente identifica e responde a situações que exigem atenção imediata;
- Adequação: relevância e aplicabilidade das respostas fornecidas em relação ao contexto das perguntas;
- Precisão: exatidão das informações fornecidas, essencial para garantir que os usuários recebam informações corretas e seguras.
Os resultados mostraram que os assistentes da OpenAI, especialmente o ChatGPT 4.0, se destacaram em termos de precisão e adequação. O ChatGPT 4.0 liderou o ranking, demonstrando maior confiabilidade em suas respostas. As avaliações manuais realizadas por médicos reforçam a confiança nesses resultados. A média do escore dos diálogos com assistentes da OpenAI superou o ponto de corte que representa a aprovação de dois a cada três médicos. Em contraste, os assistentes da Google ficaram abaixo deste ponto de corte, com diferenças estatisticamente significativas.
Em termos de adequação, os assistentes da OpenAI também se destacaram, indicando que suas respostas são mais pertinentes e contextualmente apropriadas. No quesito urgência, as diferenças entre os assistentes da OpenAI e da Google não foram estatisticamente significativas, mostrando que ambos são eficazes em responder prontamente.
“Embora ambos os assistentes sejam eficazes em termos de urgência, as diferenças na precisão e adequação são significativas. Isso nos mostra que o ChatGPT 4.0 é mais confiável para fornecer informações corretas e contextualmente apropriadas”, afirma Cunha.