Nuevo estándar para evaluar el rendimiento de la IA en entornos médicos

Noticias

Se trata de HealthBench, una herramienta de código abierto diseñada para para medir el rendimiento y la seguridad de los modelos de lenguaje grande (LLMs) en escenarios médicos reales. 

La nueva herramienta de OpenAI, la compañía dedicada a la investigación y despliegue de la IA, fue desarrollada en colaboración con 262 médicos provenientes de 60 países e incluye 5000 conversaciones sobre salud.

Su objetivo es probar el rendimiento de modelos de IA en escenarios de salud realistas, basándose en lo que los médicos expertos consideran importante.

Las 5000 conversaciones de HealthBench son entre un modelo de lenguaje y un usuario (que podría ser un paciente o un profesional de la salud) y fueron diseñadas para ser relevantes, realistas y abarcar una amplia gama de situaciones médicas reales en 49 idiomas diferentes

HealthBench funciona como una rúbrica de evaluación, en donde cada respuesta del modelo se califica según un conjunto de criterios médicos específicos para esa conversación. Cada criterio describe lo que una respuesta ideal debe incluir o evitar. Cada criterio, tiene un valor en puntos correspondiente según la opinión del médico respecto a su importancia. En total, HealthBench contiene 48.562 criterios de rúbrica únicos.

Las conversaciones de HealthBench se dividen en siete temas, incluidos derivaciones urgentes, salud global, tareas de datos sanitarios, búsqueda de contexto, comunicación dirigida, profundidad en las respuestas y reacciones ante situaciones inciertas.

Cada tema representa diferentes desafíos en la toma de decisiones médicas e interacciones con el usuario y contiene ejemplos relevantes, con criterios de rúbrica específicos. Cada criterio de rúbrica tiene un eje que define qué aspecto del comportamiento del modelo califica, como la precisión, la calidad de la comunicación o la búsqueda de contexto.

Para garantizar la fiabilidad de HealthBench, OpenAI realizó una meta-evaluación comparando las respuestas del modelo con las evaluaciones de los médicos reales.

De esta forma, HealthBench busca ser un punto de referencia para investigadores, desarrolladores clínicos o proveedores de atención médica, proporcionando las métricas y los procesos estándar necesarios para cuantificar y mejorar el rendimiento de modelos de IA en escenarios clínicos realistas.

Fuentes:

OpenAI

HealthBench

Please follow and like us: