Microsoft AI ha presentado una nueva investigación que demuestra las habilidades de IA en diagnósticos secuenciales, ralentizando a los médicos en recomendaciones precisas y rentables.
El anuncio de la compañía el lunes por la mañana fue doble, presentando un punto de referencia para demostrar el rendimiento de las herramientas de diagnóstico de IA contra expertos humanos y un orquestador agnóstico modelo para resaltar las capacidades de IA cuando se apilan contra ese punto de referencia.
Mufasa Suleyman, CEO de Microsoft AI, cree que esta investigación nos acerca un paso más a la “superinteligencia médica”.
“La forma simple de comprender la superinteligencia médica es que es un modelo que es varias veces mejor que los mejores humanos del mundo, que tiene la amplitud de todos o la mayoría de los médicos expertos en todo el mundo, combinado con la profundidad de cualquier experto”, dijo el pionero de la IA a Newsweek en una entrevista exclusiva antes del anuncio.
El punto de referencia de diagnóstico secuencial interactivo, o SDBench, tomó 304 casos complejos de la Conferencia Clinicopatológica del New England Journal of Medicine (NEJM), que históricamente son difíciles de diagnosticar, y los tradujeron en encuentros de diagnóstico paso a paso que imitan los procesos de toma de decisiones clínicas.
Cada día, se realizan más de 50 millones de búsquedas relacionadas con la salud en los productos de consumo de inteligencia artificial de Microsoft, incluidos Copilot, Bing, Edge y MSN. Los avances de IA en diagnósticos secuenciales podrían conducir a respuestas más útiles y precisas, Microsoft AI … cada día, se realizan más de 50 millones de búsquedas relacionadas con la salud en los productos de consumo de IA de Microsoft, incluidos Copilot, Bing, Edge y MSN. Los avances de IA en diagnósticos secuenciales podrían conducir a respuestas más útiles y precisas, dijeron los ejecutivos de Microsoft AI a Newsweek. Más imágenes de Cheng Xin/Getty
SDBench presenta a los médicos o modelos de IA con un resumen de estuche corto. Luego, el humano o el modelo debe hacer preguntas y pruebas de orden para informar su diagnóstico. Un “modelo Gatekeeper” revela información solo cuando la solicita explícitamente. El diagnóstico final se compara con el estándar de oro del NEJM y se evalúa tanto para la precisión como para el costo.
El nuevo orquestador de diagnóstico de MAI del modelo de Microsoft (MAI-DXO) alcanzó el 85.5 por ciento de precisión de diagnóstico: los médicos generalistas de rendimiento, que alcanzaron el diagnóstico correcto el 20 por ciento del tiempo, en promedio.
MAI-DXO también redujo los costos de diagnóstico en un 20 por ciento en comparación con los médicos al ordenar menos pruebas costosas y alcanzar sus decisiones clínicas más rápidamente.
Dado que Mai-DXO es agnóstico modelo, se puede generalizar en modelos de las familias Operai, Géminis, Claude, Grok, DeepMind y Llama, según Microsoft.
Este gráfico del trabajo de investigación de Microsoft ilustra el proceso de evaluación de SDBench. Tres agentes orquestan la “conversación” entre SDBench y un modelo humano o de IA. A través del agente de diagnóstico (amarillo), los humanos o los modelos de IA pueden hacer preguntas … Este gráfico del documento de investigación de Microsoft ilustra el proceso de evaluación de SDBench. Tres agentes orquestan la “conversación” entre SDBench y un modelo humano o de IA. A través del agente de diagnóstico (amarillo), los modelos humanos o IA pueden hacer preguntas sobre el historial del paciente, los resultados del examen y los resultados de las pruebas. El Agente Gatekeeper (Purple) evalúa esas solicitudes y determina qué información transmite, si la hay, utilizando una base de datos de casos de CPC NEJM. El agente del juez (azul) decide si el diagnóstico final está alineado con el estándar de oro de NEJM. A lo largo del proceso, el agente de diagnóstico rastrea los costos estimados del estudio de diagnóstico, que tiene en cuenta la puntuación final. Más Microsoft
El estudio tiene sus limitaciones. El panel de 21 médicos de Microsoft de los EE. UU. Y el Reino Unido tuvo una mediana de 12 años de experiencia, pero no se les permitió usar motores de búsqueda, modelos de idiomas u otras fuentes de información médica al interactuar con SDBench. Estas herramientas son comunes en las prácticas de los médicos, con aproximadamente 1 de cada 5 usando IA generativa y alrededor de 7 en 10 usando Los motores de búsqueda de forma regular, según investigaciones recientes, por lo que los participantes humanos pueden haber logrado una mayor precisión diagnóstica si se le permite acceder a su conjunto típico de recursos en línea.
Aún así, el equipo de Microsoft dice que la investigación “destaca (s) cómo los sistemas de IA, cuando se guían para pensar de manera iterativa y actuada juiciosamente, pueden avanzar tanto en la precisión del diagnóstico como la rentabilidad en la atención clínica”.
Mai-DXO no se ha implementado en producción, pero su rendimiento inicial ofrece una visión de un alto potencial. La herramienta fue desarrollada por el esfuerzo de salud de Microsoft AI, que se lanzó en silencio a fines de 2024 para crear tecnología y realizar investigaciones que avancen la salud del consumidor.
Un equipo de médicos, diseñadores, ingenieros y científicos de IA ha estado colaborando con Suleyman, CEO de Microsoft AI y cofundador de DeepMind (The AI Company adquirido por Google en 2014 por $ 400 millones). El Dr. Dominic King, vicepresidente Heath de Microsoft AI y ex protagonista en Google Deepmind y Google Health, también es fundamental para el trabajo.
“Dos cosas de las que estamos realmente orgullosos: crear un nuevo punto de referencia para probar el rendimiento de la IA y demostrar que el sistema de orquestadores que creamos funciona increíblemente bien contra ese punto de referencia”, dijo King a Newsweek. “Esto es sin duda lo más emocionante de la que he sido parte”.
Cada día, se realizan más de 50 millones de búsquedas relacionadas con la salud en los productos de consumo de inteligencia artificial de Microsoft, incluidos Copilot, Bing, Edge y MSN. Ya sea que busque un centro de atención urgente cercano o que intente dar sentido a un dolor de cabeza persistente, los pacientes están recurriendo cada vez más a la IA como una puerta principal digital en el sistema de salud. Hay mucha presión sobre las compañías tecnológicas como Microsoft para garantizar que los pacientes encuentren respuestas útiles.
“Tenemos una IA llamada Copilot y la gente vendrá y hablará sobre todo, desde su ansiedad, hasta el dolor de cabeza de sus hijos, hasta condiciones mucho más graves que les preocupa”, dijo Suleyman. “Estas son interacciones conversacionales sostenidas. El copiloto puede hacer un mejor trabajo para estas personas si tiene una buena experiencia en diagnósticos”.
La investigación de Microsoft AI también podría traducirse en ganancias para la industria del cuidado de la salud, ayudando a los médicos a alcanzar un diagnóstico preciso más rápido y con menos pruebas costosas. Cada año en los Estados Unidos, 7.4 millones de personas son mal diagnosticado En salas de emergencias, causando la muerte o discapacidad permanente en 1 de cada 350 pacientes, según un estudio de 2023 de la Agencia para la Investigación y Calidad de la Salud. Además, miles de millones de dólares son gastado sobre pruebas innecesarias, contribuyendo al aumento de la atención médica nacional costo y exacerbar las relaciones entre hospitales y compañías de seguros.
Ahora, Microsoft está trabajando en estrecha colaboración con los sistemas de salud (se negó a compartir cuál) y los médicos para establecer más ensayos e intentar replicar el éxito inicial de Mai-Dxo.
“Esta es una señal muy prometedora del potencial”, dijo King, “pero definitivamente vemos esto como un viaje de varios años que requiere mucho compromiso en todo el sistema de atención médica para acertar”.