Los estudios encuentran sesgo en los modelos de IA que recomiendan y diagnostican enfermedades


La investigación sobre métodos basados ​​en modelos de aprendizaje automático e inteligencia artificial para el cuidado de la salud sugiere que son prometedores en las áreas de clasificación de fenotipos, predicción de mortalidad y duración de la estadía, y recomendación de intervenciones. Pero los modelos han sido tratados tradicionalmente como cajas negras en el sentido de que la razón detrás de sus sugerencias no se explica ni se justifica. Esta falta de interpretabilidad, además del sesgo en sus conjuntos de datos de capacitación, amenaza con obstaculizar la efectividad de estas tecnologías en cuidados críticos.

Dos estudios publicados esta semana subrayan los desafíos que aún deben superarse al aplicar la IA en entornos de punto de atención. En el primero, investigadores de la Universidad del Sur de California, Los Ángeles evaluado la equidad de los modelos entrenados con Medical Information Mart para Cuidados Intensivos IV (MIMIC-IV), el mayor conjunto de datos de registros médicos disponible al público. El otro, que era coautor por científicos de la Universidad Queen Mary, explora las barreras técnicas para entrenar modelos de atención médica imparciales. Ambos llegan a la conclusión de que los modelos aparentemente “justos” diseñados para diagnosticar enfermedades y recomendar tratamientos son susceptibles a prejuicios raciales y de género no intencionados e indeseables.

Como señalan los investigadores de la Universidad del Sur de California, MIMIC-IV contiene los datos no identificados de 383,220 pacientes ingresados ​​en una unidad de cuidados intensivos (UCI) o en el departamento de emergencias del Beth Israel Deaconess Medical Center en Boston, Massachusetts, entre 2008 y 2019. los coautores se centraron en un subconjunto de 43.005 estancias en la UCI, filtrando a los pacientes menores de 15 años que no habían visitado la UCI más de una vez o que permanecieron menos de 24 horas. Entre las muestras estaban representados, hombres y mujeres, hombres y mujeres asiáticos, negros, hispanos y blancos casados ​​o solteros con Medicaid, Medicare o seguro privado.

En uno de varios experimentos para determinar hasta qué punto podría existir sesgo en el subconjunto MIMIC-IV, los investigadores entrenaron un modelo para recomendar una de las cinco categorías de ventilación mecánica. De manera alarmante, encontraron que las sugerencias del modelo variaban entre diferentes grupos étnicos. Las cohortes negras e hispanas tenían menos probabilidades de recibir tratamientos de ventilación, en promedio, mientras que también recibieron una duración de tratamiento más corta.

El estado del seguro también pareció haber jugado un papel en la toma de decisiones del modelo de tratamiento con ventilador, según los investigadores. Los pacientes con seguro privado tendían a recibir tratamientos de ventilación más largos y más prolongados en comparación con los pacientes de Medicare y Medicaid, presumiblemente porque los pacientes con un seguro generoso podían pagar un mejor tratamiento.

Los investigadores advierten que existen “múltiples factores de confusión” en MIMIC-IV que podrían haber llevado al sesgo en las predicciones del ventilador. Sin embargo, señalan esto como una motivación para observar más de cerca los modelos en el cuidado de la salud y los conjuntos de datos utilizados para entrenarlos.

En el estudio publicado por investigadores de la Universidad Queen Mary, la atención se centró en la equidad de la clasificación de imágenes médicas. Usando CheXpert, un conjunto de datos de referencia para el análisis de rayos X de tórax que comprende 224,316 radiografías anotadas, los coautores entrenaron un modelo para predecir una de las cinco patologías a partir de una sola imagen. Luego buscaron desequilibrios en las predicciones que dio el modelo para pacientes masculinos versus femeninos.

Antes de entrenar el modelo, los investigadores implementaron tres tipos de “regularizadores” destinados a reducir el sesgo. Esto tuvo el efecto contrario al esperado: cuando se entrenó con los regularizadores, el modelo fue uniforme menos justo que cuando está entrenado sin que regularizadores. Los investigadores señalan que un regularizador, un regularizador de “pérdidas iguales”, logró una mejor paridad entre hombres y mujeres. Sin embargo, esta paridad se produjo a costa de una mayor disparidad en las predicciones entre los grupos de edad.

“Los modelos pueden fácilmente sobreajustarse a los datos de entrenamiento y así dar una falsa sensación de equidad durante el entrenamiento que no se generaliza al conjunto de prueba”, escribieron los investigadores. “Nuestros resultados describen algunas de las limitaciones de las intervenciones de tiempo de tren actuales para la equidad en el aprendizaje profundo”.

Los dos estudios se basan en investigaciones anteriores que muestran un sesgo generalizado en los modelos predictivos de atención médica. Debido a la reticencia a publicar códigos, conjuntos de datos y técnicas, gran parte de los datos utilizados para entrenar algoritmos para diagnosticar y tratar enfermedades pueden perpetuar las desigualdades.

Recientemente, un equipo de científicos del Reino Unido encontró que casi todos los conjuntos de datos de enfermedades oculares provienen de pacientes en América del Norte, Europa y China, lo que significa que es menos seguro que los algoritmos de diagnóstico de enfermedades oculares funcionen bien para grupos raciales de países subrepresentados. En otro estudio, Los investigadores de la Universidad de Stanford afirmaron que la mayoría de los datos estadounidenses para los estudios que involucran usos médicos de la IA provienen de California, Nueva York y Massachusetts. A estudio de un algoritmo de UnitedHealth Group determinó que podría subestimar a la mitad el número de pacientes negros que necesitan mayor atención. Investigadores de la Universidad de Toronto, el Vector Institute y el MIT demostraron que conjuntos de datos de rayos X de tórax ampliamente utilizados codificar prejuicios raciales, de género y socioeconómicos. Y un creciente cuerpo de trabajo sugiere que los algoritmos de detección de cáncer de piel tienden a ser menos precisos cuando se usan en pacientes negros, en parte porque los modelos de IA se entrenan principalmente en imágenes de pacientes de piel clara.

El sesgo no es un problema fácil de resolver, pero los coautores de un estudio reciente recomiendan que los profesionales de la salud apliquen Análisis de equidad “rigurosos” antes de la implementación como una solución. También sugieren que las exenciones de responsabilidad claras sobre el proceso de recopilación del conjunto de datos y el posible sesgo resultante podrían mejorar las evaluaciones para el uso clínico.

VentureBeat

La misión de VentureBeat es ser una plaza urbana digital para que los responsables de la toma de decisiones técnicas obtengan conocimientos sobre tecnología transformadora y realicen transacciones. Nuestro sitio ofrece información esencial sobre tecnologías y estrategias de datos para guiarlo a medida que dirige sus organizaciones. Te invitamos a convertirte en miembro de nuestra comunidad, para acceder a:

  • información actualizada sobre los temas de su interés
  • nuestros boletines
  • contenido exclusivo de líderes de opinión y acceso con descuento a nuestros preciados eventos, como Transform
  • funciones de red y más

Hazte miembro

Latest articles

El condado de los Ángeles supera las 22.000 muertes por COVID-19

Los funcionarios de salud pública del condado de Los Ángeles informaron el sábado 1.823 nuevos casos de coronavirus y 98 muertes relacionadas, y...

Goldman Sachs ve una gran demanda institucional de Bitcoin: el 76% de los clientes dicen que el precio de BTC podría alcanzar los $...

Una comunidad dedicada a Bitcoin, la moneda de Internet. Bitcoin es un dinero digital descentralizado distribuido en todo el mundo. Los...

10 hallazgos para todo tipo de mujeres en la feria del Día Internacional de la Mujer de Shopee

¿Tu mejor amiga es una de estas mujeres? Este 8 de marzo, hazla sentir especial con regalos de hasta un 90%...

Elija un chico famoso y atractivo para cada letra del alfabeto y le revelaremos si es introvertido o extrovertido

Prepárese para babear con estas opciones.Ver toda la publicación ›
31.5k Followers
Follow

Related articles

Leave a reply

Please enter your comment!
Please enter your name here

Translate »