Crédito: dominio público Unsplash/CC0
Los modelos de inteligencia artificial utilizados para detectar depresión en las redes sociales a menudo son sesgados y metodológicamente defectuosos, según un estudio dirigido por graduados de informática de la Northeastern University.
Yuchen Cao y Xiaorui Shen eran estudiantes de posgrado en el campus de Seattle de Northeastern cuando comenzaron a examinar cómo los modelos de aprendizaje automático y de aprendizaje profundo se estaban utilizando en la investigación de salud mental, particularmente siguiendo la pandemia Covid-19.
Al asociarse con sus compañeros de varias universidades, realizaron una revisión sistemática de los documentos académicos que usan IA para detectar depresión entre los usuarios de las redes sociales. Sus hallazgos fueron publicado En el Journal of Behavioral Data Science.
“Queríamos ver cómo el aprendizaje automático o los modelos de AI o de aprendizaje profundo se estaban utilizando para la investigación en este campo”, dice Cao, ahora ingeniero de software de Meta.
Las plataformas de redes sociales como Twitter, Facebook y Reddit ofrecen a los investigadores un tesoro de contenido generado por el usuario que revela emociones, pensamientos y patrones de salud mental. Estas ideas se utilizan cada vez más para entrenar herramientas de IA para detectar signos de depresión. Pero la revisión liderada por el noreste encontró que muchos de los modelos subyacentes estaban sintonizados de manera inadecuada y carecían del rigor necesario para la aplicación del mundo real.
El equipo analizó cientos de documentos y seleccionó 47 estudios relevantes publicados después de 2010 de bases de datos como PubMed, IEEE Xplore y Google Scholar. Descubrieron que muchos de estos estudios fueron escritos por expertos en medicina o psicología, no informática, que crían preocupaciones sobre la validez técnica de sus métodos de IA.
“Nuestro objetivo era explorar si los modelos actuales de aprendizaje automático son confiables”, dice Shen, ahora ahora ingeniero de software en Meta. “Descubrimos que algunos de los modelos utilizados no estaban sintonizados correctamente”.
Los modelos tradicionales como máquinas de vectores de soporte, árboles de decisión, bosques aleatorios, impulso de gradiente extremo y regresión logística se usaron comúnmente. Algunos estudios emplearon herramientas de aprendizaje profundo como redes neuronales convolucionales, redes de memoria a largo plazo a largo plazo y Bert, un modelo de lenguaje popular.
Sin embargo, la revisión descubrió varios temas importantes:
Solo el 28% de los estudios ajustados adecuadamente los hiperparámetros, la configuración que guía cómo los modelos aprenden de los datos. Aproximadamente el 17% no dividió adecuadamente los datos en conjuntos de capacitación, validación y prueba, aumentando el riesgo de sobreajuste. Muchos se basaron en gran medida en la precisión como la única métrica de rendimiento, a pesar de los conjuntos de datos desequilibrados que podrían sesgar los resultados y pasar por alto la clase minoritaria, en este caso, los usuarios que muestran signos de depresión.
“Hay algunas constantes o estándares básicos, que todos los informáticos saben, como,” antes de hacer A, debes hacer B “, lo que te dará un buen resultado”, dice Cao. “Pero eso no es algo que todos los que están fuera de este campo conocen, y puede conducir a malos resultados o inexactitud”.
Los estudios también mostraron sesgos de datos notables. X (anteriormente Twitter) fue la plataforma más común utilizada (32 estudios), seguida de Reddit (8) y Facebook (7). Solo ocho estudios combinaron datos de múltiples plataformas, y aproximadamente el 90% se basaron en publicaciones en inglés, principalmente de usuarios en los Estados Unidos y Europa.
Estas limitaciones, argumentan los autores, reducen la generalización de los hallazgos y no reflejan la diversidad global de los usuarios de las redes sociales.
Otro desafío importante: matices lingüísticos. Solo el 23% de los estudios explicaron claramente cómo manejaron negaciones y sarcasmo, los cuales son vitales para el análisis de sentimientos y la detección de depresión.
Para evaluar la transparencia de los informes, el equipo usó Probast, una herramienta para evaluar los modelos de predicción. Encontraron que muchos estudios carecían de detalles clave sobre las divisiones de conjuntos de datos y la configuración de hiperparameter, lo que dificulta los resultados de reproducir o validar.
CAO y Shen planean publicar documentos de seguimiento utilizando datos del mundo real para probar modelos y recomendar mejoras.
A veces, los investigadores no tienen suficientes recursos o experiencia en AI para ajustar adecuadamente los modelos de código abierto, dice Cao.
“Entonces (crear) un wiki o un tutorial de papel es algo que creo que es importante en este campo para ayudar a la colaboración”, dice. “Creo que enseñar a las personas cómo hacerlo es más importante que solo ayudarlo a hacerlo, porque los recursos siempre son limitados”.
El equipo presentará sus hallazgos en la Reunión Anual de la Sociedad Internacional de Ciencia y Análisis de Datos en Washington, DC
Más información: Yuchen Cao et al, enfoques de aprendizaje automático para la detección de depresión en las redes sociales: una revisión sistemática de sesgos y desafíos metodológicos, Journal of Behavioral Data Science (2025). Doi: 10.35566/jbds/caoyc
Proporcionado por la Universidad del Nordeste
Esta historia se vuelve a publicar por cortesía de Northeastern Global News News.northeastern.edu.
Cita: sesgos clave en los modelos de IA utilizados para detectar depresión en las redes sociales (2025, 3 de julio) Recuperado el 3 de julio de 2025 de https://techxplore.com/news/2025-07-Key-Chesses-ai-Depression-Social.html
Este documento está sujeto a derechos de autor. Además de cualquier trato justo con el propósito de estudio o investigación privada, no se puede reproducir ninguna parte sin el permiso por escrito. El contenido se proporciona solo para fines de información.