Home Tecnología ¿Los chatbots tienen una brújula moral? Los investigadores recurren a Reddit para...

¿Los chatbots tienen una brújula moral? Los investigadores recurren a Reddit para averiguar

62
0

Crédito: dominio público Unsplash/CC0

Al desafiar los chatbots de IA para juzgar miles de dilemas morales publicados en un popular foro de Reddit, los investigadores de UC Berkeley revelaron que cada plataforma parece seguir su propio conjunto de ética.

Cada vez más personas recurren a Chatgpt u otros chatbots de IA para obtener consejos y apoyo emocional, y es fácil ver por qué. A diferencia de un amigo o un terapeuta, un chatbot siempre está disponible, escucha todo lo que tiene que decir y proporciona respuestas que a menudo son reflexivas y validantes.

Pero confiar en chatbots puede ser arriesgado. Muchas de estas tecnologías son diseñado principalmente para impulsar el compromisoy puede proporcionar a los usuarios respuestas que son falsas o dañinas. Y a diferencia de un amigo o terapeuta, la salida de un chatbot refleja las normas y sesgos del conjunto de datos del algoritmo, que podría diferir de las de su grupo o comunidad social.

Con muchas personas que buscan consejos de chatbots, estas normas y prejuicios desconocidos podrían tener un impacto sorprendente en el comportamiento humano y la sociedad en general.

“A través de sus consejos y comentarios, estas tecnologías están dando forma a cómo actúan los humanos, qué creen y qué normas se adhieren”, dijo Pratik Sachdeva, un científico senior de datos de la D-Lab de UC Berkeley. “Pero muchas de estas herramientas son propietarias. No sabemos cómo fueron entrenados. No sabemos cómo están alineados”.

Para comenzar a revelar las normas ocultas codificadas en los chatbots de IA populares y cómo podrían afectar el comportamiento humano, Sachdeva y Tom Van Nuenen, científico de datos y profesor de datos en el D-Lab, recurrieron a la fuente favorita de dilemas morales de Internet: Reddit “¿Soy el imbécil?” (o AITA) Foro.

En un estudio, publicado como pre-impresión En ARXIV, Sachdeva y Van Nuenen se enfrentaron a cada uno de los siete modelos de idiomas grandes diferentes (LLM), los sistemas de IA que impulsan los chatbots, con más de 10,000 conflictos sociales del mundo real publicados en el foro, pidiéndoles que decidan quién tuvieron la culpa en cada situación y comparó sus respuestas con las de los usuarios de Reddit.

Descubrieron que los siete chatbots a menudo mostraban diferencias sorprendentes en cómo juzgaron los dilemas morales de los usuarios de Reddit, revelando que cada LLM refleja diferentes estándares éticos. Sin embargo, cuando compararon sus juicios con los de los usuarios de Reddit, o Redditors, descubrieron que la opinión de consenso de los siete chatbots generalmente estuvo de acuerdo con la opinión de consenso de las personas en Reddit.

“Cuando tenga un dilema, puede preguntarle a una serie de amigos diferentes lo que piensan, y cada uno de ellos podría darle una opinión diferente. En esencia, esto es lo que los usuarios de Reddit están haciendo en el foro de AITA”, dijo Sachdeva.

“Podrías hacer lo mismo con los chatbots: primero, le preguntas a Chatgpt, luego le preguntas a Claude y luego le preguntas a Géminis. Cuando hicimos eso, descubrimos que había coherencia entre las opiniones mayoritarias de los redditores y la opinión mayoritaria de los chatbots”.

En el foro de AITA, los Redditors comparten conflictos interpersonales cotidianos, que van desde promesas rotas hasta violaciones de privacidad, y otros usuarios discuten si el póster original tenía la culpa moralmente en la situación.

Los encuestados comparten su razonamiento junto con frases estándar, incluido “usted es el imbécil”, “no el gilipollas”, “no hay imbéciles aquí”, “todos son el gilipollas” y “más información necesaria”. La respuesta que recibe la mayor cantidad de votos se considera el veredicto final.

“‘¿Soy el imbécil?” es un antídoto útil para los dilemas morales muy estructurados que vemos en mucha investigación académica “, dijo Van Nuenen.” Las situaciones son desordenadas, y es esa desorden con la que queríamos enfrentar modelos de idiomas grandes “.

Las frases de respuesta estandarizadas también facilitan evaluar los juicios morales de los chatbots y compararlas entre sí y con los usuarios reales de Reddit, dijo Van Nuenen.

En el estudio, Sachdeva y Van Nuenen consultaron siete LLM, incluidos GPT-3.5 de OpenAi y GPT-4; Claude Haiku; Google’s Palm 2 Bison y Gemma 7b; Meta’s Llama 2 7B; y Mistral 7b. Para cada escenario de AITA, los investigadores solicitaron que la LLM proporcionara una respuesta estandarizada y una breve descripción de su razonamiento.

Aunque los modelos a menudo no estaban de acuerdo entre sí, generalmente eran muy consistentes, lo que significa que cuando los investigadores planteaban un modelo con el mismo dilema varias veces, tendía a proporcionar la misma respuesta cada vez. Esto sugiere que los modelos no responden al azar, sino que están codificando diferentes normas y valores.

Para comenzar a separar estas diferencias en el razonamiento moral, los investigadores analizaron las respuestas escritas de la LLMS, prestando atención a cuán sensible era cada modelo a seis temas morales amplios, incluidas la equidad, los sentimientos, los daños, la honestidad, la obligación relacional y las normas sociales.

“Descubrimos que ChatGPT-4 y Claude son un poco más sensibles a los sentimientos en relación con los otros modelos, y que muchos de estos modelos son más sensibles a la equidad y los daños, y menos sensibles a la honestidad”, dijo Sachdeva.

Eso podría significar que al evaluar un conflicto, es más probable que se ponga del lado de alguien que fuera deshonesto que alguien que causó daño. “Todavía estamos sentando las bases, pero en el trabajo futuro esperamos identificar algunas tendencias sobresalientes”.

Curiosamente, descubrieron que Mistral 7b dependía en gran medida de la etiqueta “No hay imbéciles aquí”, no necesariamente porque pensaba que nadie tenía la culpa, sino porque estaba tomando el término “gilipollas” más literalmente que otros modelos.

“Su propia internalización del concepto de imbéciles era muy diferente de los otros modelos, lo que plantea preguntas interesantes sobre la capacidad de un modelo para recoger las normas del subreddit”, dijo Sachdeva.

En un estudio de seguimiento, Sachdeva y Van Nuenen están explorando cómo los chatbots deliberan entre sí en los dilemas morales. Sus hallazgos preliminares indican que los modelos tienen diferentes enfoques para conformar y alcanzar el consenso. Por ejemplo, los modelos GPT tenían menos probabilidades de cambiar su asignación de culpa en los dilemas morales cuando se les dio el retroceso de otros modelos. También refinaron su análisis de valores, descubriendo que diferentes modelos se basaban en diferentes valores para hacer sus argumentos.

Mientras Sachdeva y Van Nuenen continúan estudiando el funcionamiento interno de los principales modelos de IA y abogando por una mayor transparencia en el diseño y el desarrollo de la IA, esperan que su investigación también resalte la importancia de ser conscientes de cómo todos usamos la tecnología, y las formas astutas de que podría estar influyendo en nosotros.

“Queremos que las personas estén pensando activamente en por qué están usando LLM, cuando están usando LLM y si están perdiendo el elemento humano confiando demasiado en ellos”, dijo Sachdeva.

“Pensar en cómo los LLM podrían estar reestructurando nuestro comportamiento y creencias es algo que solo los humanos pueden hacer”.

Más información: Pratik S. Sachdeva et al, Evaluación normativa de modelos de idiomas grandes con dilemas morales cotidianos, ARXIV (2025). Doi: 10.48550/arxiv.2501.18081

Información en el diario: ARXIV

Proporcionado por la Universidad de California – Berkeley

Cita: ¿Los chatbots tienen una brújula moral? Los investigadores recurren a Reddit para averiguar (2025, 11 de septiembre) recuperado el 11 de septiembre de 2025 de https://techxplore.com/news/2025-09-chatbots-moral-compass-reddit.html

Este documento está sujeto a derechos de autor. Además de cualquier trato justo con el propósito de estudio o investigación privada, no se puede reproducir ninguna parte sin el permiso por escrito. El contenido se proporciona solo para fines de información.

Fuente de noticias