Home Tecnología La técnica de IA inspirada en el cerebro imita el procesamiento visual...

La técnica de IA inspirada en el cerebro imita el procesamiento visual humano para mejorar la visión artificial

74
0

Estructuras de procesamiento de información de la corteza visual del cerebro y las redes neuronales artificiales. En la corteza visual del cerebro real, las neuronas están conectadas de manera amplia y suave alrededor de un punto central, con fuerza de conexión que varía gradualmente con la distancia (A, B). Esta conectividad espacial sigue una curva en forma de campana conocida como “distribución gaussiana”, lo que permite al cerebro integrar la información visual no solo del centro sino también de las áreas circundantes. Por el contrario, las redes neuronales convolucionales tradicionales (CNN) la información del proceso al hacer que las neuronas se centren en una región rectangular fija (p. Ej., 3 × 3, 5 × 5, etc.) (C, D). Los filtros CNN se mueven a través de una imagen a intervalos regulares, extrayendo información de manera uniforme, lo que limita su capacidad para capturar relaciones entre elementos visuales distantes o responder selectivamente en función de la importancia. Este estudio aborda las diferencias entre estas estructuras biológicas y CNN, proponiendo una nueva estructura de filtro llamada “Convolución LP” que imita los patrones de conectividad del cerebro. En esta estructura, el rango y la sensibilidad de la entrada de una neurona están diseñados para propagarse naturalmente en una forma gaussiana, lo que permite que el sistema se autojuste durante el entrenamiento, enfatizando la información importante con más fuerza mientras minimiza los detalles menos relevantes. Esto permite el procesamiento de imágenes que es más flexible y alineado biológicamente en comparación con los CNN tradicionales. Crédito: Instituto de Ciencias Básicas

Un equipo de investigadores del Instituto de Ciencias Básicas, la Universidad de Yonsei y el Instituto Max Planck han desarrollado una nueva técnica de inteligencia artificial (IA) que acerca la visión de la máquina a la forma en que el cerebro humano procesa las imágenes. Llamado LP-Convolution, este método mejora la precisión y la eficiencia de los sistemas de reconocimiento de imágenes al tiempo que reduce la carga computacional de los modelos de IA existentes.

El cerebro humano es notablemente eficiente para identificar detalles clave en escenas complejas, una capacidad que los sistemas tradicionales de IA han luchado para replicar. Las redes neuronales convolucionales (CNN), el modelo AI más utilizado para el reconocimiento de imágenes, procesan imágenes con filtros pequeños de forma cuadrada. Si bien es efectivo, este enfoque rígido limita su capacidad para capturar patrones más amplios en datos fragmentados.

Más recientemente, los transformadores de visión han mostrado un rendimiento superior al analizar imágenes completas a la vez, pero requieren una potencia computacional masiva y grandes conjuntos de datos, lo que los hace poco prácticos para muchas aplicaciones del mundo real.

Inspirada en cómo la corteza visual del cerebro procesa la información selectivamente a través de conexiones circulares y escasas, el equipo de investigación buscó un término medio: ¿podría un enfoque de cerebro hacer que los CNN sean eficientes y poderosos?

Introducción de LP-Convolution: una forma más inteligente de ver

Para responder a esto, el equipo desarrolló LP-Convolution, un método novedoso que utiliza una distribución normal generalizada multivariada (MPND) para remodelar los filtros CNN dinámicamente. A diferencia de los CNN tradicionales, que usan filtros cuadrados fijos, LP-Convolution permite que los modelos de IA adapten sus formas de filtro, que se extiende horizontal o verticalmente en función de la tarea, al igual que el cerebro humano se centra selectivamente en detalles relevantes.

Este avance resuelve un desafío de larga data en la investigación de IA, conocido como el gran problema del núcleo. Simplemente aumentar los tamaños de filtro en CNN (por ejemplo, usar núcleos 7 × 7 o más) generalmente no mejora el rendimiento, a pesar de agregar más parámetros. LP-Convolution supera esta limitación al introducir patrones de conectividad flexibles e inspirados biológicamente.

Diseño inspirado en el cerebro de la convolución LP. El cerebro procesa la información visual utilizando una estructura de conectividad de forma gaussiana que se extiende gradualmente desde el centro hacia afuera, integrando de manera flexible una amplia gama de información. Por el contrario, los CNN tradicionales enfrentan problemas en los que expandir el tamaño del filtro diluye la información o reduce la precisión (D, E). Para superar estas limitaciones estructurales, el equipo de investigación desarrolló una convolución LP, inspirada en la conectividad del cerebro (A-C). Este diseño distribuye espacialmente pesos para preservar la información clave incluso en grandes campos receptivos, abordando efectivamente las deficiencias de los CNN convencionales. Crédito: Instituto de Ciencias Básicas

Rendimiento del mundo real: más fuerte, más inteligente y más robusto AI

En las pruebas en conjuntos de datos de clasificación de imágenes estándar (CIFAR-100, TinyImagenet), la convolución LP mejoró significativamente la precisión en los modelos clásicos como Alexnet y las arquitecturas modernas como Replknet. El método también demostró ser muy robusto contra los datos corruptos, un gran desafío en las aplicaciones de IA del mundo real.

Además, los investigadores encontraron que cuando las más de LP utilizadas en su método se parecían a una distribución gaussiana, los patrones de procesamiento internos de la IA coincidían estrechamente la actividad neuronal biológica, como se confirma a través de las comparaciones con los datos del cerebro del ratón.

“Los humanos vamos rápidamente a lo que importa en una escena llena de gente”, dijo el Dr. C. Justin Lee, director del Centro de Cognición y Socialidad del Instituto de Ciencias Básicas. “Nuestra convolución LP imita esta capacidad, permitiendo que la IA se concentre de manera flexible en las partes más relevantes de una imagen, al igual que el cerebro”.

Impacto y aplicaciones futuras

A diferencia de los esfuerzos anteriores que se basaban en filtros pequeños y rígidos o transformadores requeridos con recursos, LP-Convolution ofrece una alternativa práctica y eficiente. Esta innovación podría revolucionar campos como:

Conducción autónoma, donde la IA debe detectar rápidamente obstáculos en las imágenes médicas en tiempo real, mejorando los diagnósticos basados ​​en la IA destacando detalles sutiles de robótica, permitiendo una visión de máquina más inteligente y más adaptable en condiciones cambiantes

“Este trabajo es una contribución poderosa tanto para la IA como para la neurociencia”, dijo el director Lee. “Al alinear la IA más estrechamente con el cerebro, hemos desbloqueado un nuevo potencial para CNN, haciéndolos más inteligentes, más adaptables y más biológicamente realistas”.

Mirando hacia el futuro, el equipo planea refinar aún más esta tecnología, explorando sus aplicaciones en tareas de razonamiento complejas, como la resolución de rompecabezas (por ejemplo, Sudoku) y el procesamiento de imágenes en tiempo real.

El estudio se presentará en la Conferencia Internacional sobre Representaciones de Aprendizaje (ICLR 2025), y el equipo de investigación ha puesto su código y modelos a disposición públicamente en GitHub y OpenReview.net.

Más información: La convolución 𝐿𝑝 inspirada en el cerebro beneficia a los grandes núcleos y se alinea mejor con la corteza visual. OpenReview.net/forum?id=0LSAMFCC4P

Proporcionado por el Instituto de Ciencias Básicas

Cita: la técnica de IA inspirada en el cerebro imita el procesamiento visual humano para mejorar la visión artificial (2025, 22 de abril) Recuperado el 22 de abril de 2025 de https://techxplore.com/news/2025-04-brain-ai-technique-mimics-human.html

Este documento está sujeto a derechos de autor. Además de cualquier trato justo con el propósito de estudio o investigación privada, no se puede reproducir ninguna parte sin el permiso por escrito. El contenido se proporciona solo para fines de información.