Home Tecnología Algoritmo basado en LLMS Tasas de compresión de datos sin pérdidas

Algoritmo basado en LLMS Tasas de compresión de datos sin pérdidas

76
0

Imagen comparando las tasas de compresión sin pérdidas de LMCompress con los métodos tradicionales de vanguardia y el método basado en el modelo grande que fue propuesto independientemente por un equipo de Meta e Inria de DeepMind-Meta. La comparación se realiza en cuatro tipos de datos: imagen, video, audio y texto. Muestra que LMCOMPress supera constantemente a los demás en todos los tipos de datos. Tenga en cuenta que el resultado de DeepMind en el video no está disponible. Crédito: Li et al.

Las personas almacenan grandes cantidades de datos en sus dispositivos electrónicos y transfieren algunos de estos datos a otros, ya sea por razones profesionales o personales. Por lo tanto, los métodos de compresión de datos son de suma importancia, ya que pueden aumentar la eficiencia de los dispositivos y las comunicaciones, lo que hace que los usuarios dependan menos de los servicios de datos en la nube y los dispositivos de almacenamiento externos.

Investigadores del Instituto Central de Instituto de Inteligencia Artificial, Laboratorio Peng Cheng, Universidad Tecnológica de Dalian, la Academia de Ciencias de China y la Universidad de Waterloo introdujeron recientemente LMCOMPress, un nuevo enfoque de compresión de datos basado en grandes modelos de idiomas (LLM), como el modelo que sube a la plataforma de conversación AI de AI.

Se descubrió que su método propuesto, descrito en un artículo publicado en Nature Machine Intelligence, es significativamente más poderoso que los algoritmos de compresión de datos clásicos.

“En enero de 2023, cuando enseñé un curso de complejidad de Kolmogorov en la Universidad de Waterloo, reflexioné sobre la idea de que la compresión es comprensiva”, dijo Ming Li, autor principal del periódico, a Tech Xplore. “En otras palabras, si comprende algo, puede expresarlo sucintamente; y si puede expresar algo en una expresión muy corta o en pocas palabras, entonces debe entenderlo.

“En este artículo: demostramos que la compresión implica el mejor aprendizaje/comprensión. Lo contrario se demostró en uno de nuestros otros documentos, que era un precursor de este trabajo, mientras que otro artículo de Google Deepmind obtuvo independientemente nuestros resultados iniciales”.

Imagen que ilustra la visión clave del papel del equipo. La idea de que la comprensión es equivalente a la compresión une un concepto cognitivo (comprensión) y un concepto tecnológico (compresión). Arroja luz sobre el desarrollo de tecnologías basadas en la comprensión, por ejemplo, la comunicación semántica. Crédito: Li et al.

Como parte de su reciente estudio, Li y sus colegas se propusieron demostrar que los mejores modelos comprenden datos, mejor pueden resumirlos y comprimirlos. Esta idea se remonta a 1948, específicamente a la reconocida teoría matemática de la comunicación de Claude Shannon.

“Shannon esencialmente propuso que si comprende los datos que se comunicarán, entonces puede comprimirlos, o en otras palabras, acortar el tiempo de comunicación”, explicó Li. “Durante 80 años, este desafío de la idea de investigación se mantuvo abierto, hasta que aparecieron los modelos de IA y grandes idiomas. Nuestro documento esencialmente propone que si un modelo de lenguaje grande puede comprender bien los datos, debe ser capaz de adivinar qué planeamos escribir, lo que nos permite comprimir los datos significativamente mejor que los mejores compresores de datos sin pérdidas clásicas (p. Ej.

La idea básica detrás del algoritmo de compresión de datos de los investigadores es que si un LLM sabe lo que escribirá un usuario, no necesita transmitir ningún dato, pero simplemente puede generar lo que el usuario quiere que transmita en el otro extremo (es decir, en el dispositivo de un receptor). Cuando Li y sus colegas probaron su enfoque propuesto, descubrieron que al menos duplicaba las tasas de compresión para diferentes tipos de datos, incluidos textos, imágenes, videos y archivos de audio.

“Esto es sorprendente en el sentido de que después de 80 años de investigación, si solo mejora un algoritmo de compresión sin pérdidas en incluso un 1%, esto ya es notable y pudimos duplicar las tasas de compresión”, dijo Li. “LMCOMPress es un algoritmo de compresión que utiliza modelos grandes (modelo de lenguaje grande para textos, modelo de imagen grande para imágenes, etc.). Comprime textos más de dos veces mejores que los algoritmos clásicos, las imágenes y los audios dos veces mejor, y el video un poco menos que dos veces mejor. Cuando transmite datos, puede pasar aproximadamente dos veces más rápido”.

Este reciente documento de Li y sus colegas podrían informar los esfuerzos futuros destinados a desarrollar técnicas de compresión de datos cada vez más avanzadas, inspirando a otros investigadores a aprovechar los LLM. Además, el algoritmo LMCompress del equipo pronto podría mejorarse aún más e implementarse en entornos del mundo real.

“Demostramos que la comprensión es igual a la compresión, y creemos que esto es de importancia crucial”, agregó Li. “También pavimentamos el camino para una nueva era de datos de comprimir medios de comunicación. Creemos que en el futuro, cuando estos modelos grandes están en nuestros teléfonos celulares y en todas partes, nuestro método de comprimir datos reemplazará a los clásicos (por ejemplo, archivos .zip). En nuestros próximos estudios, también planeamos usar nuestra metodología para comparar modelos grandes y detectar el plagiarismo”.

Más información: Ziguang Li et al, compresión de datos sin pérdidas por modelos grandes, inteligencia de la máquina de la naturaleza (2025). Doi: 10.1038/s42256-025-01033-7

© 2025 Science X Network

Cita: Algoritmo basado en LLMS Duplica las tasas de compresión de datos sin pérdidas (2025, 14 de mayo) Recuperado el 14 de mayo de 2025 de https://techxplore.com/news/2025-05-algorithm basado en algoritmo-llms-lossless-compression.html

Este documento está sujeto a derechos de autor. Además de cualquier trato justo con el propósito de estudio o investigación privada, no se puede reproducir ninguna parte sin el permiso por escrito. El contenido se proporciona solo para fines de información.