Nace una nueva forma de inteligencia artificial que aprende e imagina como los humanos

Científicos anuncia un nuevo modelo de inteligencia artificial generativa radicalmente nuevo que utiliza los mecanismos de la mente humana para crear imágenes a partir de texto

Meta, la compañía dirigida por Mark Zuckerberg que controla Facebook e Instagram, asegura tener un nuevo modelo de inteligencia artificial que imita la manera que tenemos los humanos de razonar y que nos traerá imágenes mucho más realistas de lo que hemos visto hasta ahora.

El nuevo modelo se llama I-JEPA (Arquitectura predictiva de incrustación conjunta de imágenes, en sus siglas en inglés) y según sus desarrolladores cambiará por completo la manera de analizar y crear imágenes. Meta ha anunciado que dará acceso a los componentes de I-JEPA a los investigadores para que puedan desarrollar sus propios productos con él. 

Una IA con sentido común

I-JEPA está basado en las ideas de Yann LeCun, el investigador jefe de IA en Meta y uno de los padres de la inteligencia artificial según algunos. LeCun aboga por acercar la inteligencia artificial a la manera en la que piensan los humanos. Para esto es clave enseñar a la IA sentido común o, dicho de otra manera, modelos de cómo funciona el mundo.

"Los animales humanos y no humanos parecen capaces de aprender enormes cantidades de conocimientos previos sobre cómo funciona el mundo mediante la observación y a través de una cantidad incomprensiblemente pequeña de interacciones de forma independiente de la tarea y sin supervisión", afirma LeCun. "Cabe plantear la hipótesis de que este conocimiento acumulado puede constituir la base de lo que suele llamarse sentido común".

Los investigadores de Meta piensan que el sentido común puede verse como una colección de modelos del mundo que pueden orientar sobre lo que es probable, lo que es plausible y lo que es imposible. Algo que sirve, no solo para afrontar situaciones desconocidas y predecir resultados futuros, sino también para completar la información que falta. Para conseguirlo, LeCun propone crear una arquitectura basada en seis módulos: el módulo configurador, que se encarga del control ejecutivo del resto de módulos; el módulo de percepción, que recibe señales de los sensores que le ayudan a comprender lo que ocurre en el exterior; el módulo de modelo del mundo, que permite estimar qué información falta de los datos proporcionados por la percepción y predecir estados futuros plausibles del mundo; el módulo de coste, que busca minimizar el coste a largo plazo y, según LeCun, es donde residen los impulsos básicos del comportamiento y las motivaciones intrínsecas; el módulo actor, que optimiza la secuencia de acciones y realiza la primera acción de esa secuencia; y el módulo de memoria a corto plazo, que se encarga de mantener un registro del estado actual y previsto del mundo, así como de los costes asociados. 

Cómo se aplica esto a la creación de imágenes

Los sistemas de inteligencia artificial generativos modernos crean imágenes a partir de texto con un modelo llamado ‘diffusion’. Estas IAs, como Midjourney o Stable Diffusion, se entrenan con cientos de millones de imágenes distintas que van acompañadas de una descripción de texto. El modelo entonces descompone la imagen en una nube de pixeles y luego invierte el proceso para aprender a convertir ese ruido de píxeles en la imagen original.

I-JEPA, sin embargo, aplica sus seis modelos para dotar al sistema de 'sentido común' y evitar los errores habituales de las actuales IAs generativas como las manos deformadas y con dedos de más. "I-JEPA aprende creando un modelo interno del mundo exterior, que compara representaciones abstractas de imágenes (en lugar de comparar los propios píxeles)", explica la empresa en un artículo publicado el martes.

El sistema, dicen, predice la representación de partes de una entrada, que puede venir de una imagen o un texto, a partir de la representación de otras partes de la misma entrada. La idea es completar la información que falta en una representación abstracta de manera parecida a cómo comprendemos la información los humanos.

Los beneficios de este método son, según los estudios realizados por Meta, una mayor eficiencia en la generación de imágenes y en el uso de la capacidad computacional de los ordenadores y una menor incidencia de sesgos relacionados con este tipo de tecnologías. Aun así, los investigadores avisan de que esto es solo el principio. "Estamos deseando trabajar para ampliar el enfoque JEPA a otros dominios, como los datos emparejados de imagen-texto y los datos de vídeo", escriben. "En el futuro, los modelos JEPA podrían tener aplicaciones interesantes en tareas como la comprensión de vídeos".




Artículo Anterior Artículo Siguiente