Aprendizaje fundamentado multimodal con visión y lenguaje

Aprendizaje fundamentado multimodal con visión y lenguaje
Imagen por editor

¡Hola a todos! Mi nombre es Bogdan Ponomar y soy el director general de AI HOUSE, una comunidad de IA en Ucrania que reúne talentos en decenas de iniciativas, principalmente educativas. Somos parte del rosh ecosistema tecnológico.

En agosto de 2022 lanzamos un nuevo proyecto educativo “IA para Ucrania” – una serie de talleres y conferencias impartidos por expertos internacionales en inteligencia artificial para apoyar el desarrollo de la comunidad tecnológica de Ucrania. Los principales expertos internacionales en IA/ML participaron en este proyecto benéfico y decidimos compartir algunos resúmenes de las sesiones de IA para Ucrania más perspicaces y atractivas.

La primera sinopsis de la serie se dedicó a la conferencia de Joshua Bengio sobre el tema "Reducir la brecha entre el aprendizaje profundo actual y las habilidades cognitivas humanas de alto nivel". Puedes leerlo esta página.

El próximo tema en el que los invito a profundizar es el “Aprendizaje fundamentado multimodal con visión y lenguaje”, presentado por Anna Rohrbach, científica investigadora de UC Berkeley.

Comencemos reconociendo que los seres humanos utilizan una variedad de modalidades, sobre todo la visión y el lenguaje, para percibir su entorno e interactuar entre sí. Es una habilidad humana fundamental describir lo que observamos unos a otros. Tenemos una realidad compartida, que es esencial para comprendernos unos a otros, ya que fundamentamos los conceptos en el mundo que nos rodea.

En la mayoría de los casos, los humanos también usan el lenguaje para transferir conocimientos sobre cosas nuevas.

Por lo tanto, podemos aprender solo a través del lenguaje. En su conferencia, una científica investigadora de UC Berkeley, Anna Rohrbach, discutió cómo proporcionar modelos de IA con capacidades similares, como comunicación, conexión a tierra y aprendizaje del lenguaje. Aunque ha habido un avance significativo en las tareas clásicas de visión y lenguaje, en particular los subtítulos visuales, los modelos de IA a veces todavía tienen dificultades. Uno de los aspectos más desafiantes en el aprendizaje multimodal es la conexión a tierra exacta, es decir, mapear con precisión los conceptos del lenguaje en las observaciones visuales. La falta de una conexión a tierra adecuada puede afectar negativamente a los modelos al producir sesgos o alucinaciones.

Además, incluso los modelos que pueden comunicarse y conectarse a tierra pueden requerir "consejos" humanos o aprender a actuar más como humanos. El lenguaje se usa cada vez más para mejorar los modelos visuales al permitir capacidades de tiro cero, mejorar la generalización, minimizar el sesgo, etc. Anna Rohrbach está particularmente interesada en desarrollar modelos que puedan usar consejos lingüísticos para mejorar su comportamiento. En la charla, Anna explicó cómo ella y otros investigadores en el campo tratan de lograr las capacidades antes mencionadas y los desafíos, así como las emocionantes oportunidades que se avecinan.

La IA ya está en todas partes, impactando todos los aspectos de nuestras vidas, desde la atención médica y la tecnología de asistencia hasta la conducción autónoma y los hogares inteligentes. Además, se establecerán más interacciones similares a las humanas con la IA. Nos comunicaremos más con la IA y generaremos confianza.

En nuestro mundo multimodal, las dos formas principales de interacción son a través de la visión y el lenguaje. La interacción de humano a humano tiene tales formas:

Comunicación sobre lo que ve (p. ej., Mira, un arrendajo azul está sentado en una rama.)
Puesta a tierra de los conceptos a la realidad común
Aprender del lenguaje (p. ej., ¿Sabías que a los arrendajos azules les gusta comer bellotas?)

Estos tres puntos son las prioridades clave para la interacción humano-IA. Los investigadores intentan lograrlo con subtítulos visuales, incluida la asistencia a los usuarios con discapacidad visual y la generación de explicaciones (por ejemplo, bluejay, es un pájaro que es azul arriba y blanco abajo, con una gran cresta y un collar negro). Las explicaciones deben ser fieles e introspectivas.

La tarea de puesta a tierra visual incluye la localización de sustantivos o frases cortas (p. ej., un pico negro, un ala azul). Recientemente, ha habido mucho interés en ampliarlo.

El problema de la alineación entre modalidades que esperamos de los modelos entrenados en IA ocurre a menudo. Esperamos que relacionen las palabras adecuadas con la imagen. Sin embargo, en la práctica, esto no siempre es así. Por ejemplo, el sistema puede decir "Un pájaro está posado en una rama", pero no vemos ninguna rama en la imagen. Este es un ejemplo de la falla de puesta a tierra. La falta de conexión a tierra a veces puede incluso dañar al usuario.

Anna sugiere usar el lenguaje como fuente de conocimiento para los modelos de IA como lo hacemos los humanos. Podríamos aprovechar el lenguaje para el aprendizaje de tiro cero. Este enfoque ya se ha utilizado antes. Por ejemplo, cuando se le pide que nombre los atributos para conocer la nueva especie. Recientemente, este enfoque ha sido impulsado con la llegada de modelos grandes.

Otra forma de lograr la puesta a tierra es mediante el aprendizaje aconsejable. Aprendemos no solo de la experiencia o de hacer cosas, también podemos aprender leyendo y escuchando a otros humanos. De manera similar, las IA se pueden entrenar para corregir el comportamiento no deseado del modelo. Por ejemplo, si hay una imagen de un pájaro volando sobre el agua, la máquina puede confundirse con el tipo de pájaro, por lo que podemos decirle que mire al pájaro, no al agua. Por tanto, la máquina no lo confundirá con un pato, por ejemplo.

Por lo tanto, necesitamos construir modelos de IA que puedan comunicarse, estar conectados a tierra y aprender del lenguaje.

Anna Rohrbach resumió la conferencia con estos aspectos:

La comunicación necesita conexión a tierra
Comunicación fundamentada con Asesoría
Aprendizaje del lenguaje para mejorar la solidez visual y la transferencia.

Si hay una foto de una persona montando una tabla de snowboard. Lo más probable es que la máquina lo identifique como "él". Los modelos de subtítulos hablan sobre el género incluso cuando los humanos no lo harían. Los modelos no solo capturan la desigualdad (hay más datos sobre hombres), sino que exageran este desequilibrio. Por ejemplo, en una imagen con la mujer sentada en el escritorio con una computadora portátil, la máquina aún identifica a la persona como un "hombre". El modelo ni siquiera ve a la persona, ve un monitor y, según algunas correlaciones, asume que se trata de un hombre. En el ejemplo de un hombre que sostiene una raqueta de tenis, el modelo identifica ese género correctamente pero no mirando a la persona sino a la raqueta. Por lo tanto, la modelo no atiende a la persona cuando se habla de su género.

Anna y otros investigadores trabajan para superar este problema dirigiendo la atención a la persona adecuada. Para hacer esto, aplican la pérdida de corrección de subtítulos al género. Han introducido pérdida de confianza y pérdida de confusión de apariencia. Proporcionó un comportamiento de modelo más justo: error bajo similar tanto para hombres como para mujeres.

En Baseline-FT y UpWeight, el modelo identificó “Un hombre y un perro están en la nieve”

El ecualizador está más preocupado por el error de género y lo identificó como "Una persona paseando a un perro con correa" si el modelo no podía reconocer claramente el género en la imagen.

Los problemas que puede causar la falta de conexión a tierra incluyen: artículos inapropiados, dañinos y ofensivos.

Cuando conduce por su cuenta, el automóvil puede comunicarse con usted cuando reduce la velocidad, ya que está a punto de girar a la izquierda. Hay una descripción (el coche frena) y una explicación de la acción (ya que está a punto de girar a la izquierda). Anna y sus colegas realizaron un experimento de conjunto de datos de DeepDrive eXplanation (BDD-X) en la Universidad de Berkley. El modelo estaba tratando de predecir el futuro movimiento del ego del vehículo.

Han introducido un generador de explicaciones que genera la explicación en lenguaje natural de los fundamentos detrás del modelo de conducción. En el proceso de alineación de la atención, la idea clave es alinear el controlador del vehículo y el justificador textual de modo que observen las mismas regiones de entrada. Los resultados clave que obtuvieron fueron la atención más débilmente alineada, "explicación como pérdida adicional" explicable sin pérdida de rendimiento. El problema radicaba en que el sistema no atendía a los peatones ni reaccionaba ante su presencia.

Modelo de conducción aconsejable

¿Cómo hacer que el modelo reconozca a los peatones por consejo? De la observación a la acción, no al revés. De esta forma, el modelo aprende a resumir sus observaciones visuales en lenguaje natural y predice una respuesta de acción adecuada. En el estimulador CARLA, los investigadores estudiaron el comportamiento de un modelo no explicable, un modelo explicable y un modelo aconsejable. Los humanos confían más en el modelo aconsejable.

Por lo tanto, la incorporación de consejos lingüísticos en modelos profundos conduce a modelos más interpretables y de mejor rendimiento que ganan una mayor confianza humana.

Modelos de lenguaje de visión grande

CLIP: un modelo preentrenado que aprende a hacer coincidir las imágenes con los subtítulos. Puede reconocer y fundamentar muchos conceptos de alto nivel, pero no las clases detalladas, como las especies de perros.

Los investigadores encuentran mucho sesgo contextual que radica en separar el concepto del contexto. Presentaron GALS: Guiar la atención visual con la especificación del lenguaje. Mejora el aprendizaje del modelo con indicaciones (foto de un pájaro). Establecieron convertir la especificación de tareas de lenguaje de alto nivel en atención espacial, lo que aleja a una CNN del sesgo.

Los modelos V+L a gran escala funcionan bien para conceptos de alto nivel, pero no tanto para conceptos de grano fino. La idea es que gran parte del conocimiento general se capture en recursos externos.

Aprendizaje de tiro cero

La transferencia de nivel de clase tradicional tiene como objetivo generalizar a clases de objetos invisibles. La nueva transferencia a nivel de tareas tiene el objetivo de generalizar a conjuntos de datos o tareas que no se ven. Sin embargo, no se ha explorado el modelado del conocimiento externo. Mientras que en el modelado de transferencia de nivel de clase tradicional, el conocimiento externo exploró cómo asociar clases visibles e invisibles a través de alguna información auxiliar, como incrustaciones o atributos.

En el conocimiento externo, podríamos usar la explicación. Los humanos aprovechan el conocimiento previo (estructurado). ¿Se puede hacer lo mismo con la IA? Los investigadores utilizaron K-Lite: entrenamiento y evaluación de imágenes lingüísticas aumentadas por el conocimiento. El conocimiento ayuda a mejorar el rendimiento en conceptos de grano fino, como el sashimi, una especialidad japonesa que consiste en pescado o carne fresca y cruda cortada en rodajas finas y que se suele consumir con salsa de soja. Sin embargo, perjudica el rendimiento cuando la cobertura de conocimiento es baja y se contienen trabajos espurios. El investigador descubrió que podemos mejorar aún más el aprendizaje del idioma aprendiendo del idioma externo.

Modelos de IA que pueden aprender del lenguaje. Sin embargo, la posible limitación es la supervisión humana que es difícil de escalar. Anna predice que se introducirán modelos preentrenados a gran escala con escenarios abiertos con conceptos arbitrarios, relaciones complejas y conocimiento del mundo. Su visión a largo plazo es que los modelos basados en fundamentos serán compositivos y estructurados, por lo que las IA se comunicarán, estarán más conectadas a tierra y podrán aprender del lenguaje. También serán eficientes en la muestra con menos supervisión humana.

bohdan ponomar es CEO de la comunidad AI HOUSE. Está creando un ecosistema de IA líder para que estudiantes y expertos construyan empresas de IA de clase mundial en Ucrania.

Más sobre este tema

Coinsmart. El mejor intercambio de Bitcoin y criptografía de Europa.Haga clic aquí
Platoblockchain. Inteligencia del Metaverso Web3. Conocimiento amplificado. Accede Aquí.
Fuente: https://www.kdnuggets.com/2022/11/multimodal-grounded-learning-vision-language.html?utm_source=rss&utm_medium=rss&utm_campaign=multimodal-grounded-learning-with-vision-and-language

Inteligencia de datos generativa

Aprendizaje fundamentado multimodal con visión y lenguaje

Modelo de conducción aconsejable

Modelos de lenguaje de visión grande

Aprendizaje de tiro cero

Más sobre este tema

El futuro de los juegos: las últimas tendencias e innovaciones

Google DeepMind se embarcó en un viaje impresionante a través de los laberintos de nuestro cerebro

Información más reciente

Apple podría implementar chips M2 Ultra en servidores en la nube

El jefe de OpenAI presiona para que un organismo internacional supervise la poderosa IA

Pregúntele a un especialista en ética de datos: ¿Qué sucede cuando el lenguaje se convierte en datos? – VERSIDAD DE DATOS

Inteligencia de datos: la clave para tomar decisiones y personas empoderadas – DATAVERSITY

Boletín sobre reducción del riesgo de desastres y datos abiertos: edición de mayo de 2024 – CODATA, El Comité de Datos para la Ciencia y la Tecnología

Turquía promueve una nueva legislación sobre criptomonedas de acuerdo con los estándares globales: última actualización de noticias de Bitcoin.com – CryptoInfoNet