banner

Blog

Apr 23, 2023

Enderezando la IA: cómo los investigadores del MIT cierran la brecha entre la visión humana y la artificial

Por Adam Zewe, Instituto Tecnológico de Massachusetts 9 de mayo de 2023

Investigadores del MIT han descubierto que el entrenamiento de modelos de visión por computadora mediante el entrenamiento contradictorio puede mejorar su rectitud perceptiva, haciéndolos más similares al procesamiento visual humano. La rectitud perceptual permite que los modelos predigan mejor los movimientos de los objetos, lo que podría mejorar la seguridad de los vehículos autónomos. Los modelos entrenados adversariamente son más robustos y conservan una representación estable de los objetos a pesar de los ligeros cambios en las imágenes. Los investigadores tienen como objetivo utilizar sus hallazgos para crear nuevos esquemas de entrenamiento e investigar más a fondo por qué el entrenamiento contradictorio ayuda a los modelos a imitar la percepción humana.

Los investigadores identifican una propiedad que ayuda a los modelos de visión por computadora a aprender a representar el mundo visual de una manera más estable y predecible.

MITMIT is an acronym for the Massachusetts Institute of Technology. It is a prestigious private research university in Cambridge, Massachusetts that was founded in 1861. It is organized into five Schools: architecture and planning; engineering; humanities, arts, and social sciences; management; and science. MIT's impact includes many scientific breakthroughs and technological advances. Their stated goal is to make a better world through education, research, and innovation." data-gt-translate-attributes="[{"attribute":"data-cmtooltip", "format":"html"}]">Los investigadores del MIT descubrieron que el entrenamiento con adversarios mejora la rectitud perceptiva en los modelos de visión por computadora, haciéndolos más similares al procesamiento visual humano y permitiendo una mejor predicción de los movimientos de los objetos.

Imagínese sentado en un banco del parque, viendo a alguien pasar. Si bien la escena puede cambiar constantemente a medida que la persona camina, el cerebro humano puede transformar esa información visual dinámica en una representación más estable con el tiempo. Esta capacidad, conocida como enderezamiento perceptivo, nos ayuda a predecir la trayectoria de la persona que camina.

A diferencia de los humanos, los modelos de visión por computadora no suelen exhibir rectitud perceptiva, por lo que aprenden a representar la información visual de una manera altamente impredecible. Pero si los modelos de aprendizaje automático tuvieran esta capacidad, podría permitirles estimar mejor cómo se moverán los objetos o las personas.

Investigadores del MIT han descubierto que un método de entrenamiento específico puede ayudar a los modelos de visión por computadora a aprender representaciones más rectas desde el punto de vista de la percepción, como lo hacen los humanos. El entrenamiento implica mostrarle a un modelo de aprendizaje automático millones de ejemplos para que pueda aprender una tarea.

Los investigadores encontraron que el entrenamiento de modelos de visión por computadora usando una técnica llamada entrenamiento contradictorio, que los hace menos reactivos a los pequeños errores agregados a las imágenes, mejora la rectitud perceptual de los modelos.

Los investigadores del MIT descubrieron que una técnica de entrenamiento específica puede permitir que ciertos tipos de modelos de visión por computadora aprendan representaciones visuales más estables y predecibles, que son más similares a las que los humanos aprenden usando una propiedad biológica conocida como enderezamiento perceptivo. Crédito: MIT News con iStock

El equipo también descubrió que la rectitud perceptiva se ve afectada por la tarea que uno entrena para que realice un modelo. Los modelos entrenados para realizar tareas abstractas, como clasificar imágenes, aprenden representaciones perceptualmente más directas que aquellos entrenados para realizar tareas más detalladas, como asignar cada píxel de una imagen a una categoría.

Por ejemplo, los nodos dentro del modelo tienen activaciones internas que representan "perro", lo que permite que el modelo detecte un perro cuando ve cualquier imagen de un perro. Las representaciones perceptivamente rectas conservan una representación de "perro" más estable cuando hay pequeños cambios en la imagen. Esto los hace más robustos.

Al obtener una mejor comprensión de la rectitud perceptiva en la visión por computadora, los investigadores esperan descubrir ideas que podrían ayudarlos a desarrollar modelos que hagan predicciones más precisas. Por ejemplo, esta propiedad podría mejorar la seguridad de los vehículos autónomos que usan modelos de visión artificial para predecir las trayectorias de peatones, ciclistas y otros vehículos.

"Uno de los mensajes para llevar a casa aquí es que inspirarse en los sistemas biológicos, como la visión humana, puede brindarle una idea de por qué ciertas cosas funcionan de la manera en que lo hacen y también inspirar ideas para mejorar las redes neuronales", dice Vasha DuTell. , un postdoctorado del MIT y coautor de un artículo que explora la rectitud perceptual en la visión artificial.

Junto a DuTell en el artículo están la autora principal Anne Harrington, estudiante de posgrado en el Departamento de Ingeniería Eléctrica y Ciencias de la Computación (EECS); Ayush Tewari, un postdoctorado; Mark Hamilton, estudiante de posgrado; Simon Stent, director de investigación de Woven Planet; Ruth Rosenholtz, científica investigadora principal del Departamento de Ciencias Cognitivas y del Cerebro y miembro del Laboratorio de Ciencias de la Computación e Inteligencia Artificial (CSAIL); y el autor principal William T. Freeman, profesor de Ingeniería Eléctrica y Ciencias de la Computación Thomas and Gerd Perkins y miembro de CSAIL. La investigación se presenta en la Conferencia Internacional sobre Representaciones de Aprendizaje.

After reading a 2019 paper from a team of New York UniversityFounded in 1831, New York University (NYU) is a private research university based in New York City." data-gt-translate-attributes="[{"attribute":"data-cmtooltip", "format":"html"}]">Los investigadores de la Universidad de Nueva York sobre la rectitud perceptiva en humanos, DuTell, Harrington y sus colegas se preguntaron si esa propiedad también podría ser útil en los modelos de visión por computadora.

Se propusieron determinar si los diferentes tipos de modelos de visión por computadora enderezan las representaciones visuales que aprenden. Alimentaron a cada modelo con fotogramas de un video y luego examinaron la representación en diferentes etapas de su proceso de aprendizaje.

Si la representación del modelo cambia de manera predecible a lo largo de los cuadros del video, ese modelo se está enderezando. Al final, su representación de salida debería ser más estable que la representación de entrada.

"Puede pensar en la representación como una línea, que comienza con una gran curva. Un modelo que se endereza puede tomar esa línea curva del video y enderezarla a través de sus pasos de procesamiento", explica DuTell.

La mayoría de los modelos que probaron no se enderezaron. De los pocos que lo hicieron, los que se enderezaron con mayor eficacia habían sido entrenados para tareas de clasificación utilizando la técnica conocida como entrenamiento contradictorio.

El entrenamiento adversario implica modificar sutilmente las imágenes cambiando ligeramente cada píxel. Si bien un ser humano no notaría la diferencia, estos cambios menores pueden engañar a una máquina para que clasifique erróneamente la imagen. El entrenamiento adversario hace que el modelo sea más robusto, por lo que no será engañado por estas manipulaciones.

Debido a que el entrenamiento contradictorio le enseña al modelo a ser menos reactivo a cambios leves en las imágenes, esto lo ayuda a aprender una representación que es más predecible con el tiempo, explica Harrington.

"La gente ya ha tenido la idea de que el entrenamiento de confrontación podría ayudarlo a lograr que su modelo se parezca más a un humano, y fue interesante ver que eso se traslada a otra propiedad que la gente no había probado antes", dice ella.

Pero los investigadores encontraron que los modelos entrenados adversariamente solo aprenden a enderezar cuando están entrenados para tareas amplias, como clasificar imágenes completas en categorías. Los modelos encargados de la segmentación (etiquetar cada píxel de una imagen como una clase determinada) no se enderezaron, incluso cuando fueron entrenados para el enfrentamiento.

Los investigadores probaron estos modelos de clasificación de imágenes mostrándoles videos. Descubrieron que los modelos que aprendieron representaciones perceptualmente más directas tendieron a clasificar correctamente los objetos en los videos de manera más consistente.

"Para mí, es sorprendente que estos modelos entrenados adversariamente, que ni siquiera han visto un video y nunca han sido entrenados con datos temporales, todavía muestran cierto grado de enderezamiento", dice DuTell.

Los investigadores no saben exactamente qué pasa con el proceso de entrenamiento contradictorio que permite que un modelo de visión por computadora se enderece, pero sus resultados sugieren que los esquemas de entrenamiento más fuertes hacen que los modelos se enderezen más, explica.

A partir de este trabajo, los investigadores quieren usar lo que aprendieron para crear nuevos esquemas de entrenamiento que le den explícitamente esta propiedad a un modelo. También quieren profundizar en el entrenamiento contradictorio para comprender por qué este proceso ayuda a enderezar un modelo.

"Desde un punto de vista biológico, el entrenamiento de confrontación no necesariamente tiene sentido. No es así como los humanos entienden el mundo. Todavía hay muchas preguntas sobre por qué este proceso de entrenamiento parece ayudar a los modelos a actuar más como humanos", dice Harrington.

"Comprender las representaciones aprendidas por las redes neuronales profundas es fundamental para mejorar propiedades como la solidez y la generalización", dice Bill Lotter, profesor asistente en el Instituto del Cáncer Dana-Farber y la Facultad de Medicina de Harvard, que no participó en esta investigación. "Harrington et al. realizan una evaluación exhaustiva de cómo las representaciones de los modelos de visión por computadora cambian con el tiempo cuando se procesan videos naturales, lo que demuestra que la curvatura de estas trayectorias varía ampliamente según la arquitectura del modelo, las propiedades de entrenamiento y la tarea. Estos hallazgos pueden informar al desarrollo de modelos mejorados y también ofrecen información sobre el procesamiento visual biológico".

"El documento confirma que enderezar videos naturales es una propiedad bastante única que muestra el sistema visual humano. Solo las redes entrenadas por adversarios lo muestran, lo que proporciona una conexión interesante con otra firma de la percepción humana: su solidez a diversas transformaciones de imágenes, ya sean naturales o artificiales. ”, dice Olivier Hénaff, científico investigador de DeepMind, que no participó en esta investigación. "El hecho de que incluso los modelos de segmentación de escenas entrenados adversariamente no corrijan sus entradas plantea preguntas importantes para el trabajo futuro: ¿los humanos analizan las escenas naturales de la misma manera que los modelos de visión por computadora? ¿Cómo representar y predecir las trayectorias de los objetos en movimiento sin dejar de ser sensibles a su detalle espacial? Al conectar la hipótesis del enderezamiento con otros aspectos del comportamiento visual, el documento sienta las bases para teorías de percepción más unificadas".

Referencia: "Explorando la rectitud perceptual en representaciones visuales aprendidas" por Anne Harrington, Vasha DuTell, Ayush Tewari, Mark Hamilton, Simon Stent, Ruth Rosenholtz y William T. Freeman, ICLR 2023.PDF

La investigación está financiada, en parte, por el Instituto de Investigación de Toyota, la beca MIT CSAIL METEOR, la Fundación Nacional de Ciencias, el Laboratorio de Investigación de la Fuerza Aérea de EE. UU. y el Acelerador de Inteligencia Artificial de la Fuerza Aérea de EE. UU.

Los investigadores identifican una propiedad que ayuda a los modelos de visión por computadora a aprender a representar el mundo visual de una manera más estable y predecible. Estudiando alisado
COMPARTIR