Los investigadores identifican máquinas de trenes de propiedad para aprender más como lo hacen los humanos

Imagínese sentado en un banco del parque, viendo a alguien pasar. Si bien la escena puede cambiar constantemente a medida que la persona camina, el cerebro humano puede transformar esa información visual dinámica en una representación más estable con el tiempo. Esta capacidad, conocida como enderezamiento perceptivo, nos ayuda a predecir la trayectoria de la persona que camina. A diferencia de los humanos, los modelos de visión por computadora no suelen exhibir enderezamiento perceptivo, por lo que aprenden a representar la información visual de una manera muy impredecible. Pero si los modelos de aprendizaje automático tuvieran esta capacidad, podría permitirles estimar mejor cómo se moverán los objetos o las personas. Investigadores del MIT han descubierto que un método de entrenamiento específico puede ayudar a los modelos de visión artificial a aprender representaciones más perceptualmente rectas, como lo hacen los humanos. El entrenamiento implica mostrar millones de ejemplos a un modelo de aprendizaje automático para que pueda aprender una tarea. Los investigadores descubrieron que entrenar modelos de visión por computadora usando una técnica llamada entrenamiento contradictorio, que los hace menos reactivos a los pequeños errores agregados a las imágenes, mejora la percepción de los modelos. rectitud. El equipo también descubrió que la rectitud perceptual se ve afectada por la tarea que uno entrena a un modelo para realizar. Los modelos entrenados para realizar tareas abstractas, como clasificar imágenes, aprenden representaciones perceptualmente más directas que aquellos entrenados para realizar tareas más detalladas, como asignar cada píxel de una imagen a una categoría. Por ejemplo, los nodos dentro del modelo tienen activaciones internas que representan "perro", lo que permite que el modelo detecte un perro cuando ve cualquier imagen de un perro. Las representaciones perceptivamente rectas conservan una representación de "perro" más estable cuando hay pequeños cambios en la imagen. Esto los hace más robustos. Al obtener una mejor comprensión de la rectitud perceptiva en la visión por computadora, los investigadores esperan descubrir ideas que podrían ayudarlos a desarrollar modelos que hagan predicciones más precisas. Por ejemplo, esta propiedad podría mejorar la seguridad de los vehículos autónomos que usan modelos de visión por computadora para predecir las trayectorias de peatones, ciclistas y otros vehículos". visión, pueden brindarle una idea de por qué ciertas cosas funcionan de la manera en que lo hacen y también inspirar ideas para mejorar las redes neuronales", dice Vasha DuTell, postdoctorado del MIT y coautor de un artículo que explora la rectitud perceptual en la visión por computadora. Unirse a DuTell en el artículo están la autora principal Anne Harrington, estudiante de posgrado en el Departamento de Ingeniería Eléctrica y Ciencias de la Computación (EECS); Ayush Tewari, un postdoctorado; Mark Hamilton, estudiante de posgrado; Simon Stent, director de investigación de Woven Planet; Ruth Rosenholtz, científica investigadora principal del Departamento de Ciencias Cognitivas y del Cerebro y miembro del Laboratorio de Ciencias de la Computación e Inteligencia Artificial (CSAIL); y el autor principal William T. Freeman, profesor de Ingeniería Eléctrica y Ciencias de la Computación Thomas and Gerd Perkins y miembro de CSAIL. La investigación se presenta en la Conferencia Internacional sobre Representaciones de Aprendizaje. Estudiando el enderezado Después de leer un artículo de 2019 de un equipo de investigadores de la Universidad de Nueva York sobre la rectitud perceptual en humanos, DuTell, Harrington y sus colegas se preguntaron si esa propiedad podría ser útil en la visión por computadora. modelos, también. Se propusieron determinar si los diferentes tipos de modelos de visión por computadora enderezan las representaciones visuales que aprenden. Alimentaron a cada modelo con fotogramas de un video y luego examinaron la representación en diferentes etapas de su proceso de aprendizaje. Si la representación del modelo cambia de manera predecible a lo largo de los fotogramas del video, ese modelo se está enderezando. Al final, su representación de salida debe ser más estable que la representación de entrada". Puede pensar en la representación como una línea, que comienza con una gran curva. Un modelo que endereza puede tomar esa línea curva del video y enderezarla a través de sus pasos de procesamiento", explica DuTell. La mayoría de los modelos que probaron no se enderezaron. De los pocos que lo hicieron, los que se enderezaron con mayor eficacia habían sido entrenados para tareas de clasificación utilizando la técnica conocida como entrenamiento adversario. El entrenamiento adversario consiste en modificar sutilmente las imágenes cambiando ligeramente cada píxel. Si bien un ser humano no notaría la diferencia, estos cambios menores pueden engañar a una máquina para que clasifique erróneamente la imagen. El entrenamiento contradictorio hace que el modelo sea más robusto, por lo que no será engañado por estas manipulaciones. Debido a que el entrenamiento contradictorio le enseña al modelo a ser menos reactivo a cambios leves en las imágenes, esto lo ayuda a aprender una representación que es más predecible con el tiempo, explica Harrington. "La gente ya ha tenido la idea de que el entrenamiento con adversarios podría ayudarlo a hacer que su modelo se parezca más a un humano, y fue interesante ver que eso se traslada a otra propiedad que la gente no había probado antes", dice. Pero el Los investigadores descubrieron que los modelos entrenados por adversarios solo aprenden a enderezarse cuando están entrenados para tareas amplias, como clasificar imágenes completas en categorías. Los modelos encargados de la segmentación (etiquetar cada píxel de una imagen como una clase determinada) no se enderezaron, incluso cuando fueron entrenados de manera adversaria. Clasificación consistente Los investigadores probaron estos modelos de clasificación de imágenes mostrándoles videos. Descubrieron que los modelos que aprendieron representaciones perceptualmente más directas tendieron a clasificar correctamente los objetos en los videos de manera más consistente". , todavía muestran cierta cantidad de enderezamiento", dice DuTell. Los investigadores no saben exactamente qué pasa con el proceso de entrenamiento contradictorio que permite que un modelo de visión por computadora se enderece, pero sus resultados sugieren que los esquemas de entrenamiento más fuertes hacen que los modelos se enderezen más, explica. A partir de este trabajo, los investigadores quieren usar lo que aprendieron para crear nuevos esquemas de entrenamiento que explícitamente le darían a un modelo esta propiedad. También quieren profundizar en el entrenamiento contradictorio para comprender por qué este proceso ayuda a enderezar un modelo". Desde un punto de vista biológico, el entrenamiento contradictorio no necesariamente tiene sentido. No es así como los humanos entienden el mundo. por qué este proceso de entrenamiento parece ayudar a los modelos a actuar más como humanos”, dice Harrington. Institute and Harvard Medical School, que no participó en esta investigación. "Harrington et al. realizan una evaluación exhaustiva de cómo las representaciones de los modelos de visión por computadora cambian con el tiempo cuando se procesan videos naturales, lo que demuestra que la curvatura de estas trayectorias varía ampliamente según la arquitectura del modelo, las propiedades de entrenamiento y la tarea. Estos hallazgos pueden informar al desarrollo de modelos mejorados y también ofrece información sobre el procesamiento visual biológico". "El documento confirma que enderezar videos naturales es una propiedad bastante única que muestra el sistema visual humano. Solo las redes entrenadas adversarias lo muestran, lo que proporciona una conexión interesante con otra firma de percepción humana: su solidez a diversas transformaciones de imágenes, ya sean naturales o artificiales", dice Olivier Hénaff, científico investigador de DeepMind, que no participó en esta investigación. "El hecho de que incluso los modelos de segmentación de escenas entrenados adversariamente no corrijan sus entradas plantea preguntas importantes para el trabajo futuro: ¿los humanos analizan las escenas naturales de la misma manera que los modelos de visión por computadora? ¿Cómo representar y predecir las trayectorias de los objetos en movimiento sin dejar de ser sensibles a su ¿Detalle espacial? Al conectar la hipótesis del enderezamiento con otros aspectos del comportamiento visual, el documento sienta las bases para teorías de percepción más unificadas". Science Foundation, el Laboratorio de Investigación de la Fuerza Aérea de EE. UU. y el Acelerador de Inteligencia Artificial de la Fuerza Aérea de EE. UU.

Noticias

Los investigadores identifican máquinas de trenes de propiedad para aprender más como lo hacen los humanos