Los robots humanoides están en todas partes pero todavía tienen un serio problema: interpretar los gestos humanos

Según los especialista en robótica, existen enormes diferencias en la forma de ver el mundo de una persona y un robot. Y eso es algo que aún no se ha solucionado.
Los robots humanoides están por todas partes. Protagonizan todo tipo de demostraciones, que llegan de China o de Estados Unidos. En ellas se ven a distintos prototipos haciendo de todo: tareas domésticas, bailar, correr… ¿Por qué entonces la robótica no ha protagonizado ya una auténtica revolución? Según un nuevo estudio, porque aún tiene un problema.
Mucho se ha hablado de que una cosa son los entornos controlados, en los que los robots se mueven como peces en el agua, y otra distinta el caos del mundo real. Pero ahora esta investigación pone el objetivo sobre otro asunto, que tampoco parece menor: los gestos humanos. Los robots no saben interpretarlos… aunque es algo en lo que están trabajando, parece.
En la robótica de hoy en día, entrenar un sistema para manipular objetos abrir cajones, coger herramientas, ordenar objetos o cocinar- requiere una enorme cantidad de datos. Normalmente estos datos se obtienen mediante demostraciones en las que un humano controla directamente el robot o mediante simulaciones muy detalladas. Pero son procesos lentos y costosos.
Además, existe un problema estructural importante con el que los desarrolladores parecen toparse una y otra vez: los robots no se parecen a los humanos. Sus movimientos, sensores y capacidades físicas son diferentes, lo que hace difícil transferir directamente lo aprendido de un humano a una máquina.
El trabajo titulado HumanEgo: Zero-Shot Robot Learning from Minutes of Human Egocentric Videos propone una idea bastante ambiciosa dentro de la robótica moderna: enseñar a robots a realizar tareas del mundo real usando únicamente vídeos de humanos en primera persona. Es decir, sin necesidad de datos específicos de robots ni procesos de teleoperación.
Pero ahí también surge otro problema. El reto principal no es la falta de datos, sino cómo interpretarlos. Un vídeo humano no describe explícitamente acciones de control aplicables a un robot. No hay información directa sobre fuerzas, trayectorias articulares o comandos motores.
Por eso, el sistema propuesto no intenta copiar el movimiento humano de forma literal, sino aprender representaciones más abstractas de la interacción entre manos, objetos y entorno.
Los robots tienen dificultades para interpretar gestos humanos
Los expertos sostienen que a los robots se les atragantan los gestos humanos porque no comparten la misma forma de ver el mundo que nosotros. Un gesto humano no es solo un movimiento físico, sino que la mayoría de las veces tiene un contexto: intención, dirección de la atención, relación con objetos y reglas sociales implícitas.
Para una persona, ver a alguien señalar, agarrar o apartar un objeto es suficiente para inferir qué quiere hacer. Para un robot, en cambio, lo único disponible son datos sensoriales: posiciones de píxeles en una cámara, trayectorias de puntos o lecturas de sensores. Pasar de esa señal cruda a una intención es un problema de inferencia muy difícil.
De ahí, dicen, que por mucho que se intente vender que la revolución robótica está a la vuelta de la esquina, no lo esté realmente. ¿Se trata más bien de una demostración de fuerza tecnológica entre Estados Unidos y China? Lo que está claro es que de momento la gente no tendrá un robot en casa. Y quizá haya que esperar más de lo que la mayoría piensa para ello.
