Palo de los expertos en IA ganadores del Turing: "Hay muchas cosas mal en el mundo, pero demasiada inteligencia no es una de ellas”

Universidad de Alberta/UMass Amherst

El premio Turing se considera el Nobel de la informática y este año ha caído en manos de Richard Sutton y Andrew Barto, investigadores en ciencias de la computación. Ambos autores son considerados padres fundadores del refuerzo por aprendizaje de las máquinas.

El aprendizaje por refuerzo, conocido como RL a secas por sus siglas en inglés, es un proceso de aprendizaje automático cuyo objetivo es que agentes autónomos tomen decisiones por sí mismos, algo fundamental para la automatización de procesos.

Por ejemplo, el aprendizaje por refuerzo se considera vital en industrias como la automoción para la conducción autónoma de vehículos, mediante la educación por ensayo y error sin que un ser humano necesite intervenir.

El último premio Turing, considerado el Nobel de la computación y otorgado por la Association for Computing Machinery –ACM, por sus siglas en inglés–, la sociedad de investigación más importante en ciencias de la computación, ha centrado su tesis precisamente en este ámbito.

Uno de los ganadores del galardón es Richard Sutton, profesor de ciencias de la computación en la Universidad de Alberta, una institución pública ubicada en Edmonton, Alberta (Canadá), y alabado como uno de los fundadores del aprendizaje de refuerzo computacional moderno.

Aunque ha contado también con la colaboración de Andrew Barto, profesor de ciencias de la computación de la Universidad de Massachusetts Amherst, otra de las grandes figuras científicas de este campo.

Durante la década de los 80, ambos investigadores asentaron las bases del RL y continúan siendo una de las referencias esenciales para los estudios actuales sobre sus posibilidades.

Tal y como ha compartido The New York Times, los autores creen que este método es clave para orientar la forma en que las máquinas aprenderán en el futuro; en algún momento, además, los robots impulsados por inteligencia artificial aprenderán como los humanos y animales.

En la práctica, la base de todo esto es la psicología conductista o del comportamiento, es decir, la que se basa en condicionar de alguna forma a la máquina para que ejecute la opción que maximice una recompensa.

Entre sus principales procesos, destaca el entendimiento del entorno para recabar información y elegir, en consecuencia, qué acción tomar; si existe una recompensa de este entorno, el agente recordará dicha decisión en el futuro. Un sistema práctico de recompensas y castigos.

Algo parecido a lo que sucedió con el experimento del perro de Pávlov, uno de los ejemplos más importantes del condicionamiento clásico, pero aplicado a la informática.

Por su parte, según ha comentado Sutton, "tenemos el potencial de volvernos menos avariciosos y egoístas, y más conscientes de lo que ocurre a los demás", a lo que ha añadido que "hay muchas cosas mal en el mundo, pero demasiada inteligencia no es una de ellas". 

Otros artículos interesantes: