El auge de la inteligencia artificial

10 de abril de 2018
Sohrob Kazerounian
Distinguished AI Researcher
El auge de la inteligencia artificial

¿Tienen las máquinas la capacidad de pensar?

La pregunta puede parecer sencilla, pero la naturaleza introspectiva innata de los seres humanos nos ha proporcionado una comprensión profunda del concepto de pensamiento. Sin embargo, responderla sin la influencia de nuestras experiencias personales y subjetivas -como la voz en nuestra mente que narra nuestros pensamientos- requiere una definición formal de lo que realmente implica pensar.

La fascinación humana por construir objetos que imiten el comportamiento animal y humano viene de lejos: desde los juguetes que simulan el canto y el vuelo de los pájaros hasta el autómata jugador de ajedrez de Leonardo Torres, El Ajedrecista, de 1912.

Sin embargo, hay una marcada diferencia entre las máquinas que simulan las características físicas y las intelectuales de los seres humanos.

Historia Hitos que condujeron a la IA y Machine Learning

Aunque los avances que han hecho posible abordar esta cuestión de manera más formal son demasiado numerosos para enumerarlos exhaustivamente aquí, merece la pena señalar algunos hitos generales:

En matemáticas y lógica:

  • El desarrollo de la lógica moderna por Gottlob Frege a finales del siglo XIX.
  • Publicación en 1910 de Principia Mathematica, de Bertrand Russell y Alfred Whitehead, que intenta demostrar que las matemáticas son reducibles a la lógica simbólica.
  • La introducción por David Hilbert del Entscheidungsproblem, que busca un método que pueda tomar cualquier proposición matemática (lógica) y, a partir de un conjunto de axiomas, determinar su validez.
  • Los teoremas de incompletitud de Gödel de 1931, que demuestran que ningún sistema formal suficientemente expresivo puede ser a la vez completo y coherente.
  • Claude Shannon introduce la teoría de la información en 1948.

En psicología y neurociencia (aprendizaje animal y humano)

  • El condicionamiento clásico y operante de conductistas como Ivan Pavlov y B.F. Skinner
  • La noción de Kenneth Craik de 1943 de modelos mentales y su uso en el razonamiento humano
  • Teorías de la plasticidad sináptica y neuronal propuestas por Donald Hebb en 1949.
  • La organización neural del orden serial en el comportamiento por Karl Lashley 1951

En ingeniería

  • El campo de la cibernética, introducido por Norbert Wiener en 1948 para estudiar los sistemas de control con retroalimentación ambiental.
  • La programación dinámica y su relación con la teoría del control óptimo, estudiada por Richard Bellman, entre otros, en 1953.

McCullough y Pitts y la primera red neuronal

Un avance importante que se produjo después de la máquina de Turing, y que se inspiró en parte en ella, fue la introducción de la primera red neuronal por Warren McCullough y Walter Pitts en su trabajo fundamental, A Logical Calculus of the Ideas Immanent in Nervous Activity(Un cálculo lógico de las ideas inherentes a la actividad nerviosa). De hecho, podría decirse que el trabajo de McCullough y Pitts influyó mucho más en los primeros investigadores de la inteligencia artificial (IA) que el trabajo de Turing.

La historia de cómo McCullough y Pitts llegaron a trabajar juntos es en sí misma fascinante1. La leyenda urbana sostiene que la película Good Will Hunting se basó en la vida de Pitts.

Casi igual de asombroso es el hecho de que la primera red neuronal se desarrollara en 1943, contrariamente a lo que se piensa hoy en día de que el aprendizaje profundo es un avance tecnológico más reciente.

Basándose en la lógica proposicional de los Principia Mathematica de Russell y Whitehead, y recurriendo a los conocimientos que tenían de neuroanatomía, McCullough y Pitts desarrollaron una teoría de cómo las neuronas pueden interconectarse mediante un conjunto de pesos sinápticos de una forma que recrea el funcionamiento de las puertas lógicas.

Con un conjunto de puertas de este tipo, es posible construir una red neuronal que calcule los valores de verdad de oraciones de proposiciones lógicas arbitrarias.

Su modelo simplificaba en exceso la estructura y función de las neuronas y no podía aprender ni adaptarse (los pesos sinápticos tenían que fijarse a mano). Sin embargo, inspiró la arquitectura informática de John von Neumann y fue una gran fuente de inspiración para el grupo de investigadores que más tarde introduciría la expresión " inteligencia artificial".

AI: El taller de Dartmouth que dio nombre a todo

John McCarthy acuñó por primera vez en 1955 la expresión " inteligencia artificial ", superando alternativas como "inteligencia de las máquinas", "máquinas pensantes" o "cibernética".

Trataba de describir los planes para un taller de verano que reuniría a un pequeño grupo de investigadores de diversas procedencias que estudiaban conceptos relacionados con la inteligencia artificial. El objetivo descrito por McCarthy, además de Claude Shannon, Marvin Minsky y Nathan Rochester, en su propuesta para el taller, se definía del siguiente modo:

El estudio se basará en la conjetura de que cada aspecto del aprendizaje o cualquier otra característica de la inteligencia puede, en principio, describirse con tanta precisión que se puede hacer que una máquina lo simule. Se intentará averiguar cómo hacer que las máquinas utilicen el lenguaje, formen abstracciones y conceptos, resuelvan tipos de problemas ahora reservados a los humanos y se mejoren a sí mismas.

El nombre dado por McCarthy se debió en parte al deseo de diferenciar el floreciente campo que estaban creando, de la miríada de campos de los que procedía cada uno de los investigadores. Cabe señalar que McCarthy también quería evitar el título de cibernética por miedo a tener que enfrentarse a un prepotente Norbert Wiener2.

No obstante, la propuesta contenía siete temas y un llamamiento a los investigadores individuales para que propusieran sus propios temas. Entre ellos estaban "¿Cómo se puede programar un ordenador para que utilice un lenguaje?". "Redes neuronales", "Superación personal" y "Abstracciones", que se refiere al aprendizaje de abstracciones a partir de entradas sensoriales.

Los temas expuestos en el taller marcarían en gran medida el rumbo futuro de la IA, uniendo a investigadores de campos dispares en pos de objetivos comunes y creando enconadas divisiones entre investigadores que discrepaban sobre el mejor método para alcanzarlos.

Desarrollo de la IA

Desde el taller de Dartmouth, la progresión de la IA ha visto cómo diversas técnicas crecían y menguaban. Por ejemplo, la actual revolución del aprendizaje profundo es en realidad el tercer periodo de relativa popularidad de las redes neuronales.

El primer periodo, de los años 40 a los 60, comenzó con la invención de las redes neuronales por McCullough y Pitts y se extendió hasta el desarrollo del perceptrón.

El perceptrón era una red neuronal sencilla desarrollada por Frank Rosenblatt en 1957 que podía adaptarse y aprender, y era capaz de formas sencillas de reconocimiento óptico de caracteres.

A pesar de sus prometedoras posibilidades, las redes neuronales murieron cuando Marvin Minsky, uno de sus primeros defensores, y Seymour Papert publicaron su libro Perceptrons en 1969.

En él, detallaban las limitaciones del perceptrón de Rosenblatt demostrando que era incapaz de aprender soluciones a clases enteras de problemas matemáticos. El más famoso era la función XOR, en la que una red tendría que aprender a obtener el resultado de un "o exclusivo" en dos entradas.

Aunque más tarde se comprobó que esta limitación podía superarse fácilmente con pequeños cambios como el uso de funciones umbral no lineales, el libro fue lo suficientemente persuasivo como para eliminar la financiación y el interés por los algoritmos de aprendizaje inspirados en el cerebro.

El vacío dejado por la desaparición de las redes neuronales se llenó con lo que más tarde se denominaría IA a la antigua (GOFAI). Las técnicas que definían la GOFAI eran en gran medida de lógica simbólica. Esto contrasta con el procesamiento subsimbólico de una red neuronal, donde el procesamiento se reparte entre muchas neuronas o nodos, y donde las representaciones pueden ser distribuidas y continuas.

GOFAI utilizaba reglas de producción, como If-Then, y técnicas de búsqueda en las que se podían plantear, evaluar y comparar posibles hipótesis sobre acciones y sus consecuencias resultantes. Se desarrollaron sistemas expertos que intentaban formalizar los conocimientos de los expertos en la materia en representaciones adecuadas para que los ordenadores y los algoritmos pudieran operar con ellas.

A pesar del éxito del GOFAI, la tendencia hacia la IA simbólica se encontró con la resistencia del primer renacimiento de las redes neuronales a finales de los años setenta y ochenta. Durante este periodo, se las conocía como sistemas conexionistas debido a sus sistemas de neuronas ampliamente interconectadas.

Este renacimiento se debió principalmente a la introducción de técnicas como la teoría de la resonancia adaptativa (ART), una red neuronal biológicamente plausible y la retropropagación. Se trata de un algoritmo de aprendizaje que adapta los pesos de una red neuronal artificial y muestra cómo podría aprenderse fácilmente una solución al problema XOR.

La era se inició con un libro de James McClelland y David Rumelhart titulado Parallel Distributed Processing: Explorations in the Microstructure of Cognition. Aunque muy técnico, el libro fue un éxito y se publicó en el New York Times Book Review.

A pesar de esta nueva gloria, la segunda era de popularidad de las redes neuronales también duró poco debido a las limitaciones de la potencia de cálculo y a la escasez de datos con los que entrenar los modelos.

En consecuencia, las redes neuronales se limitaron a problemas de juguete, lo que las dejó expuestas a las críticas de los partidarios de los enfoques simbólicos. El segundo invierno de la IA duró hasta principios de la década de 2000.

La actual revolución del aprendizaje profundo elevó a las redes neuronales a su tercer acto. Desarrollos como el modelo de memoria a corto plazo (LSTM) desarrollado en 1997 por Hochreiter y Schmidhuber, así como la introducción en 2006 por Hinton de las redes de creencia profunda (DBN), mostraron cómo superar algunas limitaciones de los modelos anteriores.

Junto con el aumento de la potencia de cálculo y de las unidades de procesamiento gráfico (GPU) y la disponibilidad cada vez mayor de datos, los modelos de aprendizaje profundo empezaron a registrar mejoras espectaculares en las tasas de error de las tareas habituales de aprendizaje automático.

Los súbitos avances de las redes neuronales en el reconocimiento del habla, la visión por ordenador y el procesamiento del lenguaje natural tienen un impacto de gran alcance. Google, Facebook, Microsoft y otras grandes empresas con gran interés en el procesamiento de voz, imágenes y datos textuales empezaron a invertir importantes recursos en investigación y desarrollo, lo que aceleró el ritmo de desarrollo de la IA.

1 Máquinas que piensan, McCurdock; consulte también El hombre que intentó redimir el mundo con la lógicaAmanda Gefter, para más información.
2 La búsqueda de inteligencia, N. Nilsson

Preguntas frecuentes