Inteligencia artificial y Pragmática: perspectivas de investigación

Una tecnología suficientemente avanzada es indistinguible de lo mágico. Arthur C. Clarke.

Me gustaría comenzar este apartado apelando a la reflexión de la introducción en torno a la relación entre lenguaje natural y matemáticas. Creo que el debate fundamental en esta cuestión se centra en torno a los modelos matemáticos. A día de hoy, no estamos tan seguros de si las Matemáticas, como disciplina, vaya a aportar modelos matemáticos que sean aplicables al funcionamiento lenguaje natural durante la comunicación. La expresión de cuello de botella procedente del ámbito disciplinar de la Inteligencia Artificial se ha convertido ya, a fuerza de su uso, en un clásico dentro de los que están en contra de una Inteligencia Artificial fuerte, es decir, aquella que se plantea como reto científico la creación de una Inteligencia Artificial tomando como punto de referencia el funcionamiento de la mente. La implementación del lenguaje dentro de una estructura cognitiva no supone un problema baladí si escuchamos a los lingüistas, y dejamos de ver solo cadena de caracteres. Me complacería saber que el lector ha encontrado en este trabajo el significado real del gran reto que supone la representación del significado a partir solamente de la forma lingüística que la codifica.
Este capítulo junto con las conclusiones pertenece a la parte de la tesis denominada De la Interpretación. Lo que el lector encontrará aquí será un conjunto de reflexiones que ponen de manifiesto las carencias de la Lingüística Computacional y de la Inteligencia Artificial en sus modelos de lenguaje. Buena parte de estas carencias está causada por la ausencia de modelos de lenguaje que subyazcan a la implementación informática, lo cual nos remite a la posición que ocupa el lingüista, en particular, y la Lingüística, en general, tanto en las empresas como en la investigación pública dedicada a la Ingeniería Lingüística. Este tema es el punto de partida que arranca la argumentación presente en este capítulo, donde se hablará de cómo, a la luz de los conocimientos que ha puesto de manifiesto la Pragmática, se deben reformular los planteamientos de tres parcelas típicas de esta parcela de investigación: la derivación automática de la estructura retórica de los textos, los sistemas de diálogo hombre-máquina y los sistemas de recuperación de información.
El 17 de Mayo del 2009, David Trueba hizo para la edición del domingo del periódico El País un reportaje sobre su amigo Pep Guardiola, a propósito de su triple éxito conseguido en la temporada de fútbol. En este documental, David Trueba, un intelectual al que en ningún caso se le puede atribuir una ideología de derechas, hizo la siguiente argumentación:

Viene de una familia muy humilde, pero son muy brillantes, muy honestos.

Ya hemos hablado en el capítulo tres y cuatro del significado del marcador discursivo pero. Dicho marcador contraargumenta, esto es, le confiere más peso argumentativo al enunciado que le sigue, volviendo falso el topos en el que se apoya el significado del enunciado anterior. En este caso en concreto, los topos son los pobres son tontos y los pobres delinquen. Esta asociación entre pobreza e inmoralidad y falta de inteligencia, como sabemos, es un lugar común creado bajo unos intereses ideológicos, ya que, desde un punto de vista científico, no se ha demostrado todavía la relación intrínseca y determinante que existiría entre ser pobre y delinquir y ser pobre y no ser inteligente. Del análisis de este enunciado se pueden sacar dos conclusiones. Una menos interesante de cara a nuestra tesis pero de obligada mención: el modo en que ciertas ideologías hacen de sus ideas lugares comunes que los periodistas de izquierdas asumen inconscientemente e inconscientemente se ven obligados a rebatir. La segunda conclusión que debemos mencionar aquí sí tiene trascendencia para los sistemas de generación y comprensión del lenguaje natural.
En primer lugar, es necesario señalar que lo que hace que unos enunciados aparezcan asociados a otros no son los marcadores del discurso sino las bases de conocimiento que están detrás. Los marcadores del discurso materializan está relación. Hacen que dos enunciados entre los que en principio no tiene por qué haber una relación, como por ejemplo, entre ser pobre y ser brillante, se legitimen construyendo significado. En segundo lugar, hay que destacar que durante la sucesión de enunciados, lo que se entiende por discurso, ya sea escrito o hablado, forma parte integrante y determinadora del conocimiento implícito en la que se apoyan las proposiciones que sí han sido verbalizadas. El lenguaje, como ya hemos señalado, está codificando solo parte de los procesos inferenciales que tienen lugar en la mente. Así pues, la transición del primer enunciado vienen de una familia humilde y el segundo pero son muy brillantes, muy honestos está justificada por un cálculo mental entre proposiciones explícitas y no explícitas.
Es por ello que la Lingüística Computacional y la IA deben convencerse definitivamente de la idea de que la forma lingüística no es suficiente, sino que hay que enriquecerla con fuentes de conocimiento. Ni las metodologías en Lingüística Computacional que van de la forma al significado ni las que van del significado a la forma funcionarán nunca, ya que no hay una relación biunívoca entre forma y significado, y lo que está determinando esta unión son factores de bases de datos organizadas en sistemas coherentes conformadas por topos cancelables.
Ya hemos comentado en el capítulo tres las iniciativas de D. Marcu para derivar automáticamente estructura retórica de los textos. Este investigador genera una representación en forma de árbol de la estructura de los textos en las que se explicita la relación semántica que guardan los enunciados allí presentes. Para ello se sirve de los marcadores del discurso, pero, en sus últimos estudios, ha conseguido explicitar relaciones semánticas no introducidas por estas partículas. Estas aproximaciones parten de la idea de que la forma lingüística en un texto es suficiente para adivinar la relación de significado entre sus partes; ya que se apoyan en la idea de que un texto es algo coherente. Sin embargo, la coherencia, como también se ha señalado es una cuestión de conocimientos y no una cuestión puramente formal. Para que una inteligencia artificial pudiera generar el enunciado con el que se ha comenzado este capítulo necesitaría algo más que unas reglas sintácticas, un lexicón y una instrucción sobre el significado de la conectiva pero. Necesitaría tener en su base de conocimientos dicho conocimiento: Los pobres no son inteligentes. Este conocimiento es falso, es una creencia, y por tanto es cancelable, tal y como indica Ducrot, los topos son cancelables, es decir, se pueden contraargumentar. Solo si la máquina tiene implementado que este conocimiento sirve, es útil, pero relativo, es cuando la máquina podrá generar contrarrestrar el primer enunciado y cuestionar su valor de verdad con el segundo.
Las bases de conocimiento de un ser humano son subjetivas, limitadas pero guardan cierta coherencia; y están llenas de enunciados que representan conocimientos cancelables. El mayor exponente de dichos enunciados es el conocimiento codificado en los refranes, máximas, citas, etc. Estas bases de datos varían de un humano a otro incluso dentro de una misma cultura y están organizadas contextualmente. Así pues, pensemos en el conocimiento lingüístico de un carpintero sobre los tipos de madera, barniz, herramientas y muebles. La IA se ha centrado mucho en la formalización del conocimiento contextual y en la creación de contextos para la realización de determinadas actividades. Sin embargo, y con esto volvemos al capítulo uno, el conocimiento que se debe implementar en el diseño de contextos debe incluir esta representación del mundo subjetiva que los hombres materializan en forma de normas. En lengua española, tenemos sistemas de diálogo que han incorporado conocimiento de la Pragmática introduciendo en su modelos de lenguaje algunos marcadores del discurso, algunas formas de cortesía, el reconocimiento de formas típicas de la oralidad, y actos de habla . No ponemos en duda el valor que representan estas iniciativas, sin embargo, es bastante obvio que de nuevo se aborda el problema en una dirección inadecuada. De la forma lingüística a la interpretación, y no de la interpretación a la forma lingüística. Dentro de los planteamientos que van de la forma lingüística a la interpretación, incluso aunque con un tope se pueden mejorar estos sistemas. La investigación que hemos hecho aquí puede enriquecer los futuros módulos de procesamiento discursivo que necesariamente tendrán que tener todos los sistemas de diálogo hombre-máquina. En el terreno del análisis de la señal, esta no solo debe segmentar los enunciados sino localizar todo tipo de partículas lingüísticas que digan algo sobre la posición del hablante con respecto a lo enunciado, por un lado, y sobre la relación semántica que guardan entre sí dichos enunciados. Con respecto a la primera de ellas, la localización de estas partículas, entre las que se encuentra, como categoría frecuente, la interjección, puede ayudar a revelar información sobre el estado emocional del hablante durante el desarrollo de la interacción comunicativa. Si al sistema se le enseña a reconocerlas como patrones ya conocidos (para lo cual habría que incluir un lexicón de marcadores) y después el analizador lingüístico les otorga un significado emocional (negativo o positivo) esta información evaluativa puede influir en los sistemas de decisión de acciones de la máquina. Así, si el hablante emite alguna expresión por ejemplo negativa, si la máquina la reconoce, puede plantearse la estrategia que tenía planeada, y saltar a otra subrutina. Lo mismo ocurre con la implementación del significado de ciertos marcadores discursivos. Por ejemplo, si en un sistema de diálogo de información sobre horarios de trenes, como INFOTREN, la máquina dice algo del tipo: Quiere usted salir el viernes a las diez y media, hable por favor. Y el hablante en lugar de decir sí, dice el marcador del discurso digo, como normalmente se responde a afirmaciones muy evidentes en el caso del habla del sur de España, la máquina debe interpretar que el valor de verdad del enunciado que ha emitido es verdadero, y debe pasar al siguiente paso del programa. Aún así tendremos que asistir a estudios de carácter crítico por parte de los pragmatistas que han evaluado sistemas de diálogo hombre-máquina y que han constatado cómo ninguno de ellos respetan las máximas de Grice ni el principio de cortesía y . Los sistemas de diálogo que incluyen en su diseño conceptos procedentes de la Pragmática, como la estructura del discurso, la estructura de las conversaciones, el estudio de ciertas marcas de cortesía, o la inclusión de actos de habla no han explicitado hasta sus últimas consecuencias lo que Goffman llama el frame. Así pues, dentro de la formalización de los contextos, los sistemas de inteligencia artificial, tanto los de diálogo como los que se plantean retos mayores, como la integración de información de otra naturaleza como por ejemplo la visual, deben primero modelar no tanto una idea de mundo, sino un escenario gobernado por reglas, donde los conocimientos, aunque sean pocos, estén conectados computacionalmente entre sí. Pongamos un ejemplo. Queremos diseñar un robot que atienda en un banco a clientes. Este es un robot muy sencillo, esto significa que sus fuentes de conocimiento solo están limitadas al contexto en el que va a actuar. El conocimiento que se le implemente tiene que estar conectado entre sí. Así por ejemplo, imaginemos que el módulo de reconocimiento de caras humanas está muy desarrollado, y es capaz de clasificar los sujetos en cuatro clases: femenino, masculino, joven y viejo. Esta información no es del todo relevante para el sistema de honoríficos del japonés. Con lo que si el robot hablara japonés utilizaría la forma neutra. Porque las categorías que son relevantes para un japonés a la hora de clasificar socialmente a una persona son demasiado finas para nuestra inteligencia artificial que, de momento, ve el mundo en cuatro categorías. Cuando una máquina enlace la imagen de un cliente y la designe con una forma de tratamiento: tú o usted, señor, señorita, caballero o señora, entonces estará creando significado. Al mismo tiempo, hay instrucciones que el robot debe conocer, como por ejemplo, el concepto de cola, esto es, no atender a un cliente que ha llegado después. Esta norma se puede implementar siempre que la percepción del robot esté hecha para localizar este tipo de situaciones. Así es como poco a poco se va creando una subjetividad que en este caso es muy limitada.
El diseño de un modelo de marco contextual, de las normas que lo rigen y de los actos de habla que van a predominar deben ser hechos por lingüistas, sociólogos y antropólogos que tengan la suficiente creatividad y capacidad de abstracción como para crear modelos de normas que guarden entre sí una relación coherente e implicativa, y que van a llenar los esquemas de razonamiento de la máquina.
Así pues, resumiendo lo dicho hasta aquí, debe haber una implementación del conocimiento, dicha implementación debe estar previamente modelada por un experto en la materia y debe ser contextual para que sea abarcable y limitada.
El último tema a tratar sobre los modelos de lenguaje y su relación con las bases de conocimiento está relacionado con el problema de las rutas, esto es, los caminos más rápidos para llegar a una solución.
Dentro del cerebro, el significado es el recorrido de una ruta neuronal. Cuantas más veces se haya hecho este recorrido más inmediata será la conexión, dichas rutas son contextuales, y la parte de la Lingüística Computacional que se dedica a organizar el conocimiento en ontologías está muy lejos de reproducir dichas rutas de información. Las ontologías no dan buen resultado, porque no está claro que esta estructuración del conocimiento lingüístico reproduzca las rutas por las que unas palabras se asocian a otras, por no hablar de las rutas que hacen que unos enunciados se asocien a otros generando discurso, en el sentido más ideológico del término. La ruta que asocia pobre a deshonestidad no es una ontología sino un sistema de conocimientos basado en una percepción inter-subjetiva (esto es, compartida por los miembros de una comunidad) de la realidad.
Las teorías de la argumentación y del razonamiento de la IA se centran en la implementación de los patrones formales de estas operaciones mentales. Ya señalamos en el capítulo uno que la formalización del sentido común es un problema de contenido de los razonamientos y no de su forma lógica, asignatura que a día de hoy podemos considerar superada, como podemos considerar superado el problema de la generación de oraciones, gracias a la implementación del modelo de gramática procedente del generativismo. La forma lógica y programación de un razonamiento del tipo Si bebes no conduzcas ya no es un problema sin solución. Lo que es un problema es registrar todos los contenidos de los razonamientos que se toman en cuenta a la hora de planear una acción.
La Pragmática es un cálculo entre los diferentes factores contextuales antes de llevar a cabo un tipo de conducta lingüística o no lingüística. Este cálculo debe estar mediatizado por el coste y el beneficio social de dicho comportamiento. Así por ejemplo, cruzar la calle con el semáforo en verde es producto de un cálculo pragmático basado en reglas. Una conversación que comienza con un interés en lo personal y termina con una petición al interlocutor también está reflejando un cálculo social según el cual se intenta amortiguar el coste de la petición antecediendo actos de cortesía positiva. Si no se tiene en cuenta este conocimiento en los modelos de conducta de las máquinas seguiremos en el mismo punto en que nos encontramos ahora.
La Ciencia Cognitiva está muy interesada en el pensamiento meta, esto es, la reflexión sobre el propio pensamiento. Esta actividad puede ayudar a descubrir los principios formales que determinan el funcionamiento de la mente incluido el lenguaje. Sin embargo, con lo que tenemos que enfrentarnos cotidianamente es con datos e información estructurada, con las reglas ya materializadas, y sobre los cuales hay que hacer una labor de inducción para extraer modelos.
Aquí termina el capítulo diez. Podemos decir, resumiendo lo dicho hasta aquí, que si bien es díficil modelar la conducta general del ser humano, menos difícil es sin embargo modelar cada uno de los personajes que, siguiendo a Goffman, desempeña el ser humano en los diferentes contextos de su vida cotidiana según el rol social que desempeña. Así, si una máquina tuviera implementado el sistema de formas de tratamiento del japonés, sabría cómo tratarme solo después de que se diera un marco contextual y unas reglas que regulen el uso de una u otra forma en función del marco que tenga implementado la máquina. Pero solo un lingüista está formado académicamente para elaborar un modelo de cortesía para un contexto determinado en función de los roles sociales, ya que es al lingüísta el que le corresponde la reflexión entre forma lingüística y un significado contextual modelado previamente por un sociólogo o antropólogo.