T1: INTRODUCCIÓN

Parece fuera de toda duda que el funcionamiento del lenguaje dentro de la mente es uno de los retos cientı́ficos más importantes del nuevo siglo; no solo por lo que este conocimiento pueda esclarecer sobre el gran misterio del funcionamiento del cerebro, sino por la necesi- dad que la Inteligencia Artificial tiene de un marco teórico y metodológico sobre el lenguaje desde el cual hacer sus programas e integrarlos dentro de una arquitectura general. No obs- tante, la contestación a la pregunta de si se podrá algún dı́a formalizar el lenguaje natural con el lenguaje de la lógica o de las matemáticas todavı́a está fuera hoy por hoy de nuestro alcance. La relación entre los lenguajes formales y las lenguas naturales, o mejor dicho, la implementación de las últimas en los primeros es todavı́a un hecho que, de momento, que- da reservado al mundo de la ciencia ficción. No deja de ser curioso y hasta paradójico que muchos fı́sicos, entre ellos J.D. Barrow en su libro Teorı́as del todo, se hayan sorprendido de que las leyes del universo se puedan expresar con unas matemáticas bien sencillas (a la vista están las leyes de Newton y la fórmula de Einstein), y que sin embargo, la lenguas na- turales se resistan a las puertas del siglo XXI a ser formalizadas en términos matemáticos. Las matemáticas y el lenguaje parecen ser códigos reservados a codificar dos conocimien- tos diferentes dentro de la mente: el mundo objetivo y el mundo subjetivo respectivamente. La expresión de uno en términos de otros y sus relaciones de equivalencia ası́ como su interacción dentro del cerebro es otro misterio más sin resolver hoy en dı́a para la cien- cia. En la segunda mitad del siglo XX, con la implementación de las gramáticas formales chomskyanas, se originaron en el seno de las Ciencias Cognitivas unas expectativas de- masiados optimistas que poco a poco se han ido reformulando en posturas más prudentes y modelos de lenguaje aplicados a dominios restringidos. Si tuviéramos que localizar con la precisión de un cirujano a punto de operar dónde se encuentra la causa de que todavı́a las máquinas no hablen, parece claro que en el centro de la diana se situarı́a el gran problema de la interpretación del significado. Y cuando hablamos del significado, no nos referimos solo al de las palabras, sino también al de estas mismas cuando se combinan en oraciones conformando textos o discursos.

Por lo tanto, una vez que el nivel sintáctico, más o menos, deja de ser un reto para la formalización, ahora debemos centrarnos en la aprehensión del significado y su relación con la forma lingüı́stica. Un significado que, a medida que más se profundiza en él, más asoma su faceta cognitivo-simbólica, sociocultural y sicológica-individual. Estamos acos- tumbrados a escuchar que el significado de las palabras es convencional, y que por eso existe el lenguaje, porque nos hemos puesto de acuerdo en que, cada vez que la grafı́a o la cadena de sonidos mesa llegue a nuestros oı́dos, nosotros entendamos todos por igual lo mismo. Con el valor de verdad de este último enunciado, los ingenieros en informática y telecomunicaciones abordan el problema del significado de las lenguas y su codificación por la forma lingüı́stica como si de algo claro, objetivo y preciso se tratara. No obstante, como hemos dicho, las lenguas naturales, en oposición a los lenguajes matemáticos, son sistemas de simbolización de significados tan flexibles como ambiguos a partir de su forma lingüı́stica. Las normas culturales y sociales nos guı́an en la interpretación de las palabras y de los enunciados, sin embargo, tarde o temprano aflora esa dimensión del lenguaje que se opone a ser formalizado, predecible y sin la cual no existirı́a la poesı́a.

Ası́ pues, hoy por hoy, el gran problema al que se enfrentan tanto la Lingüı́stica Com- putacional como la Inteligencia Artificial a la hora de plantearse el procesamiento del lenguaje natural es el de la interpretación del significado, y más concretamente, la inter- pretación de los significados de las oraciones, o mejor dicho, de los enunciados, los cuales no son otra cosa que las oraciones pronunciadas en unas coordenadas espacio-temporales, en un contexto determinado. El estudio de los enunciados, su significado y la relación entre ellos en el discurso constituyen el centro de atención de la mayor parte de los estudios ad- scritos a la Pragmática Teórica. Dicha corriente se gesta en sus orı́genes en gran medida por oposición a la Lingüı́stica Formal, Generativa o Chomskyana, y es precisamente la formali- zación el aspecto que menos les preocupa a estos estudios de corte radicalmente funciona- lista (?). La consecuencia de ello es la dificultad de aplicar los conocimientos procedentes de esta disciplina a otras parcelas de conocimientos de naturaleza aplicada como las que acabamos de señalar, la Enseñanza de Español a Extranjeros o la Psicolingüı́stica. La formalización es una de las razones por las que, como decimos, la Lingüı́stica Com- putacional todavı́a está lejos de incorporar todo el conocimiento generado en esta disciplina a sus modelos de lenguaje. Solo de forma paulatina la Pragmática Computacional está em- pezando a implementar algunos marcos teóricos procedentes de la Pragmática Teórcia, como por ejemplo la Teorı́a de los Actos de Habla o la localización de marcadores discur- sivos en los textos de manera automática; sin embargo, todavı́a existen muchos fenómenos que tienen lugar en el nivel enunciativo de la lengua que la Pragmática Computacional no 12ha contemplado, como por ejemplo, la modalización discursiva, y que ejercen una gran influencia en la interpretación de los valores de verdad de los enunciados. Al mismo tiempo, el hecho de que la Pragmática carezca de un marco teórico unifi- cado hace que todavı́a no existan, en la anotación de corpus, estándares sobre etiqueta- do pragmático en los que se puedan explicitar conceptos y fenómenos que son claves en esta dimensión de la lengua. Buena parte de las anotaciones de corpus con información pragmática que se han hecho han tenido lugar en el terreno de la Inteligencia Artificial, en concreto en los sistemas de diálogo hombre-máquina, y sus esquemas de etiquetado no trasluce una postura lingüı́stica detrás, sino que son implementaciones vagas de conceptos desligados entre sı́ y absolutamente adaptados al dominio en que trabajan. Esta manera de trabajar no nos deberı́a extrañar si ni siquiera hay un acuerdo en la comunidad cientı́fi- ca sobre qué se considera anotación pragmática. Estas deficiencias se agudizan más en el panorama español, ya que hoy por hoy, no se ha contemplado por parte de las instituciones que poseen grandes corpus, y entre ellos grandes corpus de español oral, marcar al menos como categorı́a los marcadores del discurso, y de paso, plantearse los problemas derivados de hacer esta tarea lo más automática posible.

A la vista de estos datos, es de rigor hacer alguna reflexión que nos obligue a com- prender algunas de las razones por las que los informáticos que trabajan en procesamiento del lenguaje natural y que no ignoran estos conocimientos procedentes de la Pragmática (los cuales conforman un grupo muy reducido) ofrecen casi tanta resistencia como los pro- pios lingüistas a la hora de fijar en una etiqueta el significado de un marcador del discurso o del acto de habla de un enunciado. Ya que en estos casos, dicho significado no es tan automático, veloz e inconsciente como en el caso del léxico, sino que es producto de la interacción con normas socio-culturales y, en último término, de nuestra propia psicologı́a. Ası́ por ejemplo, ¿cómo debo interpretar/etiquetar el enunciado Habrı́a que bajar la basura dentro del contexto de la convivencia conyugal? ¿como una orden o simplemente como una aseveración?

Es por ello que, dentro de la enumeración de los retos o problemas de la Pragmática, deben tratarse como cuestiones claves la predictibilidad en la interpretación del significado, el concepto de contexto, y la codificación lingüı́stica en términos de relevancia durante el proceso de comunicación.

En efecto, la Pragmática, en tanto que estudia el uso del lenguaje en su contexto, es una disciplina sujeta a la interpretación. La Filosofı́a de la Ciencia la clasificarı́a como un campo de investigación perteneciente a las disciplinas propias del terreno de la subjetividad (ARTIGAS, 1999). Buena parte de la Pragmática se ocupa del conocimiento implı́cito en los mensajes lingüı́sticos, esto es, aquello que se infiere pero que no está explicitado ver- 13balmente. El simple hecho de plantearse esta parte del significado como objeto de estudio supone ya en sı́ mismo un problema para un paradigma cientı́fico que sienta sus bases en la observación empı́rica y en la predictibilidad. El significado final de una emisión lingüı́stica para un receptor es el resultado de una inferencia mental, no se puede observar directamente y muy pocos dirı́an que es predecible, ni siquiera en situaciones o contextos sometidos a un alto nivel de descripción.

Para complicar aún más el acercamiento empı́rico a esta materia, debemos añadir que el material de trabajo con el que se llevan a cabo las investigaciones en Pragmática está con- formado por corpus. En estos conjuntos de textos, el contexto ha desaparecido por completo y solo permanecen algunas de sus huellas reflejadas en la información de las cabeceras y en algunas palabras como, por ejemplo, las expresiones deı́cticas, entre otras formas lingüı́sti- cas. Algunas corrientes relativistas defienden que es imposible predecir en estos momentos el significado, por ejemplo, de un acto de habla indirecto, simplemente contando con la información lingüı́stica de un enunciado. Como sabemos, es el contexto el que ayuda a que algunos significados y no otros se activen durante el proceso de inferencia que tiene lugar durante la comunicación. Al mismo tiempo, la Lingüı́stica Interactiva (MONDADA, 2001) también apunta en esta dirección al señalar que los significados se construyen y se negocian de forma activa por parte de los participantes durante el proceso de interacción, como ya hemos señalado anteriormente.

Ası́ pues, el desafı́o más importante para las disciplinas que se plantean la compresión y generación de lenguaje natural está centrado en la sistematización o formalización de la relación forma lingüı́stica, significado y contexto. Este último concepto está sujeto a dife- rentes parcelaciones por parte de los diversos enfoques teóricos que se han ocupado de él. Según algunas corrientes de la Psicologı́a Cognitiva (GARCÍA, 1991) y de la Inteligencia Artificial (JOHNSON-LAIRD, 1993), los contextos serı́an marcos mentales que ayudan al individuo a interpretar la información del medio, como por ejemplo, una conversación, en términos de valores de verdad, pero ¿cómo dar cuenta de esta realidad mental entonces? Por último, y para terminar la enumeración de los retos más importantes que se plantea la Pragmática Computacional, debemos tener en cuenta que la comunicación humana es un proceso inferencial y que, tal y como han puesto de manifiesto los investigadores Sperber y Wilson (SPERBER y WILSON, 1994) a través de la formulación de la Teorı́a de la Rel- evancia, solo codificamos la parte más relevante de lo que queremos decir. Si tenemos en cuenta la propuesta de estos autores, es de obligada reflexión decidir también qué parte del significado es posible recuperar realmente.

Estas cuestiones que someramente acabamos de apuntar sobre los grandes problemas que conlleva la aproximación computacional al significado es objeto de un candente debate 14en la investigación teórica pero, por contrapartida, apenas es un tema considerado no solo en las empresas de ingenierı́a lingüı́stica sino en la investigación pública dedicada al proce- samiento de las lenguas, la cual, a dı́a de hoy, está dominada por investigadores formados en ingenierı́a informática que prefieren aproximaciones al procesamiento del lenguaje na- tural desde modelos probabilı́sticos, y donde el lingüista, lejos de tener un papel activo en la planificación de estrategias de programación, cumple el papel de corregir o depurar los programas hechos por los ingenieros que no gozan precisamente de una elevada formación lingüı́stica, ni en su plano teórico ni en su plano más descriptivo.

Por todas estas razones, la primera motivación de este trabajo ha sido la de acercar a las disciplinas que traten con el lenguaje el conocimiento que se está construyendo en torno a la dimensión pragmática de la lengua; nos referimos, más concretamente, a la Lingüı́stica Computacional, la Enseñanza de Español a Extranjeros, la Sociolingüı́stica de corte cuan- titativo y los sistemas de diálogo hombre-máquina.

La vı́a de trabajo propuesta en esta tesis ha tenido en cuenta todas las limitaciones que se acaban de exponer en torno al significado inferido o no explicitado y defiende, como punto de partida, la consideración de la dimensión pragmática en el procesamiento del lenguaje natural a través de la anotación pragmática de corpus.

Desde un punto de vista más concreto, el objetivo de esta investigación ha sido el de introducir información de tipo pragmático en el corpus oral del español C-ORAL-ROM. La información que se refleja en la etiqueta de las unidades lingüı́sticas que vamos a mar- car remite a fenómenos que se podrı́an situar en el interfaz semántico-pragmático de la lengua; dichos fenómenos tienen una naturaleza cognitivo-social y afloran en el momen- to de la enunciación. En concreto, nos interesa saber cómo se marcan lingüı́sticamente en una lengua las emociones, el razonamiento, la modelización discursiva de la realidad, las fuentes en la que apoyamos el valor de verdad de nuestros enunciados, la alusión al oyente y al discurso, la acción y, por último, la convencionalización de la lengua. Dichos fenómenos se han denominado, respectivamente, desde la Lingüı́stica pero no solo: lenguaje emo- cional, relaciones discursivas, modalización discursiva (atenuación e intensificación), evi- dencialidad, deixis social y discursiva, actos de habla y unidades fraseológicas.

Los objetos de estudio ya en el nivel más puramente gramatical que hemos elegido para proyectar el modelo de anotación han sido los constituyentes extraoracionales, denomi- nados tanto por la gramática tradicional de corte estructuralista, como por las vertientes formalistas del lenguaje, como por el neoestructuralismo: adverbios oracionales, interjec- ciones, marcadores discursivos, vocativos, sintagmas preposicionales externos y adjuntos. En nuestro modelo de anotación, estas formas léxicas o lexicalizadas serán clasificadas semánticamente a la luz de los fenómenos nombrados y etiquetadas en el corpus cuan- do aparezca alguna de sus ocurrencias. Para los no especialistas en Pragmática, tenemos que decir que el modelo lingüı́stico que ofrecemos aquı́ recoge fenómenos que los inves- tigadores en esta disciplina están descubriendo y que no es un modelo cerrado compuesto por unidades discretas que guarden relaciones de oposición entre sı́, como por ejemplo los sistemas descritos en el nivel fonológico.

En el futuro, este esquema de anotación se aplicará a nivel intraoracional, ya que los fenómenos que aquı́ son objeto de análisis se manifiestan en la lengua no solo a través de los constituyentes periféricos de la oración sino también a través de otros niveles de la gramática como la sintaxis, la prosodia o la morfologı́a. Por ejemplo, la atenuación se muestra en el nivel morfológico en el caso de ¿Tomamos una cervecita?. La introducción de este tipo de anotación en los corpus puede ayudar a la consideración de estos fenómenos por parte de la Inteligencia Artificial y de la Lingüı́stica Computacional, fenómenos que, como decimos, pueden estar codificados lingüı́sticamente, y que aluden a la naturaleza sub- jetiva de nuestro conocimiento de la realidad.

Hemos estructurado este trabajo en cinco partes denominadas de la siguiente manera: de la teorı́a, de la descripción, del procesamiento, de la aplicación y de la interpretación. Veamos cuáles son las lı́neas de trabajo que se tratan en cada una de esta partes. La primera parte, De la Teorı́a, está conformada por tres capı́tulos. En el primer capı́tu- lo hablamos de la relación entre cognición, conducta social y uso del lenguaje en el ser humano. En el segundo capı́tulo, tratamos las aportaciones teóricas más relevantes que han tenido lugar dentro del terreno de la Pragmática. En concreto hablaremos de las siguien- tes corrientes: la Teorı́a de la Relevancia, el modelo de cooperación comunicativa de Paul Grice, el modelo de cortesı́a propuesto por Levinson y Brown, la Teorı́a de los Actos de Habla y, por último, la Teorı́a de la Argumentación. Finalmente, el tercer y último capı́tulo de este módulo teórico está dedicado a los marcadores discursivos, objeto de estudio por excelencia en los estudios pragmáticos; en él trataremos cuestiones relativas a su defini- ción, significados, propiedades gramaticales, clasificación semántica y tratamiento de los mismos dentro de la Lingüı́stica Computacional.

La segunda parte de este trabajo está conformada por lo que hemos denominado el módulo descriptivo, el cual ocupa dos capı́tulos: en el primero de ellos, se presenta el modelo de anotación pragmática que hemos diseñado, Pragmatext. En él se describen los fenómenos de naturaleza semántico-pragmática que son objeto de nuestro análisis; en el segundo capı́tulo, en cambio, hablaremos de los problemas de formalización del significa- do de los marcadores discursivos del corpus C-ORAL-ROM, y ofrecemos una clasificación semántico-pragmática de los mismos a la luz de los fenómenos descritos.

La tercera parte de este trabajo, el módulo computacional, está compuesto por dos 16capı́tulos. En el primero de ellos, nos ocupamos de la presentación de las caracterı́sticas más relevantes del corpus oral del español C-Oral-Rom y de su etiquetado en formato XML; el segundo capı́tulo está dedicado a exponer las estrategias adoptadas para resolver el problema de la identificación, desambiguación y etiquetado semiautomático de estas partı́culas. En él presentaremos MiDaSTagger, la herramienta de anotación que hemos elaborado para etiquetar los marcadores discursivos del corpus.

En la cuarta parte, De la aplicación, hemos querido demostrar la utilidad de los corpus anotados con este tipo de información, y para ello mostramos dos posibles aplicaciones a las siguientes parcelas de conocimiento: los estudios de Sociolingüı́stica de carácter cuan- titativo y la Enseñanza de Español para Extranjeros. Para ello presentamos nuestro interfaz Web Inter Alia, una aplicación informática de consulta de corpus para recuperar mar- cadores discursivos, ejemplos del corpus y frecuencias en función del género discursivo. Una herramienta de gran utilidad tanto para los lingüistas como para los alumnos no na- tivos que deseen aprender lenguas de una manera más individual y a través de la consulta de corpus.

Y finalmente, el último módulo, titulado De la interpretación, está conformado por el capı́tulo diez y las conclusiones. En estos dos apartados reflexionamos sobre los retos que para la Inteligencia Artificial supone la integración de los conocimientos que se están generando desde la Pragmática Teórica, fundamentalmente en lo que a marcadores del dis- curso se refiere.

Antes de que el lector comience la lectura de este trabajo, nos gustarı́a hacer una pequeña aclaración. Este es un trabajo interdisciplinar, con lo cual, imaginarse un lector ideal durante la redacción de esta tesis ha sido una tarea ardua, ya que como sabemos lo que es obvio para unos es absolutamente lejano e ignorado por otros. En principio, o al menos este serı́a nuestro deseo, muchas personas de diferentes formaciones académicas pueden interesarse por este trabajo; por ello, hemos pretendido, dentro de la brevedad, ha- cer una breve presentación de todas las parcelas de conocimiento que se cruzan en este trabajo. Este estudio propone una vı́a de transferencia de conocimientos de una parcela teórica a otras de naturaleza aplicada, con lo que el lector no encontrará aquı́ el extenso estado de la cuestión y el intenso debate teórico existente sobre cada una de las cuestiones que aquı́ se tratan, sobre todo las concernientes a la Pragmática Teórica y en concreto, en torno a la relación entre Semántica y Pragmática. Si el lector es ducho en un fenómeno en concreto, como por ejemplo en la modalización discursiva, aquı́ accederá a nuestra propia visión de la misma, después de una breve introducción; si por el contrario no lo es, y siente 17inquietud por profundizar en la cuestión desde un punto de vista teórico, cortésmente le remitimos a la bibliografı́a citada en cada capı́tulo.

Leave a Reply

Your email address will not be published. Required fields are marked *