Corpus anotados a nivel semántico-pragmático

En lo que respecta al nivel semántico-pragmático de la lengua, solamente podemos destacar en el ámbito del español dos corpus que tienen anotación semántica. En primer lugar, el corpus Cast3lb , etiquetado con Named Entities, papeles semánticos (que se corresponden con su respectiva función sintáctica) y relaciones anafóricas; y, en segundo lugar, nuestro corpus, C-ORAL-ROM, anotado con una semántica eventiva y también con información sobre expresiones referenciales . En el corpus Cast3lb, de la Universidad de Barcelona, las unidades que se encuentran en el nivel supraoracional se reconocen pero no se clasifican semánticamente. Los corpus con marcadores discursivos localizados proceden de la ingeniería lingüística, y se han etiquetado con miras al resumen automático o terminológicos , , , y .
A pesar de que en lengua española los corpus etiquetados en estos niveles sean bastante escasos, no podemos dejar de señalar en el plano internacional las iniciativas casi ya de forma generalizada que se están realizando en todo el mundo en el etiquetado de aspectos que corresponderían a la dimensión pragmática. Dentro de la etiqueta de anotación pragmática encontramos modelos de anotación que comprenden estos temas: estructura retórica de los textos , rasgos de oralidad , argumentación , acuerdo, modalidad , opinión , estructura dialógica, actos de habla y prosodia, y por último emociones y sentimientos , , , , . Sin descartar los artículos que entienden por anotación pragmática la anotación de anáforas .
Hay un gran interés por parte de la comunidad científica tanto por anotar lo que se ha denominado marcas de subjetividad en las lenguas como por la estructura de los textos, como de hecho se pudo comprobar en los congresos LREC (Language Resources and Evaluation Conference) del 2008 y Corpus Linguistics de 2007, donde un buen número de comunicaciones estaban dominadas por estos temas. Sin embargo, de nuevo, los esquemas de anotación heredan esta falta de unificación teórica, por un lado, y por otro, de una definición de anotación pragmática unitaria, ya que encontramos anotaciones de fenómenos como la opinión, sin que se especifique claramente en qué nivel de lengua nos encontramos y si estamos hablando de un fenómeno lingüístico o una función textual.
Además, una crítica generalizada que puede hacerse a estos esquemas de anotación es que se centran demasiado en la anotación manual, no tienen un modelo teórico lingüístico detrás y no suelen asociar en sus trabajos fenómeno pragmático etiquetado con estructura lingüística, reflexión necesaria previa a la automatización.
Hace ya tiempo que la Lingüística de Corpus ha destacado las ventajas de la anotación de un mismo texto en varios niveles por encima de las diferentes versiones de un mismo texto en diferentes niveles. Esto ha originado una serie de estudios dedicados a mostrar este tipo de anotación que se ha denominado anotación multinivel y que fundamentalmente podemos encontrar en los corpus destinados la comunicación hombre-máquina y , .
Dentro de las herramientas de anotación, es importante destacar la que ha diseñado M. Odonell para anotar estructura retórica de los textos, de libre descarga, lo cual es digno de destacar para los que defienden que la investigación pública debe ser como su propio adjetivo indica, pública. Por otra parte, también debemos destacar la herramienta Spaacy, diseñada para anotar un texto en diferentes niveles de anotación .
Por último, y para terminar el repaso en materia de anotación pragmática, es de rigor recordar que estas propuestas parten de un planteamiento equivocado desde un punto de vista epistemológico. Van a la caza de la subjetividad de determinados enunciados , sin plantearse que dicha subjetividad es de raíz cognitiva, que impregna todos los enunciados, independientemente de si la opinión se codifica verbalmente o no. La separación que los periodistas suelen hacer entre información y opinión es falsa. La propia conceptualización de los fenómenos de la realidad ya está determinada por una visión subjetiva de los mismos. Como ejemplo de la no diferenciación podemos citar la posición de los locutores de radio españoles ante la selección de España, a la hora de definir qué es penalty y qué no; o el análisis que G. Lakoff hace del lenguaje político en su obra No pienses en un elefante, y en concreto del término alivio de impuestos reproducido por los periodistas -que supuestamente informan-, que hacen concebir los impuestos desde su raíz como una carga. Así pues, llamamos la atención desde este trabajo sobre este fenómeno de la anotación de la subjetividad, y donde se parte del falso supuesto de que los enunciados en los que no hay una palabra que codifique emociones o una marca de modalidad tienen más objetividad que los otros.
Aunque sea evidente por lo expuesto hasta aquí, cabe recalcar para terminar esta parte que no existe un sistema de anotación pragmática estándar que comprenda una representación de todas sus teorías y de los fenómenos más representativos. Parece pues que la creación de un estándar sobre información pragmática de corpus parece todavía un desafío bastante lejano. En 2010 saldrá a la luz el Hanbook de Corpus Linguistics, con un capítulo dedicado a anotación pragmática, veremos cuáles son sus propuestas en este sentido.
Este modelo de anotación, tal y como se señaló en la introducción, es una iniciativa que puede inspirar la creación del estándar, no tanto en materia de formalización sino en lo que se refiere al tipo de información pragmática que se debe considerar .

Add Comment

Your email address will not be published. Required fields are marked *

error: Este contenido está sometido a copyright.