Ya hemos mencionado en más de una ocasión que en este trabajo hemos intentado trazar un puente de comunicación entre estas dos disciplinas, la Pragmática Lingüística y la Pragmática Computacional, en lo que al tratamiento de los marcadores discursivos se refiere. Siempre bajo la premisa de llegar a una solución de compromiso a la hora de realizar esta transferencia de conocimiento de una disciplina a la otra.
Por un lado, desde la Pragmática Lingüística, debemos considerar que los marcadores discursivos están codificando información de diferentes clases, no solo textual, también interactiva, modal e ilocutiva; por otro, también debemos tener en cuenta que algunos de ellos tienen más de un valor, y que este valor depende del género conversacional (y por tanto del tipo de corpus con el que trabajemos). A esto tenemos que añadir que algunos de ellos tienen una forma lingüística que puede cumplir otras funciones gramaticales diferentes en el nivel de la oración, esto es, algunos de ellos tienen ambigüedad categorial. Y en cuarto y último lugar, también debemos atender al hecho de que un marcador discursivo en un mismo texto puede tener más de un valor semántico-pragmático. Ninguno de estos problemas, salvo el de la ambigüedad categorial en investigaciones muy puntuales son reseñados por los estudios que localizan automáticamente marcadores discursivos en los textos.
Por otra parte, si nos planteamos el problema desde una perspectiva computacional, necesitamos sistematizar y formalizar los marcadores discursivos para poder operar con ellos, al tiempo que debemos considerar las limitaciones del trabajo con textos sin contexto (como son los corpus no-multimodales como este), los cuales deben ser procesados automáticamente. Si implementáramos, por ejemplo, todos los valores del marcador discursivo en fin que ha establecido la tradición de estudios pragmáticos tendríamos un etiquetado muy rico, pero debería ir acompañado de un etiquetado de corpus a nivel de enunciado que distinguiera la misma información, y hoy por hoy todavía no hay corpus etiquetados con este nivel de profundidad. Por tanto, debemos acercarnos a unas definiciones básicas que se mantengan constantes en los contextos de realización.
Buena parte de este compromiso al que nos referíamos antes pasa por adoptar una postura coherente con respecto a los problemas derivados del procesamiento computacional de los marcadores discursivos, y que pasamos a enumerar a continuación acompañados de la decisión que he tomado a la hora de abordarlos:
- Inventario de marcadores discursivos: es momento de que la comunidad científica llegue a un acuerdo sobre qué es marcador discursivo y qué no, por un lado, y sobre el número de marcadores discursivos así como de su distribución conversacional en términos diatópicos, diastráticos y diafásicos. Los corpus deben ayudarnos a esta tarea de recopilación y documentación sobre la lengua. En este capítulo se presenta un lexicón que será accesible desde la red con posibilidad de que los usuarios lo consulten y lo amplíen libremente.
- Ambigüedad categorial: muchas palabras que tiene un papel discursivo cumple a su vez otras funciones en el nivel oracional, como nombres, adjetivos, etc. Por tanto, toda metodología de etiquetado de marcadores debe primero dividirlos en ambiguos y no ambiguos, antes de trabajar con ellos.
- Polifuncionalidad: hay marcadores que cumplen diferentes funciones discursivas en función de su posición y del tipo de discurso. Por lo tanto, se deben establecer a priori cuántos valores se van a distinguir para cada marcador, siempre teniendo en cuenta el coste de procesamiento que la diferenciación implica.
- Función discursiva y función oracional: ¿debemos etiquetar solo las ocurrencias de la conjunción y cuando une oraciones y no cuando une otro tipo de cláusulas como por ejemplo sintagmas? En Pragmatext, la conjunción y siempre va a ser un conector, independientemente de las unidades que conecte, ya que nos movemos en otro nivel de procesamiento, donde un sintagma nominal también puede ser un enunciado.
- Idiomaticidad: Necesitamos llegar a un acuerdo sobre cómo tratar la frecuente coaparición de más de un marcador discursivo en determinados contextos, tales como pero si, en oraciones del tipo Pero si yo no he sido. Al tiempo que también debemos decidir si siguen siendo o no el mismo marcador claro y claro que, o sea y o sea que, etc. Nosotros hemos mantenido la sinonimia salvo en los casos en que era demasiado evidente que la construcción ya tenía entidad semántica propia. Son casos como pues nada, y nada, y tal, etc. En los demás casos los hemos etiquetado separados, por ejemplo, pero si serán dos marcadores distintos, y claro y claro que serán considerados el mismo marcador a la espera de estudios que defiendan una clarísima diferenciación semántica.
- Localización automática en el texto: Debemos desarrollar instrumentos de desambiguación tanto categorial como discursiva que tengan una cobertura y una precisión aceptables en la anotación automática de corpus. En el capítulo siete se explicarán nuestras estrategias de etiquetado automático de marcadores del discurso en el corpus.
Add Comment