El módulo de reconocimiento y de desambiguación contextual

Este módulo ha sido diseñado para los dos grupos de marcadores que contienen ambigüedad categorial. Si queremos automatizar el proceso de anotación lo máximo posible, debemos establecer algún tipo de criterio que, a priori, nos ayude a decidir por una opción (marcador) o por otra (otra categoría). Llegados a este punto, hemos decidido servirnos de las marcas prosódicas en el texto como posibles indicadores de función, habida cuenta de la importancia de las marcas de entonación en la semántica de los marcadores del discurso, en la coherencia textual y en la interpretación del significado, mencionada en más de una ocasión tanto por la Pragmática Teórica 6 como por la Pragmática Computacional.
Como ya explicamos en el capítulo seis, estas son las marcas prosódicas que codifican pausas y tipos de entonación en C-ORAL-ROM: /, //, ?, …, +. Nuestra hipótesis de partida es que un candidato a MD tendrá un grado de probabilidad alto de serlo si se encuentra rodeado por un lado, por otro o por los dos lados, tanto de una marca prosódica como de un marcador del discurso 7. Ahora bien, implementar este enunciado-hipótesis en el programa de ordenador no es fácil. Fijémonos en que estamos diciendo que será marcador del discurso si a la izquierda aparece o bien una marca prosódica o bien un marcador o bien los dos, y a la derecha, o bien un marcador o bien una marca prosódica o bien los dos. Y también será marcador discursivo a priori un candidato que a la izquierda tenga al menos alguna de estas dos cosas, aunque a la derecha no tenga nada, y viceversa. La racionalización previa y necesaria al diseño de todo programa, esta que debe llevarse a cabo durante la concepción del algoritmo, no es baladí, ya que estamos manejando un grado elevado de posibilidades y los lenguajes de programación funcionan mejor con contextos fijos que con contextos cambiantes y/o opcionales como es nuestro caso. Así pues, para conseguir una buena abstracción del problema y asegurarme de llevar a cabo una implementación correcta del mismo, recurrí a la experiencia acumulada en diseño de programas para anotación automática de corpus y diccionarios del investigador de F. Sánchez, actualmente jefe de departamento de Lingüística Computacional e Informática de la RAE. A él debemos tanto el planteamiento teórico del problema como la parte del código en Perl correspondiente a dicho módulo del etiquetador automático, y por tanto, es de rigor citar aquí la autoría de su contribución, del todo altruista, a este trabajo.
El módulo de reconocimiento estará compuesto por las siguientes reglas contextuales, cada una de ellas presenta una posibilidad de combinación entre marcas prosódicas, marcadores del discurso y contexto a la izquierda y a la derecha. Cada regla respeta un principio sagrado para los programadores expertos que trabajan a menudo con expresiones regulares y que consiste en distinguir en cada regla o expresión regular tres partes claramente diferenciadas y que en la implementación se corresponderán con tres variables diferentes:

A continuación, presentamos las reglas que se implementarán en el módulo de reconocimiento, y que afectará a los marcadores de tipo dos y de tipo cuatro.

TipoCIFOCOCD
1.1MD TMFOCOTM MD
2.5MD TMFOCOMD TM
2.6TM MDFOCOTM MD
1.2TMFOCOTM MD
1.3MDFOCOTM MD
1.4MD TMFOCOTM
1.5TMFOCOTM
1.6MDFOCOTM
1.7MD TMFOCOMD
1.8TMFOCOMD
1.9MDFOCOMD
3.3ØFOCOMD TM
3.4ØFOCOTM MD
3.1ØFOCOMD
3.2ØFOCOTM
2.3MD TMFOCOØ
2.4TM MDFOCOØ
2.2TMFOCOØ
2.1MDFOCOØ
2.7TM MDFOCOMD
2.8TM MDFOCOTM
0ØFOCOØ

Cuando el etiquetador reconozca un marcador discursivo ambiguo categorialmente leerá su contexto y le aplicará un tipo de regla determinada. A continuación, sacará el texto por pantalla y el anotador humano comprobará si efectivamente la regla ha fallado o no. De esta manera, la anotación y la validación se harán conjuntamente en el espacio y el tiempo. Posteriormente, cuando hablemos del funcionamiento general del etiquetador, explicaremos más detenidamente este último aspecto.

Add Comment

Your email address will not be published. Required fields are marked *

error: Este contenido está sometido a copyright.