El anotador automático DiMaSTagger está dividido en dos partes: un reconocedor y un etiquetador. El reconocedor busca, identifica candidatos a marcador discursivo en los textos; mientras que el etiquetador introduce la etiqueta en Xml correspondiente dentro del texto, una vez que el reconocedor ya ha hecho su trabajo.
Como ya hemos señalado anteriormente, hay cuatro tipos de marcadores del discurso. Hemos clasificado los cuatro tipos en función de su nivel de dificultad, caracterizándolos según este parámetro, fácil/difícil. La tabla [tab:facildificil] arriba presentada nos indicará más didácticamente nuestro planteamiento.
Tipo de marcador | Reconocimiento | Etiquetado |
---|---|---|
No ambiguos | Fácil | Fácil |
Ambiguos Categoriales | Difícil | Fácil |
Ambiguos Semánticos | Fácil | Difícil |
Ambiguos Semánticos-Categoriales | Difícil | Difícil |
Expliquemos la tabla más detalladamente:
- Los marcadores no ambiguos son fáciles tanto de reconocer como de etiquetar, ya que, como su propio nombre indica, tienen una sola categoría y una sola etiqueta, con lo que un simple programa en Perl basado en expresiones regulares soluciona el problema.
- Los ambiguos categoriales son difíciles de reconocer, porque pueden ser o bien marcador del discurso o bien otra categoría, con lo que hay que hacer reglas de desambiguación contextual que diferencien uno de otro, para que después etiquete solo los que son marcadores discursivos. Sin embargo, por contrapartida, la etapa de etiquetado en esta clase de marcadores será una etapa fácil, porque una vez desambiguados sólo les correspondería una etiqueta, y el programa que introduce etiquetas en palabras no ambiguas es fácil de hacer.
- Los ambiguos semánticos son fáciles de reconocer, porque todas las ocurrencias en el texto serían marcador del discurso, por tanto, solo tienen una categoría; pero, sin embargo, son difíciles de etiquetar porque tienen más de una etiqueta pragmática en XML.
- Y por último, los semánticos-categoriales son tanto difíciles de reconocer como de etiquetar por las razones que ya hemos explicado, esto es, tienen más de una categoría y más de una etiqueta.
Esta es la razón por la que DiMaSTagger es un programa estructurado en cuatro módulos o subrutinas; dos módulos para el reconocedor, uno para los fáciles de reconocer (Módulo Fácil) y otro para los difíciles de reconocer (Módulo Difícil); y dos módulos para el etiquetador, el primero para los que son fáciles de etiquetar (Módulo Fácil), y el segundo para los que son difíciles de etiquetar (Módulo Difícil). Aun corriendo el riesgo de ser redundantes, presentamos arriba una tabla para asegurarnos de que se entiende el planteamiento del programa.
Tipo de marcador | Reconocimiento | Etiquetado |
---|---|---|
No ambiguos | Módulo Fácil | Módulo Fácil |
Ambiguos Categoriales | Módulo Difícil | Módulo Fácil |
Ambiguos Semánticos | Módulo Fácil | Módulo Difícil |
Ambiguos Semánticos-Categoriales | Módulo Difícil | Módulo Difícil |
La abstracción del problema y su separación en partes, tiene, de cara a la lógica de programación, consecuencias muy positivas, ya que la estrategia a seguir para etiquetar cada grupo de marcador es una combinación entre los cuatro módulos, optimizando como consecuencia todo lo posible el código.
Pasemos ahora a explicar los módulos. Los módulos fáciles, tanto los de reconocimiento y como los de etiquetación, no vamos a explicarlos, ya que, son fáciles de programar, solo consiste en localizar una expresión regular en el texto (que se correspondería con la cadena de caracteres del MD) y añadirle una etiqueta. Centrémonos por tanto en la explicación de los módulos difíciles.
Add Comment