Estrategias de reconocimiento y clasificación semiautomática de los marcadores del discurso del corpus C-ORAL-ROM, el anotador DiMaSTagger y su evaluación: INTRODUCCIÓN

n este capítulo, vamos a tratar todas las cuestiones relativas a la gestión computacional del corpus a la hora de reconocer estas palabras e introducir las etiquetas en XML que hemos diseñado para los marcadores en el corpus.
El tratamiento automático de los marcadores del discurso es una tarea de reciente en la investigación de Lingüística Computacional. Ya J. Teston y J. Veronnis han señalado que dicha categoría no se tiene en cuenta en los etiquetadores categoriales, con lo que debemos cuestionar los datos de cobertura y precisión de los mismos, sobre todo en lo que a la aplicación de dichos etiquetadores a corpus orales se refiere.
Las tareas en las que se ha centrado dicha investigación ha consistido en la identificación automática de marcadores del discurso en grandes corpus ; su desambiguación y clasificación automática y, por último, la programación de etiquetadores automáticos de marcadores del discurso .

La presencia de marcas de estructura superficial en los textos, como por ejemplo, la división en párrafos o los signos de puntuación, así como la coaparición de otros marcadores del discurso, juega un papel clave en la realización de estas tareas, como ya señalamos en el capítulo tres. En cuanto a los etiquetadores de marcadores del discurso solamente hemos encontrado en la red un etiquetador para el chino. Como decimos, esta preocupación de la Lingüística Computacional por los marcadores del discurso y su tratamiento automático es relativamente reciente como demuestran la fecha de las tesis de Hutchinson, 2005, y los estudios de A. Popescu y S. Zufferey, del 2006. Recomendamos especialmente estos dos últimos trabajos para un estado de la cuestión en métodos de Lingüística Computacional en la identificación y clasificación automática de estas partículas en los textos.

Por lo que se refiere a la exposición de los conocimientos que se presentan a continuación, hemos estructurado este capítulo en cuatro partes:

  1. Fase de preanotación.
  2. Fase de anotación.
  3. Fase de evaluación de la anotación.

Add Comment

Your email address will not be published. Required fields are marked *

error: Este contenido está sometido a copyright.