Reconocimiento de los candidatos a MD en el corpus

Tenemos que tener en cuenta que esta lista que hemos elaborado en realidad no es una lista de marcadores del discurso sino que es una lista de palabras que son candidatas posibles a que en el corpus sean realmente marcador discursivo. Así por ejemplo, algunas palabras de la lista no estarán, otras estarán pero posiblemente con otro significado, como puede ser el caso de bien, y otras estarán pero a veces serán esta categoría y en otras ocasiones cumplirán otras funciones gramaticales, como es el caso de bueno.
Nuestro corpus tiene 300.000 palabras, y el objetivo de la tesis es etiquetar en ella los marcadores del discurso, con lo cual, no podemos arriesgarnos a definir a priori cuáles se comportarán como marcadores del discurso y cuáles no sin conocer previamente el posible nivel de ambigüedad en el corpus. En principio, podemos albergar la certeza de que en un corpus oral, palabras como o sea siempre sean marcador y no la suma de o más sea, sin embargo, esta certeza disminuye con otras palabras como hombre o bien. Con lo cual, para asegurarnos de que dividimos correctamente a los candidatos a la lista en los siguientes tipos:

  1. No ambiguos1
  2. Ambiguos categoriales2
  3. Ambiguos semánticos3
  4. Ambiguos categorial y semánticamente4

hemos diseñado el programa saltomortal.pl. Cada vez que el programa encuentre una palabra de la lista de candidatos a MD en el corpus, imprimirá toda la línea en la que esta palabra aparece a un documento que tenga el mismo nombre que el marcador. El resultado es que el lingüista, una vez que pasa este programa, se encuentra con una carpeta que contiene archivos que se titulan como el marcador cuyo nivel de ambigüedad va a analizar. Dentro de cada archivo, se encuentran imprimidas las líneas en las que dicho marcador aparece en el corpus. De esta manera, cuando el lingüista lea los datos podrá analizar y evaluar el grado de dificultad que ese marcador va a tener a la hora de etiquetarlo y lo clasificará, como decimos, en uno de estos cuatro grupos. Además, también le hemos dicho al programa que cuando no encuentre un MD que lo imprima en otro documento diferente, llamado losqueno.txt, para que en el futuro dichos marcadores se tengan en cuenta a la hora de buscar en otros corpus diferentes a C-ORAL-ROM.
Al final ya tenemos completas las cuatro listas; con cada una de ellas vamos a seguir una estrategia diferente a la hora de localizar y etiquetar estas palabras en el corpus 5.
Con estas listas de marcadores hacemos lo siguiente con cada uno de los marcadores que las contienen:

  1. Se consulta la bibliografía sobre el significado de esta partícula.
  2. Se elaboran en documento Excell las etiquetas según el modelo de anotación, y luego, mediante en el programa que hemos diseñado (de csv a xml.pl) estos textos se pasan a formato XML. Ahora ya tenemos cuatro documentos en XML con las etiquetas correspondientes, y que podemos consultar en los anexos. El resultado de esta parte del trabajo está reflejada en el capítulo cinco.

Al final de esta etapa, ya sabemos cuáles son los marcadores de C-ORAL-ROM y ya tenemos una lista de etiquetas que nos hablan de los fenómenos que intervienen en su significado.
Como se podrá observar, esta etapa que precede al anotador, donde se han reconocido y clasificado semántico-pragmáticamente con nuestro modelo de anotación los marcadores, se caracteriza fundamentalmente por ser una tarea ad-hoc, y dista mucho del tratamiento que en Lingüística Computacional recibe esta pre-etapa, donde como ya hemos dicho, tanto D. Marcu como L. Alonso utilizan la prosodia para extraer automáticamente marcadores del discurso. Es justo señalar que para operar como lo han hecho estos investigadores necesitamos un gran volumen de palabras. D. Marcu trabaja con el Brown Corpus, que tiene aproximadamente un millón de palabras. Además el objetivo de estas investigaciones es mejorar las técnicas automáticas de identificación de estas partículas en grandes volúmenes de información, mientras que el objetivo de este trabajo es profundizar en el conocimiento de dichas partículas a partir de su estudio en un corpus oral, por lo que nos debemos asegurar de que están todos los marcadores del discurso que son, no podemos decir que hemos localizado el 75% de los mismos, ya que luego vamos a usar el corpus para estudios de carácter cuantitativo y para la enseñanza de español a alumnos extranjeros.

Add Comment

Your email address will not be published. Required fields are marked *

error: Este contenido está sometido a copyright.