C-ORAL-ROM (1): Introducción
El objetivo de este estudio es desarrollar un sistema de etiquetado con información sintáctica para el corpus oral del español C-ORAL-ROM Madrid.
Por anotación entendemos la inserción de marcas o etiquetas que identifiquen información dentro del texto Moreno (2000).
Para que un corpus sea útil no solo tiene que registrar un número representativo de datos sino que además tiene que estar anotado. Pongamos un ejemplo recogido por Anne Abeille en la obra Building and using Parsed Corpora:
(1) Paul ouvre le sac de pommes de terre et le pose sur la table
“Pablo abre la bolsa de patatas y la pone en la mesa”.
Con referencia a la relación entre la Lingüística Computacional y la Lingüística de Corpus, esta autora señala lo siguiente:
“Corpora have become popular resources for linguists and engineers developing applications in Natural Language Processing (NLP). Linguists typically look for various occurrences of specific words or patterns, engineers extract lexicons and language models associating probabilities with sequences of words”.
Sin embargo, si trabajáramos con este ejemplo y computáramos, por un lado, el número de palabras, y por otro, el número de ocurrencias de una misma palabra, los resultados serían parciales, porque no tendríamos en cuenta ni la ambigüedad ni las secuencias de palabras que no tienen un significado composicional (multiword).
Así pues, diríamos que la frase (1) contiene catorce palabras cuando en realidad tiene doce (pommes de terre es todo una unidad lexemática).
De la misma forma, si utilizáramos un programa que computase las ocurrencias de una misma palabra, se obtendrían dos apariciones de la palabra le, sin tener en cuenta que, en el ejemplo, esta palabra es ambigua porque pertenece a dos categorías gramaticales distintas: en el primer caso es un artículo, mientras que en el segundo es un pronombre.
De lo que se deduce que para obtener un conocimiento gramatical preciso de los corpus es necesario introducir información lingüística en ellos. Dicha información, que puede ser de muchas clases (semántica, morfológica, sintagmática, etc.) debe ser elegida en función de los objetivos de estudio que posteriormente el lingüista desee llevar a cabo.
En nuestro caso, el tipo de anotación que se va a realizar va a ser de carácter sintáctico. Los corpus anotados sintácticamente reciben el nombre de treebanks. Para un estado de la cuestión sobre los diferentes tipos de treebank remitimos a Civit y Bufí (2002), donde se resumen los diferentes esquemas etiquetados de los treebanks existentes hasta la fecha. En España, el único corpus de árboles sintácticos publicado es el UAM Spanish Treebank (Moreno et al. 2000), que está realizado sobre un corpus de lenguaje escrito recogido de El País Digital compuesto de 26000 palabras y 16000 oraciones.
El estudio que aquí proponemos tiene como objetivo hacer un treebank de lengua oral del español.
En cualquier caso, independientemente del tipo de datos que se desee etiquetar, para la creación de un corpus anotado se necesita:
1.- Diseño de un etiquetado (tagset, formalismo, DTD).
2.- Desarrollo del etiquetado (herramientas computacionales, sistema de validación manual, etc.)
3.- Evaluación del etiquetado (tasas de error, precisión, etc.)
El reto más importante que se plantea en esta clase de trabajos es el de compatibilizar todos estos frentes. No sería útil diseñar un sistema de etiquetas que posteriormente fuera muy difícil de implementar o incompatible con la herramienta de etiquetado. De la misma forma que tampoco se debería etiquetar, ya sea manualmente o de forma automática, sin validar los resultados posteriormente por medio de algún mecanismo que controlara o supervisara que se ha sido coherente en el etiquetado manual y exitoso en la anotación automática.
De acuerdo con todo ello, vamos a dividir nuestra exposición en los siguientes capítulos. En el primero de ellos, se presentan las características más importantes del corpus con el que se ha trabajado. El segundo capítulo, está dedicado a la presentación de la metalengua utilizada para el etiquetado, que va a ser XML. En el capítulo siguiente se tratarán los diferentes aspectos de la implementación del corpus: la formas de segmentación del corpus, las etiquetas seleccionadas para anotar el corpus, y el lenguaje de programación utilizado para la anotación automática. Finalmente, en el último capítulo se expondrán las líneas de investigación futuras.
Add Comment