C-ORAL-ROM: descripción del corpus y herramientas computacionales de trabajo

C-ORAL-ROM Madrid es el corpus de referencia que hemos utilizado para realizar el análisis de estos marcadores. La elaboración de este corpus ha sido llevada a cabo por el Laboratorio de Lingüística Informática de la Universidad Autónoma de Madrid (http://www.lllf.uam.es) y su desarrollo forma parte de un proyecto de investigación europeo más amplio, llamado C-ORAL-ROM, cuyo propósito es el de elaborar cuatro corpus en cuatro lenguas romances que posean características homogéneas: número de palabras, situaciones comunicativas seleccionadas para la grabación, criterios de trascripción y anotación, etc.; todo ello con la finalidad de facilitar en futuros estudios su comparabilidad. Las tres lenguas de los tres corpus restantes son el portugués (la Fundação da Universidae de Lisboa), el francés (Université de Provence) y el italiano (Università di Firenze).

C-ORAL-ROM Madrid ha grabado, trascrito, alineado y etiquetado categorialmente, según las normas que rigen el proyecto, en torno a 300.000 palabras. Las grabaciones hechas en contextos naturales (salvo las de radio y televisión) han sido realizadas teniendo en cuenta siempre los requisitos de espontaneidad, calidad de sonido y variedad de registros. Tanto la recogida como la manipulación de los datos han recibido en todo momento un tratamiento digital.

Los criterios de clasificación del corpus grabado giran en torno al tipo de situación comunicativa. En principio, existen dos grandes grupos: formal e informal. El bloque informal a su vez está dividido en dos subclases: familiar/privado (por ejemplo, charla entre amigos o familiares) y público (cliente-vendedor). El parámetro que los distingue es el tipo de relación simétrica/asimétrica que existe entre los participantes, la situación comunicativa (si están en el dormitorio o en un café) y los temas de conversación. Por otra parte, el otro gran bloque, el formal, está subdividido en los siguientes grupos: medios de comunicación, conversaciones telefónicas, hombre-máquina, y contextos naturales como conferencias, sermones, etc. En este estudio, nos hemos centrado fundamentalmente en la parte del corpus dedicada a las conversaciones/diálogos clasificadas como informal y familiar/privado.

Dentro del sistema de trascripción utilizado en este proyecto, vamos a detallar solamente las marcas relevantes para la facilitar la legibilidad y comprensión de los ejemplos dados:

TURNO*ANA
Final de Utterance (unidad prosódica terminada y completa de significado) // 
+autointerrupción interrupción
?interrogación
…  suspensión
Unidades tonales/
Marcas de reformulación prosódica[/][///]

Es importante aclarar, de cara al análisis posterior, que una utterance puede contener uno o más enunciados en su interior, como se puede observar en el ejemplo que sigue:

(3) *MAY: yo me vine aquí con catorce años / a servir / ganando treinta pesetas todos los meses / harta de trabajar / y luego después / &mm / me tenía [/] me tuve [/] tenía que mandárselo a mis padres / las treinta pesetas que ganaba / porque mi padre estaba enfermo / y / como había / &eh / pasado la guerra / y yo tenía / diez años cuando empezó la guerra / luego ya cuando terminó / tenía / trece y / al año siguiente / en el año cuarenta / me vine aquí a Madrid / y / me puse a servir //

(efammn02)

Para buscar las recurrencias de estas piezas léxicas en el corpus, contabilizarlas y estudiar sus contextos, hemos utilizado el programa de concordancias CONTEXTES. Esta herramienta computacional ha sido desarrollada por el grupo de investigación dirigido por Jean Veronis en la universidad de Provence.

Add Comment

Your email address will not be published. Required fields are marked *

error: Este contenido está sometido a copyright.