Relating linguistic units to socio-contextual information in a spontaneous speech corpus of Spanish

En el año 2003, el equipo de investigación del Laboratorio de Lingüística Informática de la Universidad Autónoma de Madrid comienza a crear sus primeros productos de investigación tras haber terminado la etapa de grabación, transcripción y etiquetado prosódico y morfo-categorial del corpus oral del español C-ORAL-ROM.

Los primeros trabajos son de corte sociolingüístico y están orientados a relacionar la información contextual de las cabecera de las transcripciones, en las que se registra información socio-cultural de los participantes del corpus, con su ‘forma de hablar’. Dichos estudios se centraron fundamentalmente en el nivel léxico del lenguaje.

Este trabajo fue presentado en el congreso de Corpus Linguistics celebrado en Lancaster en el año 2003 y, posteriormente, una versión mejorada de la investigación, pasó a ser un capítulo del libro titulado ‘Corpus linguistics around the world publicado por la editorial Rodopi, tres años después, en el año 2006.