Funcionamiento a tiempo real de DiMaSTagger

Hemos hablado hasta aquí de un programa concebido en módulos que se combinan entre sí para dar cuenta de las especificidades de cada grupo de marcadores. Expliquemos ahora, también brevemente, cuál es la dinámica general del anotador.
El anotador anota texto por texto los marcadores de los cuatro grupos. De nuevo este planteamiento nos ha parecido el más óptimo, frente al de etiquetar todos los textos con el primer grupo, luego todos los textos de nuevo con el segundo grupo, validarlo, luego pasarle el programa que etiqueta los del tercer grupo y así sucesivamente. Con la estrategia texto a texto llevamos perfecta cuenta de lo que hemos etiquetado y de lo que nos queda por etiquetar, ya que el programa automáticamente selecciona un texto de la carpeta de corpus, y cuando el lingüista lo ha terminado de anotar, automáticamente lo pasa a la carpeta de anotados y selecciona el texto siguiente. Enumeremos con más detalle cada uno de los pasos de la estrategia texto a texto:

  1. Se ejecuta el program perl main.pl
  2. Se carga la lista total de marcadores ordenados alfabéticamente y en orden descendente, para que coja la forma qué bien antes que la forma bien, por ejemplo.
  3. Elimina marcas de solapamiento y transforma los apoyos vocálicos &eh &ah en eh ah para ser reconocidos como marcadores.
  4. Por línea de comandos también se advierte del nombre del archivo con el que se va a trabajar.
  5. En este punto el programa despliega una ventana que va a ser el interfaz con el que vamos a trabajar, y que presentamos a continuación.
  1. El anotador humano marcará alguna de las tres opciones. Tanto si marca 1 como 2, estos datos se envían a un archivo externo, dónde se van contando los casos en los que el anotador automático ha acertado y los casos en los que ha fallado. Si marca mal se invertirá automáticamente la etiqueta y de CAT se pasará a MD y de MD a CAT; entendiendo por CAT otra categoría diferente a MD.
  2. Una vez desambiguados todos los marcadores ambiguos, el programa pasa al módulo de desambiguación de etiquetas, y editará de nuevo una pantalla donde salga el marcador, el contexto y las etiquetas.El anotador humano pulsará 1, 2 o 3 dependiendo del número de etiquetas seleccionadas. A continuación el programa etiquetará con la etiqueta elegida. A continuación. presentamos una imagen del etiquetador en este punto del procesamiento:Ejemplo del anotador en la fase de desambiguación de etiquetas
  3. Después de que los marcadores hayan sido reconocidos, validados y etiquetados, el resto del texto se codificará a XML 8 y se pasará automáticamente a la carpeta de etiquetados.
  4. El anotador avisa de que comienza con el siguiente archivo.

Las fases por tanto son reconocer, corregir, etiquetar, y codificar a XML la transcripción.

Fase de evaluación de la anotación

Veamos a continuación las tablas en las que se reflejan las frecuencias de acierto y de error de las reglas contextuales y de los marcadores.

Resultados del grado de acierto de las reglas contextuales

CIFOCOCDTIPOBIENMAL
TMFOCOTM1.52030114
TMFOCOØ2.2962501
TMFOCOTM MD1.284550
TM MDFOCOTM2.843325
MD TMFOCOTM1.439213
ØFOCOTM3.2301628
TM MDFOCOØ2.4295108
MD TMFOCOØ2.321291
TMFOCOMD1.819019
MD TMFOCOTM MD1.11868
TM MDFOCOTM MD2.61547
ØFOCOTM MD3.4154278
MDFOCOTM1.6769
MDFOCOØ2.16336
TM MDFOCOMD2.7467
MDFOCOTM MD1.3285
MD TMFOCOMD1.7264
MD TMFOCOMD TM2.5210
ØFOCOMD3.11930
ØFOCOMD TM3.31222
MDFOCOMD1.942

Como podemos observar en tabla, las reglas están ordenadas según el criterio de frecuencia de aparición. Sirva esta tabla y las siguientes para establecer la relevancia de las reglas sobre todo en lo que a corpus orales se refiere.
A continuación, presentamos tres tablas que presentan las reglas que funcionan, las que definitivamente tienen resultados negativos, y las que presentan contextos ambiguos en términos de frecuencia.

CIFOCOCDTIPOBIENMAL
TMFOCOTM1.52030114
TMFOCOTM MD1.284550
TM MDFOCOTM2.843325
MD TMFOCOTM1.439213
TMFOCOMD1.819019
MD TMFOCOTM MD1.11868
TM MDFOCOTM MD2.61547
MDFOCOTM1.6769
TM MDFOCOMD2.7467
MDFOCOTM MD1.3285
MD TMFOCOMD1.7264
MD TMFOCOMD TM2.5210
CIFOCOCDTIPOBIENMAL
ØFOCOTM3.2301628
ØFOCOTM MD3.4154278
ØFOCOMD3.11930
ØFOCOMD TM3.31222
CIFOCOCDTIPOBIENMAL
TMFOCOØ2.2962501
TM MDFOCOØ2.4295108
MDFOCOØ2.16336
MDFOCOMD1.942

En el futuro estos datos servirán para mejorar la cobertura y precisión de un desambiguador, esta vez sí, automático de marcadores del discurso. Pero adelantemos ya, producto de la observación de las cifras de las tablas, la debilidad de las reglas con contextos vacíos.

Resultados del grado de acierto sobre CAT vs. MD

Veamos a continuación los datos de ocurrencias de formas lingüísticas que en el corpus se usan o bien como marcadores o bien como otra categoría. Estos datos también se tendrán en cuenta a la hora de hacer reglas de desambiguación particulares para cada marcador.

MDBIENMAL
bueno124250
es que105674
claro73431
vamos399165
vale21822
mira18218
a ver17663
muy bien143122
y nada1276
hombre12151
venga11719
y eso10757
por eso10311
digamos955
tal9216
usted82112
gracias7839
encima7817
ya7555
en fin711
primero6951
pues eso677
vamos a ver6416
y ya6238
y todo5222
que si4950
total457
la verdad3918
de verdad344
hija3210
exactamente3117
macho311
vaya3325
mujer2434
seguro234
lo siento231
anda211
eso2054
nada2027
quiero decir206
ya que204
segundo1925
de acuerdo1922
por un lado192
bien1511
maja154
aparte146
esto es1268
ya sabes1210
lo que pasa128
fuerte1121
justo920
concretamente93
cuidado810
estupendo87
ya te digo714
escucha79
genial79
de acuerdo con72
adelante528
con todo519
anteriormente512
ahora46
muy fuerte44
a saber44
maravilloso41
una mierda37
evidente37
de entrada34
para nada33
ojo31
que digamos31
por ello31
por otro32
igual213
tercero210
hay que ver23
guay23
en total23
espectacular25
la hostia22
lo que se dice22
no me digas21
majo12
hostias12
particularmente12
es espectacular11
muy breve11
es muy fuerte11
por decir algo11
MDBIENMAL
es que105674
bueno124250
claro73431
vamos399165
vale21822
mira18218
a ver17663
y nada1276
hombre12151
venga11719
por eso10311
digamos955
tal9216
encima7817
en fin711
pues eso677
vamos a ver6416
y todo5222
total457
la verdad3918
de verdad344
hija3210
macho311
seguro234
lo siento231
joder220
anda211
quiero decir206
ya que204
por un lado192
maja154
aparte146
concretamente93
de acuerdo con72
ojo31
MDBIENMAL
mujer2434
eso2054
esto es1268
justo920
ya te digo714
escucha79
adelante528
con todo519
anteriormente512
una mierda37
evidente37
igual213
tercero210
espectacular25
MDBIENMAL
y eso10757
muy bien143122
usted82112
gracias7839
ya7555
primero6951
y ya6238
que si4950
vaya3325
exactamente3117
nada2027
segundo1925
de acuerdo1922
bien1511
ya sabes1210
lo que pasa128
fuerte1121
cuidado810
estupendo87
genial79
ahora46
muy fuerte44
a saber44
maravilloso41
de entrada34
para nada33
que digamos31
por ello31
por otro32
hay que ver23
guay23
la hostia22
lo que se dice22
en total23
majo12
hostias12
particularmente12
es espectacular11
muy breve11
es muy fuerte11
por decir algo11

Conclusiones

En este punto del trabajo, hemos resuelto el núcleo duro de la investigación. Hemos diseñado un modelo de anotación que ya está reflejado en los textos del corpus, el cual en este momento de la investigación ya está codificado en formato XML. Ahora ya solo queda saber qué cosas se pueden hacer con el corpus. Damos paso por tanto a la penúltima parte de este ejercicio intelectual que va de lo teórico a lo aplicado, pasando por una etapa de sistematización descriptiva y formalización de la información. Para cada aplicación hemos diseñado también las herramientas computacionales necesarias para la extracción y presentación de los datos de acuerdo con los objetivos teóricos, de naturaleza lingüística y didáctica respectivamente, de cada capítulo. Hemos diseñado una interfaz Web para la recuperación y presentación de los datos que nos interesen del corpus en función de sus aplicaciones. Una de las secciones de este interfaz está dedicado al siguiente capítulo, donde veremos cómo un contador de frecuencias de marcadores del discurso en función de géneros discursivos nos abrirá las puertas de una disciplina aún emergente como es la de la Pragmática Cuantitativa.

DE LA APLICACIÓN

Inteligencia artificial y Pragmática: perspectivas de investigación

FINAL Y CONCLUSIONES

DE LAS FUENTES DE CONOCIMIENTO


  1. 492 marcadores conforman la lista de no ambiguos, después de un gran esfuerzo por reducir marcadores que la tradición considera multifuncionales como por ejemplo bueno a una sola etiqueta (en este caso, atenuante) que explique todos los casos. Lo mismo se podría decir para marcadores como pues o entonces. En el interfaz web tratamos esta polémica que por problemas de espacio no hemos podido reflejar aquí.↩︎
  2. Conformado por 121 marcadores. Advertimos, estos marcadores son ambiguos en nuestro corpus. La ambigüedad puede cambiar según los datos. Algunos lingüistas computacionales deben comprender que la ambigüedad no puede tratarse en términos absolutos.↩︎
  3. A continuación, enumeramos los marcadores que son ambiguos semánticos: coño, ¡joder!, igualmente, luego.↩︎
  4. Grupo conformado por bien, joder, digo, venga, como, justo, igual y hombre. Un lingüista diría que es una clasificación en términos de ambigüedad muy reduccionista. En cambio, es un gran paso desde un punto de vista computacional la distinción de los marcadores en estos grupos, y el diseño de estrategias computacionales diferentes en función del tipo de ambigüedad. Las listas de marcadores se pueden consultar en el CD.↩︎
  5. Pueden consultarse las listas y el programa en sus correspondientes anexos del CD.↩︎
  6. La prosodia es uno de los mecanismos fundamentales que se utilizan oralmente para conseguir la producción de textos coherentes .↩︎
  7. La estrategia de reconocimiento de marcadores a través de la co-ocurrencia de otros marcadores ha sido utilizada como ya hemos mencionado por Hutchinson para la clasificación automática de marcadores.↩︎
  8. La fase de validación del corpus en XML se hace automáticamente, mediante un parser.↩︎
  9. El anotador avisa de que comienza con el siguiente archivo.

Las fases por tanto son reconocer, corregir, etiquetar, y codificar a XML la transcripción.

Add Comment

Your email address will not be published. Required fields are marked *

error: Este contenido está sometido a copyright.