Hemos hablado hasta aquí de un programa concebido en módulos que se combinan entre sí para dar cuenta de las especificidades de cada grupo de marcadores. Expliquemos ahora, también brevemente, cuál es la dinámica general del anotador.
El anotador anota texto por texto los marcadores de los cuatro grupos. De nuevo este planteamiento nos ha parecido el más óptimo, frente al de etiquetar todos los textos con el primer grupo, luego todos los textos de nuevo con el segundo grupo, validarlo, luego pasarle el programa que etiqueta los del tercer grupo y así sucesivamente. Con la estrategia texto a texto llevamos perfecta cuenta de lo que hemos etiquetado y de lo que nos queda por etiquetar, ya que el programa automáticamente selecciona un texto de la carpeta de corpus, y cuando el lingüista lo ha terminado de anotar, automáticamente lo pasa a la carpeta de anotados y selecciona el texto siguiente. Enumeremos con más detalle cada uno de los pasos de la estrategia texto a texto:
- Se ejecuta el program perl main.pl
- Se carga la lista total de marcadores ordenados alfabéticamente y en orden descendente, para que coja la forma qué bien antes que la forma bien, por ejemplo.
- Elimina marcas de solapamiento y transforma los apoyos vocálicos &eh &ah en eh ah para ser reconocidos como marcadores.
- Por línea de comandos también se advierte del nombre del archivo con el que se va a trabajar.
- En este punto el programa despliega una ventana que va a ser el interfaz con el que vamos a trabajar, y que presentamos a continuación.
- El anotador humano marcará alguna de las tres opciones. Tanto si marca 1 como 2, estos datos se envían a un archivo externo, dónde se van contando los casos en los que el anotador automático ha acertado y los casos en los que ha fallado. Si marca mal se invertirá automáticamente la etiqueta y de CAT se pasará a MD y de MD a CAT; entendiendo por CAT otra categoría diferente a MD.
- Una vez desambiguados todos los marcadores ambiguos, el programa pasa al módulo de desambiguación de etiquetas, y editará de nuevo una pantalla donde salga el marcador, el contexto y las etiquetas.El anotador humano pulsará 1, 2 o 3 dependiendo del número de etiquetas seleccionadas. A continuación el programa etiquetará con la etiqueta elegida. A continuación. presentamos una imagen del etiquetador en este punto del procesamiento:Ejemplo del anotador en la fase de desambiguación de etiquetas
- Después de que los marcadores hayan sido reconocidos, validados y etiquetados, el resto del texto se codificará a XML 8 y se pasará automáticamente a la carpeta de etiquetados.
- El anotador avisa de que comienza con el siguiente archivo.
Las fases por tanto son reconocer, corregir, etiquetar, y codificar a XML la transcripción.
Fase de evaluación de la anotación
Veamos a continuación las tablas en las que se reflejan las frecuencias de acierto y de error de las reglas contextuales y de los marcadores.
Resultados del grado de acierto de las reglas contextuales
CI | FOCO | CD | TIPO | BIEN | MAL |
---|---|---|---|---|---|
TM | FOCO | TM | 1.5 | 2030 | 114 |
TM | FOCO | Ø | 2.2 | 962 | 501 |
TM | FOCO | TM MD | 1.2 | 845 | 50 |
TM MD | FOCO | TM | 2.8 | 433 | 25 |
MD TM | FOCO | TM | 1.4 | 392 | 13 |
Ø | FOCO | TM | 3.2 | 301 | 628 |
TM MD | FOCO | Ø | 2.4 | 295 | 108 |
MD TM | FOCO | Ø | 2.3 | 212 | 91 |
TM | FOCO | MD | 1.8 | 190 | 19 |
MD TM | FOCO | TM MD | 1.1 | 186 | 8 |
TM MD | FOCO | TM MD | 2.6 | 154 | 7 |
Ø | FOCO | TM MD | 3.4 | 154 | 278 |
MD | FOCO | TM | 1.6 | 76 | 9 |
MD | FOCO | Ø | 2.1 | 63 | 36 |
TM MD | FOCO | MD | 2.7 | 46 | 7 |
MD | FOCO | TM MD | 1.3 | 28 | 5 |
MD TM | FOCO | MD | 1.7 | 26 | 4 |
MD TM | FOCO | MD TM | 2.5 | 21 | 0 |
Ø | FOCO | MD | 3.1 | 19 | 30 |
Ø | FOCO | MD TM | 3.3 | 12 | 22 |
MD | FOCO | MD | 1.9 | 4 | 2 |
Como podemos observar en tabla, las reglas están ordenadas según el criterio de frecuencia de aparición. Sirva esta tabla y las siguientes para establecer la relevancia de las reglas sobre todo en lo que a corpus orales se refiere.
A continuación, presentamos tres tablas que presentan las reglas que funcionan, las que definitivamente tienen resultados negativos, y las que presentan contextos ambiguos en términos de frecuencia.
CI | FOCO | CD | TIPO | BIEN | MAL |
---|---|---|---|---|---|
TM | FOCO | TM | 1.5 | 2030 | 114 |
TM | FOCO | TM MD | 1.2 | 845 | 50 |
TM MD | FOCO | TM | 2.8 | 433 | 25 |
MD TM | FOCO | TM | 1.4 | 392 | 13 |
TM | FOCO | MD | 1.8 | 190 | 19 |
MD TM | FOCO | TM MD | 1.1 | 186 | 8 |
TM MD | FOCO | TM MD | 2.6 | 154 | 7 |
MD | FOCO | TM | 1.6 | 76 | 9 |
TM MD | FOCO | MD | 2.7 | 46 | 7 |
MD | FOCO | TM MD | 1.3 | 28 | 5 |
MD TM | FOCO | MD | 1.7 | 26 | 4 |
MD TM | FOCO | MD TM | 2.5 | 21 | 0 |
CI | FOCO | CD | TIPO | BIEN | MAL |
---|---|---|---|---|---|
Ø | FOCO | TM | 3.2 | 301 | 628 |
Ø | FOCO | TM MD | 3.4 | 154 | 278 |
Ø | FOCO | MD | 3.1 | 19 | 30 |
Ø | FOCO | MD TM | 3.3 | 12 | 22 |
CI | FOCO | CD | TIPO | BIEN | MAL |
TM | FOCO | Ø | 2.2 | 962 | 501 |
TM MD | FOCO | Ø | 2.4 | 295 | 108 |
MD | FOCO | Ø | 2.1 | 63 | 36 |
MD | FOCO | MD | 1.9 | 4 | 2 |
En el futuro estos datos servirán para mejorar la cobertura y precisión de un desambiguador, esta vez sí, automático de marcadores del discurso. Pero adelantemos ya, producto de la observación de las cifras de las tablas, la debilidad de las reglas con contextos vacíos.
Resultados del grado de acierto sobre CAT vs. MD
Veamos a continuación los datos de ocurrencias de formas lingüísticas que en el corpus se usan o bien como marcadores o bien como otra categoría. Estos datos también se tendrán en cuenta a la hora de hacer reglas de desambiguación particulares para cada marcador.
MD | BIEN | MAL |
---|---|---|
bueno | 1242 | 50 |
es que | 1056 | 74 |
claro | 734 | 31 |
vamos | 399 | 165 |
vale | 218 | 22 |
mira | 182 | 18 |
a ver | 176 | 63 |
muy bien | 143 | 122 |
y nada | 127 | 6 |
hombre | 121 | 51 |
venga | 117 | 19 |
y eso | 107 | 57 |
por eso | 103 | 11 |
digamos | 95 | 5 |
tal | 92 | 16 |
usted | 82 | 112 |
gracias | 78 | 39 |
encima | 78 | 17 |
ya | 75 | 55 |
en fin | 71 | 1 |
primero | 69 | 51 |
pues eso | 67 | 7 |
vamos a ver | 64 | 16 |
y ya | 62 | 38 |
y todo | 52 | 22 |
que si | 49 | 50 |
total | 45 | 7 |
la verdad | 39 | 18 |
de verdad | 34 | 4 |
hija | 32 | 10 |
exactamente | 31 | 17 |
macho | 31 | 1 |
vaya | 33 | 25 |
mujer | 24 | 34 |
seguro | 23 | 4 |
lo siento | 23 | 1 |
anda | 21 | 1 |
eso | 20 | 54 |
nada | 20 | 27 |
quiero decir | 20 | 6 |
ya que | 20 | 4 |
segundo | 19 | 25 |
de acuerdo | 19 | 22 |
por un lado | 19 | 2 |
bien | 15 | 11 |
maja | 15 | 4 |
aparte | 14 | 6 |
esto es | 12 | 68 |
ya sabes | 12 | 10 |
lo que pasa | 12 | 8 |
fuerte | 11 | 21 |
justo | 9 | 20 |
concretamente | 9 | 3 |
cuidado | 8 | 10 |
estupendo | 8 | 7 |
ya te digo | 7 | 14 |
escucha | 7 | 9 |
genial | 7 | 9 |
de acuerdo con | 7 | 2 |
adelante | 5 | 28 |
con todo | 5 | 19 |
anteriormente | 5 | 12 |
ahora | 4 | 6 |
muy fuerte | 4 | 4 |
a saber | 4 | 4 |
maravilloso | 4 | 1 |
una mierda | 3 | 7 |
evidente | 3 | 7 |
de entrada | 3 | 4 |
para nada | 3 | 3 |
ojo | 3 | 1 |
que digamos | 3 | 1 |
por ello | 3 | 1 |
por otro | 3 | 2 |
igual | 2 | 13 |
tercero | 2 | 10 |
hay que ver | 2 | 3 |
guay | 2 | 3 |
en total | 2 | 3 |
espectacular | 2 | 5 |
la hostia | 2 | 2 |
lo que se dice | 2 | 2 |
no me digas | 2 | 1 |
majo | 1 | 2 |
hostias | 1 | 2 |
particularmente | 1 | 2 |
es espectacular | 1 | 1 |
muy breve | 1 | 1 |
es muy fuerte | 1 | 1 |
por decir algo | 1 | 1 |
MD | BIEN | MAL |
---|---|---|
es que | 1056 | 74 |
bueno | 1242 | 50 |
claro | 734 | 31 |
vamos | 399 | 165 |
vale | 218 | 22 |
mira | 182 | 18 |
a ver | 176 | 63 |
y nada | 127 | 6 |
hombre | 121 | 51 |
venga | 117 | 19 |
por eso | 103 | 11 |
digamos | 95 | 5 |
tal | 92 | 16 |
encima | 78 | 17 |
en fin | 71 | 1 |
pues eso | 67 | 7 |
vamos a ver | 64 | 16 |
y todo | 52 | 22 |
total | 45 | 7 |
la verdad | 39 | 18 |
de verdad | 34 | 4 |
hija | 32 | 10 |
macho | 31 | 1 |
seguro | 23 | 4 |
lo siento | 23 | 1 |
joder | 22 | 0 |
anda | 21 | 1 |
quiero decir | 20 | 6 |
ya que | 20 | 4 |
por un lado | 19 | 2 |
maja | 15 | 4 |
aparte | 14 | 6 |
concretamente | 9 | 3 |
de acuerdo con | 7 | 2 |
ojo | 3 | 1 |
MD | BIEN | MAL |
---|---|---|
mujer | 24 | 34 |
eso | 20 | 54 |
esto es | 12 | 68 |
justo | 9 | 20 |
ya te digo | 7 | 14 |
escucha | 7 | 9 |
adelante | 5 | 28 |
con todo | 5 | 19 |
anteriormente | 5 | 12 |
una mierda | 3 | 7 |
evidente | 3 | 7 |
igual | 2 | 13 |
tercero | 2 | 10 |
espectacular | 2 | 5 |
MD | BIEN | MAL |
---|---|---|
y eso | 107 | 57 |
muy bien | 143 | 122 |
usted | 82 | 112 |
gracias | 78 | 39 |
ya | 75 | 55 |
primero | 69 | 51 |
y ya | 62 | 38 |
que si | 49 | 50 |
vaya | 33 | 25 |
exactamente | 31 | 17 |
nada | 20 | 27 |
segundo | 19 | 25 |
de acuerdo | 19 | 22 |
bien | 15 | 11 |
ya sabes | 12 | 10 |
lo que pasa | 12 | 8 |
fuerte | 11 | 21 |
cuidado | 8 | 10 |
estupendo | 8 | 7 |
genial | 7 | 9 |
ahora | 4 | 6 |
muy fuerte | 4 | 4 |
a saber | 4 | 4 |
maravilloso | 4 | 1 |
de entrada | 3 | 4 |
para nada | 3 | 3 |
que digamos | 3 | 1 |
por ello | 3 | 1 |
por otro | 3 | 2 |
hay que ver | 2 | 3 |
guay | 2 | 3 |
la hostia | 2 | 2 |
lo que se dice | 2 | 2 |
en total | 2 | 3 |
majo | 1 | 2 |
hostias | 1 | 2 |
particularmente | 1 | 2 |
es espectacular | 1 | 1 |
muy breve | 1 | 1 |
es muy fuerte | 1 | 1 |
por decir algo | 1 | 1 |
Conclusiones
En este punto del trabajo, hemos resuelto el núcleo duro de la investigación. Hemos diseñado un modelo de anotación que ya está reflejado en los textos del corpus, el cual en este momento de la investigación ya está codificado en formato XML. Ahora ya solo queda saber qué cosas se pueden hacer con el corpus. Damos paso por tanto a la penúltima parte de este ejercicio intelectual que va de lo teórico a lo aplicado, pasando por una etapa de sistematización descriptiva y formalización de la información. Para cada aplicación hemos diseñado también las herramientas computacionales necesarias para la extracción y presentación de los datos de acuerdo con los objetivos teóricos, de naturaleza lingüística y didáctica respectivamente, de cada capítulo. Hemos diseñado una interfaz Web para la recuperación y presentación de los datos que nos interesen del corpus en función de sus aplicaciones. Una de las secciones de este interfaz está dedicado al siguiente capítulo, donde veremos cómo un contador de frecuencias de marcadores del discurso en función de géneros discursivos nos abrirá las puertas de una disciplina aún emergente como es la de la Pragmática Cuantitativa.
DE LA APLICACIÓN
Inteligencia artificial y Pragmática: perspectivas de investigación
FINAL Y CONCLUSIONES
DE LAS FUENTES DE CONOCIMIENTO
- 492 marcadores conforman la lista de no ambiguos, después de un gran esfuerzo por reducir marcadores que la tradición considera multifuncionales como por ejemplo bueno a una sola etiqueta (en este caso, atenuante) que explique todos los casos. Lo mismo se podría decir para marcadores como pues o entonces. En el interfaz web tratamos esta polémica que por problemas de espacio no hemos podido reflejar aquí.↩︎
- Conformado por 121 marcadores. Advertimos, estos marcadores son ambiguos en nuestro corpus. La ambigüedad puede cambiar según los datos. Algunos lingüistas computacionales deben comprender que la ambigüedad no puede tratarse en términos absolutos.↩︎
- A continuación, enumeramos los marcadores que son ambiguos semánticos: coño, ¡joder!, igualmente, luego.↩︎
- Grupo conformado por bien, joder, digo, venga, como, justo, igual y hombre. Un lingüista diría que es una clasificación en términos de ambigüedad muy reduccionista. En cambio, es un gran paso desde un punto de vista computacional la distinción de los marcadores en estos grupos, y el diseño de estrategias computacionales diferentes en función del tipo de ambigüedad. Las listas de marcadores se pueden consultar en el CD.↩︎
- Pueden consultarse las listas y el programa en sus correspondientes anexos del CD.↩︎
- La prosodia es uno de los mecanismos fundamentales que se utilizan oralmente para conseguir la producción de textos coherentes .↩︎
- La estrategia de reconocimiento de marcadores a través de la co-ocurrencia de otros marcadores ha sido utilizada como ya hemos mencionado por Hutchinson para la clasificación automática de marcadores.↩︎
- La fase de validación del corpus en XML se hace automáticamente, mediante un parser.↩︎
- El anotador avisa de que comienza con el siguiente archivo.
Las fases por tanto son reconocer, corregir, etiquetar, y codificar a XML la transcripción.
Add Comment