Forma parte del trabajo futuro, y por ende, de las limitaciones de la investigación realizada aquí, la integración del sistema de anotación pragmática dentro de una investigación mayor. En concreto, el Laboratorio de Lingüística Informática deberá en el futuro unificar todos sus esquemas de anotación, y todos sus etiquetadores (el categorial y el pragmático). Además, para completar el etiquetado del C-Oral-Rom falta el nivel sintáctico. La interfaz sintaxis pragmática no es una cuestión superficial. Pensemos en las posibles realizaciones discursivas del sintagma qué fuerte en estos contextos.
- Qué fuerte no me lo puedo creer.
- Qué fuerte ha sonado.
Aquí nos encontramos con dos análisis sintácticos de la oración. Si el análisis computacional se hace de manera secuencial ¿qué módulo pasaríamos antes? ¿el que gestiona la información sintáctica o el que se ocupa del nivel pragmático1? ¿Cómo podemos solucionar el problema de diferenciar entre las estructuras o secuencias de palabras que en un contexto tienen un significado composicional (esto es, que el significado sea la suma de sus constituyentes) y las que poseen un significado convencional, fraseológico y en algunas ocasiones, figurativo? Amplíese este problema a los casos de todas las unidades fraseológicas incluidas las colocaciones, y no solo al de los marcadores del discurso. ¿Cómo distinguir a priori una colocación de sintagma? Las reglas sintácticas no solo combinan unas palabras con otras sino construcciones de diferente tamaño y naturaleza. La Lingüística Computacional no puede hacer oídos sordos del hecho de que lo que detiene la recursividad es la convención. Dejemos esta cuestión apuntada aquí para ser planteada en el futuro cuando un texto tenga que pasar por todos los niveles de etiquetado descritos, cada uno de ellos aportando una información sobre las construcciones que allí se encuentran.
Respecto del modelo de anotación, debemos mejorar la tipología de actos de habla y la de la evidencialidad. Ya que ha sido elaborada ad hoc a medida que íbamos etiquetando las palabras. Además, es necesario contrastar la clasificación semántica de algunas unidades discursivas, que pueden presentar otros significados en otros corpus. Por último, la crítica más importante del modelo de anotación es que no se ha reflejado la escalaridad o gradualidad de estos fenómenos. Se ha hecho una conceptualización de la expresión de la certeza discreta, esto es, hemos indicado si hay atenuación o intensificación de la certeza, pero como sabemos la certeza se estructura en grados, grados de los que el modelo de anotación no da cuenta.
El tercer punto débil se encuentra en el etiquetador. Ya que la identificación de marcadores del discurso en el corpus también se ha hecho ad hoc. Esto dificultaría las labores automáticas cuando cambiáramos de corpus. Además, las reglas contextuales diseñadas solo funcionan para corpus orales, y aunque no es difícil adaptarlas a los corpus escritos, solo hay que sustituir las marcas prosódicas por los signos de puntuación, ignoramos su comportamiento en términos de ambigüedad, aunque también es cierto que en la parte formal del corpus existen muchas transcripciones que se apoyan en texto escrito como, por ejemplo, las conferencias y los sermones. Por último, hay que perfeccionar las reglas de desambiguación oral. Por ejemplo, la regla 3.4, constituida por Foco+Transcription+Mark MD coge contextos del tipo:
*ANA: te molesta el aparato joder // o sea …
donde el marcador o sea ya pertenece al otro enunciado y no tiene influencia sobre la desambiguación de la partícula anterior. Se puede ser más fino, y hacer diferencias entre una barra y dos barras en el diseño de las reglas. Por otra parte, y ya para terminar, en el caso de haber tenido todos los niveles de etiquetados concentrados en un mismo texto se podría haber conjugado la información categorial con la prosódica en la elaboración de las reglas. De esta manera, el enunciado
*ANA: si no pasa nada
hubiera sido mucho más fácil de desambiguar. En el futuro, el Laboratorio de Lingüística Informática deberá ocuparse de integrar toda la información a la hora de hacer las reglas de desambiguación.
Forma parte del trabajo futuro, integrar el conocimiento aquí generado dentro de lo que sería el módulo dedicado al procesamiento pragmático de un sistema de diálogo hombre-máquina.
Una vez terminados de enumerar algunos de los puntos débiles de esta investigación, pasemos a la reflexión final de este trabajo.
Add Comment