Presentamos en este trabajo un estudio de carácter interdisciplinar donde participan diversas áreas de conocimiento: la Pragmática Lingüística, la Traducción, la Lingüística Contrastiva apoyada en Corpus Paralelos y la Lingüística Computacional.
Es un hecho conocido que la Pragmática, desde sus diferentes marcos teóricos, ha puesto de manifiesto la importancia que los marcadores discursivos tienen a la hora de guiar las inferencias del interlocutor durante el proceso de interpretación de enunciados (Portolés 2004). Poco a poco, el mundo de la traducción está incorporando en su haber el conocimiento generado en esta disciplina, fundamentalmente en lo que se refiere al estudio de la cortesía, los actos de habla, la modalización discursiva y la coherencia y cohesión textual (Hackey 1998). A su vez, la Lingüística Contrastiva ha ampliado en los últimos tiempos sus horizontes, y cada vez son más los estudios comparativos sobre los marcadores del discurso en diversas lenguas. En este sentido, el recurso a los corpus paralelos como material de estudio ha revitalizado con creces esta disciplina (Granger 2003).
Al igual que en otras parcelas, la Lingüística Computacional y la Inteligencia Artificial están trabajando para incluir en sus modelos de lenguaje las relaciones discursivas. En estas parcelas del saber de naturaleza más aplicada, los marcadores discursivos se intentan reconocer y clasificar (de la manera más automatizada posible) con el fin de, bien segmentar el texto automáticamente, bien inducir una estructura retórica. Dentro de este marco, una de las investigaciones que más frutos ha aportado a diferentes campos del mundo computacional, como por ejemplo los resúmenes automáticos, ha sido la aplicación del modelo de relaciones retóricas SDRT propuesto por Mann y Thompson (1988) e implementado computacionalmente en los trabajos de Daniel Marcu (Marcu 2000). En España, los marcadores discursivos también han sido un instrumento a la hora de segmentar textos y de inducir una retórica textual en los corpus (Alonso 2002 y Prada 2003) con fines sobre todo al resumen automático.
No obstante, a pesar de estás iniciativas, consideramos que, fundamentalmente en lo que concierne a la lengua española, y desde una perspectiva computacional, los marcadores discursivos no han sido tratados en toda su complejidad. Por un lado, nos encontramos trabajos procedentes de la Pragmática lingüística que insisten en la polifuncionalidad de estas partículas; estos trabajos se muestran muy reticentes a la hora de presentar una definición definitiva y única del valor semántico-pragmático de un marcador, ya que insisten en que el significado último de los mismos se construye con ayuda del contexto en el momento de la interacción comunicativa. Desde la perspectiva computacional, en cambio, los problemas de ambigüedad, tanto categorial como discursiva, como los criterios
y debates sobre la clasificación semántica de cada marcador no suelen exponerse con detalle en los trabajos consultados.
Por lo que respecta al árabe, el estudio de los marcadores del discurso por medio de corpus ha recibido escasa atención en el ámbito académico europeo, tanto desde una perspectiva teórica como computacional.
Acogiéndonos a estas líneas de investigación en curso, e intentando suplir en parte las carencias señaladas, presentamos aquí un estudio en el que analizamos cómo se han traducido los marcadores discursivos en el corpus paralelo árabe-español de la ONU.
En cuanto a la estructura del discurso, hemos diferenciado los siguientes apartados. En primer lugar presentamos, en dos apartados diferentes, los recursos con los que partimos para desarrollar la investigación, a saber: el corpus paralelo de la ONU y el modelo de anotación pragmática PRAGMATEXT. En el primer apartado se explicarán, brevemente, las características fundamentales de diseño y composición del corpus, así como el tipo de información lingüística que está explicitada. En el segundo apartado, presentamos el marco teórico en el que se fundamenta nuestra clasificación de marcadores discursivos y su formalización a lenguaje XML. Una vez explicados los recursos disponibles, nos adentramos en la parte del procesamiento computacional del corpus paralelo árabe-español de la ONU. Siguiendo con el orden establecido, en el tercer apartado hablaremos de los marcadores discursivos encontrados en el corpus y de su frecuencia de uso. El cuarto apartado está dedicado al procesamiento del corpus del árabe a partir de la información extraída del corpus del español. En él, se expondrán las técnicas computacionales que hemos utilizado para el reconocimiento y etiquetado automático de los marcadores discursivos en el corpus en árabe. A continuación, en el quinto apartado el lector podrá consultar las frecuencias de uso de los marcadores en utilizados en el corpus árabe y a algunos comentarios sobre la evaluación de las estrategias de anotación. Finalmente, para terminar y como es de rigor, se presentarán las conclusiones y el trabajo futuro.
Add Comment