Para este estudio, hemos utilizado un corpus paralelo bilingüe español-árabe, formado por una colección de textos disponibles en Internet procedentes de los documentos de la Organización de las Naciones Unidas.
Términos como “corpus paralelo”, “corpus de traducción” y “corpus comparable” pueden resultar ambiguos en algunos casos; por ello, conviene destacar cuál ha sido nuestra concepción de corpus paralelo en el presente trabajo. Desde la perspectiva de la Lingüística Computacional y el Procesamiento del Lenguaje Natural, el término “corpus paralelo” sirve para denominar a dos conjuntos de textos en dos lenguas diferentes, los textos de la L2 son traducciones de los textos de la L1. En cambio, el concepto de un “corpus comparable” o un “corpus de traducción” es utilizado para referirse a un conjunto de textos T1 en una lengua A y a un conjunto de textos T2 en una lengua B comparables según el género y la temática. En el presente estudio, empleamos el término de corpus paralelo según la definición de Somers (2001):
By „parallel corpus‟, we mean a text which is available in two (or more) languages: it may be an original text and its translation, or it may be a text which has been written by a
consortium of authors in a variety of languages, and then published in various language versions
Una vez aclarado el concepto en el que se basa el material utilizado en este estudio, conviene describir las características de este corpus:
- Tipo de corpus. Nos encontramos ante un corpus de textos paralelos bilingües español-árabe con una posible ampliación multilingüe.
- Tipo de traducción. Los textos de la L2 no son traducciones directas de la L1, ya que tanto la versión española como la versión árabe se han traducido a partir de un original, que en la mayoría de los casos está escrito en lengua inglesa.
- Cobertura y representatividad. Es un corpus que refleja el uso actual del lenguaje estándar en su variedad escrita tanto en el español como en el árabe.
- Fuentes. Todos los textos son documentos que proceden de instituciones internacionales pertenecientes a la Organización de las Naciones Unidas donde ambos idiomas, tanto el español como el árabe, tienen la calidad de lengua oficial. En su mayoría, los documentos son informes publicados por las siguientes instituciones: El Consejo de Seguridad, La Asamblea General, El Consejo Económico y Social, La Corte Internacional de Justicia, UNESCO: Organización de las Naciones Unidas para la Educación, la Ciencia y la Cultura.
- Propiedad intelectual. El uso actual de los documentos no viola las leyes de propiedad intelectual, ya que se trata de fines académicos sin ánimo de lucro, según lo establecido por el principio de uso justo conocido en la propiedad intelectual.
- Dimensión y tamaño. La dimensión es bastante limitada; la versión actual del corpus contiene casi un millón de palabras en cada lengua (árabe: 901. 511 y español: 1.343. 225). No obstante, la muestra del corpus empleada aquí se reduce aproximadamente a 40.000 palabras en español más la parte correspondiente en árabe, tal y como se representa en la siguiente tabla:
Español | Árabe | |
Número de tokens | 39.496 | 26.179 |
Número de types ( sin ruido textual1) | 3.986 | 4.796 |
Número de párrafos | 664 | 660 |
Número de oraciones | 1179 | 1173 |
- Niveles de anotación del corpus. El corpus está anotado a nivel estructural (párrafos, oraciones y tokens), y a nivel categorial. Para la anotación de las categorías gramaticales se han utilizado anotadores automáticos monolingües basados en reglas (Samy 2005). Además, el corpus está alineado en el nivel de las oraciones, es decir, que cada oración está relacionada con la(s) oración(es) en la traducción correspondiente.
1 Por ruido textual nos referimos a problemas de procesamiento relacionados con la conversión de formatos como la presencia de doble espacios o caracteres no-reconocidos. Estos problemas han sido manejados para calcular el número preciso de los types, es decir, los tipos de palabras (en el sentido formal y técnico de secuencia de caracteres) en comparación con los tokens considerados como las ocurrencias individuales de cada uno de estos types.
Add Comment