Análisis pragmático de las interacciones hombre-máquina en el corpus oral del español CORAL-ROM

Ponencia presentada en la SEL, en 2004, en la que se analizan desde un punto de vista pragmático las interacciones hombre-máquina del corpus oral del español C-ORAL-ROM.

Descripción

El objetivo de este artículo es el de evaluar los resultados de las interacciones entre hombre-máquina pertenecientes al corpus oral del español C-ORAL-ROM, en las cuales los hablantes llaman por teléfono a un servicio automático de información de trenes y establecen con él un diálogo en torno al horario, el lugar de partida, de llegada y las condiciones de los trenes. La causa principal que motivó este estudio fue la de analizar por qué algunas de estas interacciones se producían con éxito, mientras que otras, la mayoría de las que conforman esta parte del corpus, caían en el malentendido y el fracaso, con la consiguiente frustración de los hablantes, que intentaban cortar el diálogo con el programa de la forma más educada posible.

Reformulación y atenuación: los operadores de modalización o sea y bueno en el corpus oral del español C-ORAL-ROM

Significado y valores semánticos del marcador o sea Para este primer acercamiento al significado y usos de la partícula o sea, hemos elegido como punto de partida el estudio realizado por Félix-Brasdefer (2006) sobre los usos del o sea en el español de México. En este artículo, se analizan los valores de este marcador a […]

Reformulación y atenuación: los operadores de modalización o sea y bueno en el corpus oral del español C-ORAL-ROM

Conclusiones y bibliografía Lo que hemos pretendido hacer en este pequeño estudio ha sido acercarnos a los diferentes valores de un mismo marcador discursivo desde una perspectiva más accesible a los alumnos extranjeros como son las estrategias que uno puede utilizar a la hora de comunicarse con otra persona. Estos marcadores funcionan como reguladores de […]

Reformulación y atenuación: los operadores de modalización o sea y bueno en el corpus oral del español C-ORAL-ROM

Atenuación y reformulación: operaciones de modalización La modalización es una operación que el hablante realiza cuando adopta una determinada actitud tanto frente al contenido de su enunciado como frente a su interlocutor. Dentro de las causas por las que el hablante decide emplear esta estrategia frente a lo dicho, Fouilloux (2005) señala las siguientes: 1) […]

Reformulación y atenuación: los operadores de modalización o sea y bueno en el corpus oral del español C-ORAL-ROM

Diferencias entre o sea y bueno O sea y bueno son marcadores diferentes porque reformular y atenuar son operaciones que también lo son. En el primer caso, una realidad se expresa en términos de otra, que en principio se considera más relevante o más cortés; en el segundo caso, en el de bueno, se presenta […]

Reformulación y atenuación: los operadores de modalización o sea y bueno en el corpus oral del español C-ORAL-ROM

Reformulación de una secuencia discursiva (18) *ELE: y entonces él me dijo / no // tienes razón // la verdad que … sabes ? que / yo / prefiero no llevarte // y dije vale // me parece estupendo // total / que / cuando volví de Munich / vi que + no / me […]

Reformulación y atenuación: los operadores de modalización o sea y bueno en el corpus oral del español C-ORAL-ROM

El radio de acción de los marcadores o sea y bueno: estudio contrastivo Solo en Cortés (2005), estos dos marcadores se clasifican juntos como marcadores textuales de progresión temática que mantienen una relación jerárquica unidireccional con los enunciados que conectan, esto es, reformuladores que a su vez se clasifican, según sus usos, en rectificadores (no […]

Reformulación y atenuación: los operadores de modalización o sea y bueno en el corpus oral del español C-ORAL-ROM

Modalizar reformulando con o sea Según Fuentes (1995), la reformulación es una operación enunciativa que muestra el control de la comunicación por parte del hablante. Siguiendo a esta autora, la operación de reformulación se podría dividir en tres etapas: 1) el hablante expresa un acto enunciativo X 2) una vez comunicado dicho acto, el hablante […]

Reformulación y atenuación: los operadores de modalización o sea y bueno en el corpus oral del español C-ORAL-ROM

Modalizar atenuando con bueno La atenuación es una subcategoría de la modalización mediante la cual el locutor restringe el alcance de lo dicho (Fouilloux, 2005). Esta estrategia discursiva se puede expresar a través de marcas morfológicas o léxicas tales como el sintagma en mi opinión, los verbos modales (poder), o también algunas formas verbales como, […]

Reformulación y atenuación: los operadores de modalización o sea y bueno en el corpus oral del español C-ORAL-ROM (5)

Significado y valores del marcador bueno Con el marcador discursivo bueno sucede exactamente lo mismo. Los autores consultados distinguen las siguientes funciones discursivas o valores semánticos, dependiendo de la escuela en la que nos adentremos[1]: Función pragmática: ratificación, conformidad, concesión, aceptación Función metadiscursiva: reanudación o continuidad temática, rectificación. Función expresiva: resignación, ironía. Como decíamos para […]

Reformulación y atenuación: los operadores de modalización o sea y bueno en el corpus oral del español C-ORAL-ROM (4)

Significado y valores semánticos del marcador o sea Para este primer acercamiento al significado y usos de la partícula o sea, hemos elegido como punto de partida el estudio realizado por Félix-Brasdefer (2006) sobre los usos del o sea en el español de México. En este artículo, se analizan los valores de este marcador a […]

Reformulación y atenuación: los operadores de modalización o sea y bueno en el corpus oral del español C-ORAL-ROM (3)

C-ORAL-ROM: descripción del corpus y herramientas computacionales de trabajo C-ORAL-ROM Madrid es el corpus de referencia que hemos utilizado para realizar el análisis de estos marcadores. La elaboración de este corpus ha sido llevada a cabo por el Laboratorio de Lingüística Informática de la Universidad Autónoma de Madrid (http://www.lllf.uam.es) y su desarrollo forma parte de […]

Reformulación y atenuación: los operadores de modalización o sea y bueno en el corpus oral del español C-ORAL-ROM (2)

Introducción Es un hecho conocido por todos que el estudio de los marcadores del discurso se hace cada vez más imprescindible en la enseñanza de español a extranjeros (ELE). La Pragmática, desde sus diferentes prismas teóricos y escuelas, ha descrito y sistematizado el significado de dichas partículas. En este sentido, los marcadores o sea y […]

Reformulación y atenuación: los operadores de modalización o sea y bueno en el corpus oral del español C-ORAL-ROM (1)

Abstract Con el fin de facilitar el aprendizaje de los marcadores discursivos en las aulas de español para extranjeros, en este artículo se analizan de forma contrastiva, y a través de la consulta del corpus C-ORAL-ROM, los marcadores discursivos o sea y bueno como piezas léxicas que forman parte de estrategias pragmático-discursivas más generales como […]

Pragmatic Annotation of Discourse Markers in a Multilingual Parallel Corpus (Arabic- Spanish-English) (4)

Theoretical Framework Studies in Pragmatics revealed that the communication process is carried out at the inferential level, i.e., the communication process is no longer regarded as a process of encoding and decoding the information, but as a process where the interpretation of the world of the speaker is encoded, transmitted, decoded and finally interpreted again […]

Pragmatic Annotation of Discourse Markers in a Multilingual Parallel Corpus (Arabic- Spanish-English) (3)

Work Outlines The present study is organized as follows. After this introductory section, in the second part, we explain the guidelines defining our theoretical pragmatic framework. Based on this framework, in the third section, we describe the typology adopted in the classification of the discourse markers and how it is reflected through the PRAGMATEXT, the […]

Pragmatic Annotation of Discourse Markers in a Multilingual Parallel Corpus (Arabic- Spanish-English) (3)

Motivation Discourse markers have been subject of different studies in the field of computational pragmatics and natural language processing. especially in applications concerned with the detection of document structure for automatic summarization or for the interpretation and generation of speech acts in speech corpora and dialogue systems (Kawahara & Hasegawa, 2002). However, most of these […]

Pragmatic Annotation of Discourse Markers in a Multilingual Parallel Corpus (Arabic- Spanish-English) (2)

Introduction Pragmatics is usually defined as the study of how language is used. In the language use, context plays a key role in the interpretation of statements. That is the reason why Pragmatics is concerned, among other topics, with Inference. Through this mental process, humans can obtain information that is not actually present in the […]

Pragmatic Annotation of Discourse Markers in a Multilingual Parallel Corpus (Arabic- Spanish-English) (1)

ABSTRACT Discourse structure and coherence relations are one of the main inferential challenges addressed by computational pragmatics. The present study focuses on discourse markers as key elements in guiding the inferences of the statements in natural language. Through a rule-based approach for the automatic identification, classification and annotation of the discourse markers in a multilingual […]

PRAGMATEXT (6): Conclusions and future work

In this paper, a pragmatic annotation model and its implementation in XML language is presented. Currently the spontaneous spoken corpus CORALROM has been tagged. This is a corpus with a wide range of communicative situations and a large number of linguistic registers. The pragmatic phenomena tagged are emotions, discourse relations, modalization, evidentiality, phraseological units, metaphor […]

PRAGMATEXT (6)

PRAGMATEX in XML To formalize an annotation model in a Schema or DTD in XML language, there is a need to define what information will be introduced in the attribute labels and in the elements label. The application of the annotation model to the Schema is based on the principles below. The preferred option has […]

PRAGMATEXT (5)

PRAGMATEXT TAGSET The phenomena described here are: Each phenomenon described is analyzed according to the methodology adopted to design of the tagset: description of Pragmatic phenomenon; classification of pragmatic categories; inventory of lexical linguistic forms in which a phenomenon is codified and formalization in XML language. Emotional discourse The analysis of emotions has been addressed […]

Pragmatext (4)

A pragmatic annotation model All phenomena described here have a cognitive origin, hence they are universals. A cognitive phenomenon influences social interaction and language. Therefore, the verbal communication process can be analyzed from three closely related levels: cognitive social, pragmatic and linguistic. At a cognitive social level, the theoretical framework described is based on the […]

PRAGMATEXT (3)

C-ORAL-ROM, a spontaneous spoken corpus The corpus used for the present study is developed within the framework of the European project C-Oral-Rom. The main goal of this project was to build four corpora in four romance languages (Italian, Spanish, French and Portuguese) with similar design features: the same number of words, the same types of […]

PRAGMATEXT (2)

Introduction Pragmatics is the science of the use of language in its context. In the second half of the 20th century, linguists and philosophers started to study the importance of context in the interpretation of statements. There have been two areas of progress in this field: the study of spoken language and the conception of […]

PRAGMATEXT: Annotating the C-ORAL-ROM Corpus with Pragmatic Knowledge (1)

This paper outlines the first phase of the PRAGMATEXT project. The aim of PRAGMATEXT is to introduce pragmatic knowledge into the transcriptions of C- ORAL-ROM, a spontaneous spoken corpus of Spanish. The paper is divided in four sections. The first section presents the most relevant features of the C-ORAL-ROM corpus. The second describes the pragmatic-discursive […]

Orality and Difficulties in the Transcription of Spoken Corpora (6)

Textual typology and transcription problems: analysis of the data In this section, the results obtained by the program are analyzed. The analysis procedure has always been the same for each of the linguistic phenomena studied: First, the relation between frequency of occurrence of the features and textual typology is stated. Second, we evaluated whether this […]

Orality and Difficulties in the Transcription of Spoken Corpora (5)

The computational tool The C-ORAL-ROM corpus is tagged with XML. Using the information included in the tags, we developed a program which automatically calculate the frequency of occurrence of each of the following features: overlapping, retracting, number of dialogic turns, speaking speed, fragmented words and supports. These frequencies were calculated for each class of texts. […]

Orality and Difficulties in the Transcription of Spoken Corpora (4)

Orality and transcription problems: the original hypothesis In order to find out what kind of relation there is between orality and linguistic registers, two scales of transcription difficulty were stated taking into consideration the following two parameters: Degree of formality (Scale 1) Two ends can be considered when dealing with the texts in terms of […]

Orality and Difficulties in the Transcription of Spoken Corpora (3)

The notion of orality It is well known that spoken language is not always a synonym to orality, if we understand orality as the presence of linguistic, paralinguistic and interactive phenomena, such as retracting or overlapping, which are not present in the written register. The registers in spoken language vary depending on the communicative situation. […]

Orality and Difficulties in the Transcription of Spoken Corpora (2)

Description of the corpus C-ORAL-ROM is a multilingual spontaneous speech corpus (Cresti et al., 2002) of the four main roman languages: French, Italian, Portuguese and Spanish. Each subcorpus consists of around 300,000 words. With the aim of enabling comparability between the different subcorpora, several sampling criteria concerning the distribution of the corpus were established: as […]

Orality and Difficulties in the Transcription of Spoken Corpora (2)

1.      Introduction This paper is the result of an experiment carried out by a group of transcribers at the Laboratorio de Lingüística Informática (LLI) at the Universidad Autónoma de Madrid, once the recording and transcribing phases of the C-ORAL-ROM project were over. The goal of the experiment was to confirm certain hypothesis which had arisen […]

Orality and Difficulties in the Transcription of Spoken Corpora (1)

Abstract This paper analyses the effects of certain oral features on the process of transcription of spontaneous speech recordings. On the basis of the statistical analysis of the data obtained from the C-ORAL-ROM corpus, it will be shown empirically that transcription difficulties vary according to the communicative situation, the degree of formality and the number […]

Pragmatic analysis of man-machine interactions in a spontaneous speech corpus (5)

Conclusions and Future Work The results are approximately 60 % failures and 40 % success. Behind these figures lay the other’s image and the expectations, both from the speaker and from the machine. One of the principles that makes human communication possible is that speakers are able to adapt their speech acts to the expectations […]

Pragmatic analysis of man-machine interactions in a spontaneous speech corpus (4)

Analysing the interactions System evaluation The first step had been to measure the degree of real success of the dialog system. As the phone calls were intended only for scientific purposes and the speakers proposed fictitious destinations, it is not easy to define what “success” mean. As we will see later, some speakers change their […]

Pragmatic analysis of man-machine interactions in a spontaneous speech corpus (3)

The man-machine telephone corpus For this paper, we have only considered the small subset of human-machine telephone recordings, part of the telephone corpus. This subset has been collected by means of an automatic telephone call system specifically designed and developed for the C-ORAL- ROM project by ITC-Irst (Falavigna & Gretter 2003). The system handles interactions […]

Pragmatic analysis of man-machine interactions in a spontaneous speech corpus (1)

Introducción The goal of this paper is to analyse man-machine interactions in the Spanish data of C- ORAL-ROM, a multilingual, multimedia corpus of spontaneous speech. The subcorpus consists of 41 recordings, over 2600 words. The issue we want to address is why some of the interactions succeeded, while most of them resulted in misunderstandings and […]

Pragmatic analysis of man-machine interactions in a spontaneous speech corpus (2)

1.   The C-ORAL-ROM corpus C-ORAL-ROM is a multilingual spontaneous speech corpus that comprises four romance languages: Italian, French, Portuguese and Spanish (Cresti & Moneglia 2005). In our work we have used the Spanish sub-corpus, which contains around 300.000 spoken words. From a sociolinguistic point of view, speakers are characterized by their age, gender, place of […]

Marcadores discursivos en árabe y español (10)

5.  Conclusiones y trabajo futuro Hemos presentado en este artículo una aproximación al campo de los marcadores discursivos desde una perspectiva computacional. Hemos apostado por un modelo de anotación pragmática basado en fenómenos de naturaleza cognitiva y social, y que remiten al conocimiento generado en la Pragmática de corte teórico. La motivación principal es, por […]

Marcadores discursivos en árabe y español (9)

Los marcadores discursivos del corpus árabe de la ONU Para la anotación de los marcadores discursivos en árabe, se ha desarrollado un módulo de procesamiento que tiene como entrada tres fuentes de información: Para la última fuente de información, la lista de marcadores discursivos españoles se ha traducido automáticamente a través de un sistema de […]

Marcadores discursivos en árabe y español (8)

Los marcadores discursivos en el corpus español de la ONU Llegamos por tanto a la etapa del reconocimiento y etiquetado de los marcadores discursivos en un texto de habla oral. Para la resolución de esta tarea debemos plantearnos cómo vamos a gestionar el problema de la ambigüedad de los marcadores discursivos, una ambigüedad que como […]

Marcadores discursivos en árabe y español (7)

Pragmatext    y    los    marcadores    discursivos:    una    perspectiva    teórica    y computacional En este trabajo hemos intentado trazar un puente de comunicación entre la Pragmática Lingüística y la Pragmática Computacional en lo que al tratamiento de los marcadores discursivos se refiere. Buena parte de este compromiso pasa por adoptar una postura coherente con respecto a los siguientes […]

Marcadores discursivos en árabe y español (6)

Pragmatext, un modelo de anotación pragmática para corpus A continuación presentamos muy resumidamente los cimientos teóricos en los que se sustenta nuestro modelo de anotación. Las fuentes de conocimiento en las que está basada esta concepción teórica pertenecen a los últimos descubrimientos en el estudio de la interacción mente-cuerpo por parte de las Ciencias Cognitivas […]

Marcadores discursivos en árabe y español (5): El corpus de la ONU: diseño y características

Para este estudio, hemos utilizado un corpus paralelo bilingüe español-árabe, formado por una colección de textos disponibles en Internet procedentes de los documentos de la Organización de las Naciones Unidas. Términos como “corpus paralelo”, “corpus de traducción” y “corpus comparable” pueden resultar ambiguos en algunos casos; por ello, conviene destacar cuál ha sido nuestra concepción […]

Marcadores discursivos en árabe y español (4): Introducción

Presentamos en este trabajo un estudio de carácter interdisciplinar donde participan diversas áreas de conocimiento: la Pragmática Lingüística, la Traducción, la Lingüística Contrastiva apoyada en Corpus Paralelos y la Lingüística Computacional.Es un hecho conocido que la Pragmática, desde sus diferentes marcos teóricos, ha puesto de manifiesto la importancia que los marcadores discursivos tienen a la […]

Marcadores discursivos en árabe y español (3): tabla de contenidos

Tabla de contenidos 3.5. Deixis

Marcadores discursivos en árabe y español: un estudio computacional basado en corpus paralelos con anotación pragmática (2): abstract en inglés

This article presents an analysis of the translation of Discourse Markers in a parallel Spanish-Arabic corpus from a computational perspective. The research carried out is divided into three main sections. The first section describes the resources used in the study including the main characteristics of the corpus and the pragmatic annotation model (PRAGMATEXT) used in […]

Marcadores discursivos en árabe y español: un estudio computacional basado en corpus paralelos con anotación pragmática (1): abstract

El objetivo de este artículo ha sido el de analizar el modo en que se ha llevado a cabo la traducción de los marcadores discursivos del árabe y del español en el corpus paralelo de la ONU desde una perspectiva computacional. La investigación está dividida en tres partes. La primera de ellas está dedicada a […]

MIRACLE Question Answering System for Spanish at CLEF 2007 (1): Abstract

This paper describes the system developed by MIRACLE group to participate in the Spanish monolingual question answering task at QA@CLEF 2007. A basic subsystem, similar to our last year participation, was used separately for EFE and Wikipedia col- lection. Answers from the two subsystems are combined using temporal information from the questions and the collections. […]

MIRACLE at the Spanish CLEF@QA 2006 track (1): abstract

We describe the prototype QA system built by MIRACLE group, a group composed by three Madrid universities and the spin-off, DAEDALUS. The system is an elaboration of our last year system with several improvements in question analysis and NERC components. We submitted two runs for the Spanish runs with different strategies to use NE in […]

MIRACLE Experiments in QA@CLEF 2006 in Spanish: Main Task, Real-Time QA and Exploratory QA Using Wikipedia (WiQA) (1): abstract

We describe the participation of MIRACLE group in the QA track at CLEF. We participated in three subtasks and presented two systems that works in Spanish. The first system is a traditional QA system and was evaluated in the main task and the Real-Time QA pilot. The system features improved Named Entity recognition and shallow […]

Relating Lexical Items to Sociolinguistic Features in a Spontaneous Speech Corpus of Spanish

This paper shows the application of statistical tests to a spontaneous speech corpus of Spanish. Our goal is to find representative differences between different parts of the corpus. To this end, we tagged n-grams in the corpus with features related to the speaker (age, gender, etc), or the context (dialogue, monologue, media, etc), and applied […]

MIRACLE’s Cross-Lingual Question Answering Experiments with Spanish as a Target Languages: Descripción del sistema

System Description MIRACLE’s contribution to CLEF QA 2005 is an almost new development based on the experience acquired after last year. Our aim was to achieve an architecture where we could do further experiments and perform semi-automatic evaluation with the resources generated at previous CLEF editions like MultiEight. The system is composed of Question Analysis, […]

MIRACLE’s Cross-Lingual Question Answering Experiments with Spanish as a Target Languages 2: Introducción

This paper presents and analyzes the results of our second participation in the CLEF-QA task. At this moment, miraQA, is based on a standard pipeline ar- chitecture and uses only shallow linguistic analysis. In contrast, we have added semantic resources for NE recognition. The approach and tools differ from our last year participation[2] but we […]

MIRACLE’s Cross-Lingual Question Answering Experiments with Spanish as a Target Languages 1: abstract

Our second participation in CLEF-QA consited in six runs with Spanish as a target language. The source languages were Spanish, English an Italian. miraQA uses a simple representation of the question that is enriched with semantic information like typed Named Entities. Runs used different strategies for answer extraction and selection, achiev- ing at best a […]