CREA

CREA oral

El corpus oral constituye aproximadamente un 10 % de los últimos períodos del CREA. En la versión 3.2, de junio de 2008, es posible acceder a casi 9 millones de formas procedentes de transcripciones de la lengua hablada, con más de 1600 documentos.

Los documentos sonoros, que se obtuvieron a través de convenios con distintas instituciones y también mediante la grabación directa de Internet, se sometieron a un laborioso proceso de transcripción ortográfica y codificación.

La parte oral disponible en la aplicación de consulta al CREA está formada por dos grandes grupos de textos:

  • Textos procedentes de grabaciones de radio o de televisión que han sido transcritos y codificados siguiendo el sistema de codificación de la parte oral de CREA.
  • Textos ya transcritos procedentes de otros corpus orales que, tras la revisión del texto o del audio, se han convertido al sistema de transcripción y codificación del CREA oral.

Los materiales se clasifican de acuerdo con los siguientes criterios:

Medio

El medio de los textos orales del corpus se determina a partir de la combinación de valores de dos tipos:

  • Valores de canal comunicativo: radio, televisión, grabación directa, teléfono, otros.
  • Valores de procedencia: grabación, texto previamente transcrito, texto previamente transcrito y codificado.

Geográfico

El 50 % del material oral procede de España, y el otro 50 %, de América. A su vez, este 50 % se distribuye en las zonas lingüísticas tradicionales: andina, Antillas (caribeña), Caribe continental, chilena, Estados Unidos, México y Centroamérica y Río de la Plata.

Cronológico

Como la parte escrita, se reparte en períodos de cinco años: 1975-1979, 1980-1984, 1985-1989, 1990-1994, 1995-1999 y 2000-2004 (otorgando un mayor peso a los tramos más modernos).

Temático

La tipología de textos orales del CREA establece dos géneros con sus correspondientes subgéneros:

a) En primer lugar, textos procedentes de grabaciones de radio y de televisión, que constituyen el núcleo del corpus oral.

b) Un segundo género permite clasificar otro tipo de transcripciones: discursos políticos, conversaciones telefónicas, mensajes en contestadores, diálogos informales, etc. 

Otros rasgos

En la cabecera pueden añadirse otros rasgos de clasificación de los textos, como el grado de formalidad, el carácter libre o dirigido de la grabación o la posible existencia de otros medios distintos del principal. Frente a los rasgos presentados en los dos apartados anteriores, los descritos aquí son optativos.

Codificación

La transcripción de los documentos sonoros es de nivel ii, de acuerdo con la convención desarrollada por French (1992) y adoptada por el consorcio NERC (Network of European Reference Corpora), y de nivel S1 (orthographic or transliteration level), en la escala definida por el EAGLES (Expert Advisory Group on Language Engineering Standards: EAGLES Spoken Language Working Group, 1995). La transcripción se enriquece con una serie de informaciones básicas acerca de los hablantes, los cambios de turno y los elementos no verbales, codificadas en lenguaje SGML, de acuerdo con las recomendaciones de la TEI (Text Encoding Initiative) y del EAGLES. Los criterios de transcripción y codificación están detalladamente descritos en el documento interno Transcripción y codificación de textos orales, versión 4.1 (17 de febrero de 1999).

El CREA-Alineado

Para la etapa 2000-2004 se trabajó simultáneamente en la transcripción ortográfica de los documentos sonoros y en el alineamiento con la señal sonora digitalizada. Se alinearon texto-sonido un total de un millón de formas de España y América. En este nuevo proceso, la codificación se realiza en XML (eXtensive Markup Language) y los archivos textuales se asocian con su correlato sonoro. Los textos poseen marcas de sincronización con el segmento del archivo sonoro al que pertenece la transcripción, lo cual facilitará, en una aplicación informática adecuada, el acceso al audio.

cerrar

Buscador general de la RAE