CREA

CREA oral

El corpus oral constituye aproximadamente un 10 % de los últimos períodos del CREA. En la versión 3.2, de junio de 2008, es posible acceder a casi 9 millones de formas procedentes de transcripciones de la lengua hablada, con más de 1600 documentos.

Los documentos sonoros, que se obtuvieron a través de convenios con distintas instituciones y también mediante la grabación directa de Internet, se sometieron a un laborioso proceso de transcripción ortográfica y codificación.

La parte oral disponible en la aplicación de consulta al CREA está formada por dos grandes grupos de textos:

  • Textos procedentes de grabaciones de radio o de televisión que han sido transcritos y codificados siguiendo el sistema de codificación de la parte oral de CREA.
  • Textos ya transcritos procedentes de otros corpus orales que, tras la revisión del texto o del audio, se han convertido al sistema de transcripción y codificación del CREA oral.

Los materiales se clasifican de acuerdo con los siguientes criterios:

Medio

El medio de los textos orales del corpus se determina a partir de la combinación de valores de dos tipos:

  • Valores de canal comunicativo: radio, televisión, grabación directa, teléfono, otros.
  • Valores de procedencia: grabación, texto previamente transcrito, texto previamente transcrito y codificado.

Geográfico

El 50 % del material oral procede de España, y el otro 50 %, de América. A su vez, este 50 % se distribuye en las zonas lingüísticas tradicionales: andina, Antillas (caribeña), Caribe continental, chilena, Estados Unidos, México y Centroamérica y Río de la Plata.

Cronológico

Como la parte escrita, se reparte en períodos de cinco años: 1975-1979, 1980-1984, 1985-1989, 1990-1994, 1995-1999 y 2000-2004 (otorgando un mayor peso a los tramos más modernos).

Temático

La tipología de textos orales del CREA establece dos géneros con sus correspondientes subgéneros:

a) En primer lugar, textos procedentes de grabaciones de radio y de televisión, que constituyen el núcleo del corpus oral.

b) Un segundo género permite clasificar otro tipo de transcripciones: discursos políticos, conversaciones telefónicas, mensajes en contestadores, diálogos informales, etc. 

Otros rasgos

En la cabecera pueden añadirse otros rasgos de clasificación de los textos, como el grado de formalidad, el carácter libre o dirigido de la grabación o la posible existencia de otros medios distintos del principal. Frente a los rasgos presentados en los dos apartados anteriores, los descritos aquí son optativos.

Codificación

La transcripción de los documentos sonoros es de nivel ii, de acuerdo con la convención desarrollada por French (1992) y adoptada por el consorcio NERC (Network of European Reference Corpora), y de nivel S1 (orthographic or transliteration level), en la escala definida por el EAGLES (Expert Advisory Group on Language Engineering Standards: EAGLES Spoken Language Working Group, 1995). La transcripción se enriquece con una serie de informaciones básicas acerca de los hablantes, los cambios de turno y los elementos no verbales, codificadas en lenguaje SGML, de acuerdo con las recomendaciones de la TEI (Text Encoding Initiative) y del EAGLES. Los criterios de transcripción y codificación están detalladamente descritos en el documento interno Transcripción y codificación de textos orales, versión 4.1 (17 de febrero de 1999).

El CREA-Alineado

Para la etapa 2000-2004 se trabajó simultáneamente en la transcripción ortográfica de los documentos sonoros y en el alineamiento con la señal sonora digitalizada. Se alinearon texto-sonido un total de un millón de formas de España y América. En este nuevo proceso, la codificación se realiza en XML (eXtensive Markup Language) y los archivos textuales se asocian con su correlato sonoro. Los textos poseen marcas de sincronización con el segmento del archivo sonoro al que pertenece la transcripción, lo cual facilitará, en una aplicación informática adecuada, el acceso al audio.

Corpus orales incorporados a CREA

La Real Academia Española reitera su agradecimiento a cuantas instituciones han cedido generosamente sus materiales orales para su inclusión en el CREA:

ACUAH: Análisis de la conversación de la Universidad de Alcalá de Henares. Cedido por la Universidad de Alcalá de Henares, Madrid.
ALFAL: Macrocorpus de la Norma Lingüística Culta de las Principales Ciudades del Mundo Hispánico. Cedido por la Asociación de Lingüística y Filología de América Latina.
Caracas-77: Estudio sociolingüístico de Caracas, 1977. Cedido por el Instituto de Filología Andrés Bello.
Caracas-87: Estudio sociolingüístico de Caracas, 1987. Cedido por el Instituto de Filología Andrés Bello.
CEAP: Corpus de Encuestas en Asunción de Paraguay.
COVJA: Corpus Oral de la Variedad Juvenil Universitaria del Español Hablado en Alicante. Cedido por el Instituto de Cultura Juan Gil-Albert de la Diputación Provincial de Alicante.
CSC: Corpus para el Estudio del Español Hablado en Santiago de Compostela. Cedido por la Universidad de Santiago de Compostela.
CSMV: Corpus Sociolingüístico de la Ciudad de Mérida. Cedido por la Universidad de los Andes, Venezuela.
UAM: Corpus Oral de Referencia del Español Contemporáneo. Cedido por la Universidad Autónoma de Madrid.

cerrar

Buscador general de la RAE