CREA oral
El corpus oral constituye aproximadamente un 10 % de los últimos períodos del CREA. En la versión 3.2, de junio de 2008, es posible acceder a casi 9 millones de formas procedentes de transcripciones de la lengua hablada, con más de 1600 documentos.
Los documentos sonoros, que se obtuvieron a través de convenios con distintas instituciones y también mediante la grabación directa de Internet, se sometieron a un laborioso proceso de transcripción ortográfica y codificación.
La parte oral disponible en la aplicación de consulta al CREA está formada por dos grandes grupos de textos:
- Textos procedentes de grabaciones de radio o de televisión que han sido transcritos y codificados siguiendo el sistema de codificación de la parte oral de CREA.
- Textos ya transcritos procedentes de otros corpus orales que, tras la revisión del texto o del audio, se han convertido al sistema de transcripción y codificación del CREA oral.
Los materiales se clasifican de acuerdo con los siguientes criterios:
Medio
El medio de los textos orales del corpus se determina a partir de la combinación de valores de dos tipos:
- Valores de canal comunicativo: radio, televisión, grabación directa, teléfono, otros.
- Valores de procedencia: grabación, texto previamente transcrito, texto previamente transcrito y codificado.
Geográfico
El 50 % del material oral procede de España, y el otro 50 %, de América. A su vez, este 50 % se distribuye en las zonas lingüísticas tradicionales: andina, Antillas (caribeña), Caribe continental, chilena, Estados Unidos, México y Centroamérica y Río de la Plata.
Cronológico
Como la parte escrita, se reparte en períodos de cinco años: 1975-1979, 1980-1984, 1985-1989, 1990-1994, 1995-1999 y 2000-2004 (otorgando un mayor peso a los tramos más modernos).
Temático
La tipología de textos orales del CREA establece dos géneros con sus correspondientes subgéneros:
a) En primer lugar, textos procedentes de grabaciones de radio y de televisión, que constituyen el núcleo del corpus oral.
b) Un segundo género permite clasificar otro tipo de transcripciones: discursos políticos, conversaciones telefónicas, mensajes en contestadores, diálogos informales, etc.
Otros rasgos
En la cabecera pueden añadirse otros rasgos de clasificación de los textos, como el grado de formalidad, el carácter libre o dirigido de la grabación o la posible existencia de otros medios distintos del principal. Frente a los rasgos presentados en los dos apartados anteriores, los descritos aquí son optativos.
Codificación
La transcripción de los documentos sonoros es de nivel ii, de acuerdo con la convención desarrollada por French (1992) y adoptada por el consorcio NERC (Network of European Reference Corpora), y de nivel S1 (orthographic or transliteration level), en la escala definida por el EAGLES (Expert Advisory Group on Language Engineering Standards: EAGLES Spoken Language Working Group, 1995). La transcripción se enriquece con una serie de informaciones básicas acerca de los hablantes, los cambios de turno y los elementos no verbales, codificadas en lenguaje SGML, de acuerdo con las recomendaciones de la TEI (Text Encoding Initiative) y del EAGLES. Los criterios de transcripción y codificación están detalladamente descritos en el documento interno Transcripción y codificación de textos orales, versión 4.1 (17 de febrero de 1999).
El CREA-Alineado
Para la etapa 2000-2004 se trabajó simultáneamente en la transcripción ortográfica de los documentos sonoros y en el alineamiento con la señal sonora digitalizada. Se alinearon texto-sonido un total de un millón de formas de España y América. En este nuevo proceso, la codificación se realiza en XML (eXtensive Markup Language) y los archivos textuales se asocian con su correlato sonoro. Los textos poseen marcas de sincronización con el segmento del archivo sonoro al que pertenece la transcripción, lo cual facilitará, en una aplicación informática adecuada, el acceso al audio.