Real Academia Española

   

CREA escrito

CREA escrito

Un corpus de referencia ha de ser lo suficientemente extenso para representar todas las variedades relevantes de una lengua. En la versión 3.2, cerrada en junio de 2008 y consultable en la actualidad, la parte escrita del CREA cuenta con casi 140 000 documentos y algo más de 154 millones de formas procedentes de textos de todos los países hispánicos y producidos entre 1975 y 2004.

Todos los detalles acerca de número de textos, número de formas por países, temas, tipos de texto, etc., pueden obtenerse a través de la consulta de la nómina.

Como ya se ha señalado, los textos se seleccionaron de acuerdo con cuatro grandes criterios de clasificación, independientes entre sí: medio, geográfico, cronológico y temático.

Medio
El 49 % del material escrito de CREA procede de libros; otro 49 %, de prensa y un 2 % es material misceláneo.

Cronológico
Los textos se clasifican en períodos de cinco años: 1975-1979, 1980-1984, 1985-1989, 1990-1994, 1995-1999 y 2000-2004, otorgando un mayor peso a los tramos más modernos.

Geográfico
El 50 % del material del CREA procede de España, y el otro 50 %, de América. A su vez este 50 % se distribuye en las zonas lingüísticas tradicionales: andina, antillas (caribeña), caribe continental, chilena, Estados Unidos, México y Centroamérica y Río de la Plata.

Temático
Se han establecido seis hipercampos o áreas generales a las que deben asignarse cada uno de los textos «informativos» del corpus. Cada uno de estos hipercampos se ha estructurado en áreas temáticas más concretas. Son criterios de búsqueda que pueden seleccionarse en la aplicación.

Adquisición de textos

  • Los libros se escanearon utilizando un programa de reconocimiento óptico de caracteres (ROC).
  • La prensa más reciente se descargó en formato electrónico.
  • La prensa de los años 70 y 80 se procesó mediante un programa de dictado automático, al no disponer de estos materiales en formato electrónico.
  • Los materiales correspondientes a miscelánea se introdujeron, bien manualmente (propaganda, prospectos en papel), bien en formato electrónico (correos electrónicos, blogs…).
  • Además, el CREA integra materiales procedentes de otros corpus.

A la consulta de los textos y de la nómina se añaden en esta versión las listas de las formas ortográficas registradas en el CREA, con sus frecuencias absolutas y normalizadas. Para mayor comodidad de las personas interesadas, se incorporan a la página las listas de las 1000, 5000 y 10 000 formas más frecuentes. Se añade a ellas la lista general de todas las formas ortográficas presentes en el CREA, también con indicación de su frecuencia absoluta y normalizada. En todas las listas se ha anulado la diferencia entre grafías con mayúsculas y minúsculas y también se han suprimido cifras y fechas.

Con el patrocinio de

Diccionarios

UNIDRAE
Envíe las propuestas relacionadas con el Diccionario de la lengua española a la Unidad Interactiva.

Consultas lingüísticas

El Departamento de «Español al día» resuelve aquí las dudas de los hablantes sobre el uso correcto del español.

Con el patrocinio de

Tuits de @RAEinforma

Formulario de búsqueda