CORPES XXI

Banco de datos

CORPES XXI

El Corpus del Español del Siglo XXI (CORPES XXI) es, al igual que CREA, un corpus de referencia. En lingüística, se llama corpus a un conjunto formado por miles de textos (novelas, obras de teatro, guiones de cine, noticias de prensa, ensayos, transcripciones de noticiarios radiofónicos o televisivos, transcripciones de conversaciones, discursos, etc.) y cientos o miles de millones de formas. Son empleados habitualmente para conocer el significado y características de palabras, expresiones y construcciones a partir de los usos reales registrados. Dado el tamaño que poseen, los corpus tienen que estar en formato electrónico.

Un corpus general (llamado de referencia) tiene como propósito básico el de servir para obtener las características globales que presenta una lengua en un momento determinado de su historia. En el caso del español actual, el corpus debe contener textos de todos los tipos y también de todos los países que constituyen el mundo hispánico.

Para ello, los textos que integran el CORPES se seleccionan de acuerdo con una serie de parámetros y son tratados con un sistema de codificación especialmente diseñado para este corpus y para la recuperación de sus datos desde cualquiera de esos parámetros.

Para continuar y desarrollar las líneas seguidas anteriormente, en el congreso celebrado en Medellín en marzo de 2007, las academias de la lengua española acordaron encomendar a la Real Academia Española la construcción del Corpus del Español del Siglo XXI (CORPES XXI), formado por textos escritos y orales procedentes de España, América, Filipinas y Guinea Ecuatorial con una distribución de 25 millones de formas por cada uno de los años correspondientes al siglo xxi.

La primera versión se presentó en el VI Congreso Internacional de la Lengua Española (Panamá, octubre de 2013) y desde diciembre de 2013 es posible realizar consultas al CORPES XXI a través de una aplicación específica que permite recuperar los casos contenidos en el corpus de una palabra, una expresión o una categoría o subcategoría gramatical. En la primera fase del proyecto, finalizada en diciembre de 2014, se incorporaron textos producidos entre 2001 y 2012.

En abril de 2015 se publicó la versión 0.8 con dos grandes novedades: la posibilidad de la recuperación del sonido alineado con textos orales y la consulta por categoría gramatical. En noviembre del mismo año, la 0.82 con más de 215 millones de formas. La versión 0.83 se publicó en junio de 2016 con un incremento de unos diez millones sobre la anterior. En julio de 2018, la versión 0.9 llegó a los 276 millones y la 0.91 se publicó en diciembre del mismo año con unos 286 millones de formas. Ya en 2020, en mayo, se publicó la versión 0.92, con algo más de 312 millones de formas.

La versión 0.93 se dio a conocer en el mes de febrero de 2021, con 333 millones de formas ortográficas. Le siguió la 0.94, publicada en el mes de julio de 2021, que contó con más de 327 000 documentos y unos 350 millones de formas ortográficas.

CORPES

En enero de 2023 se publicó la versión 0.99, con más de 357000 documentos y más de 381 millones de formas ortográficas. El 28 de marzo, en el IX Congreso de la Lengua Española, celebrado en Cádiz, se presentó la versión 1.0 del CORPES. El 2 de junio se publicó esta versión, que cuenta con más de 365 000 documentos que suman algo más de 395 millones de formas ortográficas, procedentes de textos escritos y de transcripciones orales. Con respecto a la versión anterior supone un incremento de más de 15 millones de formas; más de cuatro millones y medio de ellas proceden del parámetro oral y algunos archivos ofrecen el sonido alineado correspondiente a la transcripción; en otros es posible la descarga del archivo de audio, además de la visualización del vídeo de acuerdo con la procedencia del texto fuente.

Por lo que respecta al bloque de Ficción (novelas, guiones de cine, relatos, obras de teatro), las formas del CORPES sobrepasan los 105 millones, mientras que las contenidas en textos de libros de no ficción y en publicaciones periódicas (ciencias sociales, salud, política, artes, tecnología...) sobrepasan los 284 millones. Los textos procedentes de libros suponen más de 186 millones de formas; las publicaciones periódicas están representadas con unos 195 millones. Algo más de ocho millones más provienen de blogs, entrevistas digitales, redes sociales y miscelánea. Cronológicamente se incorporan unas 600 000 formas ya correspondientes a 2023; unos siete millones de 2022 y doce para 2021; aumenta también el número de textos producidos entre 2016-2020, con algo más de 72 millones de formas en esta versión. Por lustros, el mayor peso recae en el segmento 2006-2010, con más de 108 millones de formas; más de 102 millones corresponden a formas producidas entre 2001 y 2005; y de 2011 a 2015 se superan los 86 millones de formas. El equilibro previsto entre España y América (30 %-70 %) se mantiene: las formas producidas en textos clasificados como España suponen algo más del 30 % y los de América alcanzan los 256 millones de formas.

Dosier informativo (fase 2001-2012)

Otros accesos al banco de datos

Por favor, pinche en los siguientes enlaces para obtener información sobre los diferentes corpus:

CREA

CDH

CORDE

Fichero general

El CORPES XXI en los medios

El País

12 de Octubre de 2016

Cazadores de palabras

«Un idioma sin fronteras». RNE

13 de Marzo de 2019

El CORPES XXI, con Guillermo Rojo

Cargar más
cerrar

Buscador general de la RAE