CORPES XXI

El Corpus del Español del Siglo XXI (CORPES XXI) es, al igual que CREA, un corpus de referencia.

En lingüística, se llama corpus a un conjunto formado por miles de textos (novelas, obras de teatro, guiones de cine, noticias de prensa, ensayos, transcripciones de noticiarios radiofónicos o televisivos, transcripciones de conversaciones, discursos, etc.) y cientos o miles de millones de formas.

Sirve para conocer el significado y características de palabras, expresiones y construcciones a partir de los usos reales registrados. Dado el tamaño que poseen, los corpus tienen que estar en formato electrónico.

Un corpus general (llamado de referencia) tiene como propósito básico el de servir para obtener las características globales que presenta una lengua en un momento determinado de su historia. En el caso del español actual, el corpus debe contener textos de todos los tipos y también de todos los países que constituyen el mundo hispánico.

Para ello, los textos que integran el CORPES se seleccionan de acuerdo con un diseño previo que permite ser utilizado para una gran variedad de investigaciones sobre los más diversos fenómenos lingüísticos. El diseño contempla una serie de parámetros. Los textos son tratados con un sistema de codificación especialmente desarrollado para este corpus, lo que permite la recuperación de sus datos desde cualquiera de esos parámetros.

Para continuar y desarrollar las líneas seguidas anteriormente, en el congreso celebrado en Medellín en marzo de 2007, las academias de la lengua española acordaron encomendar a la Real Academia Española la construcción del Corpus del Español del Siglo XXI (CORPES XXI), formado por textos escritos y orales procedentes de España, América, Filipinas y Guinea Ecuatorial con una distribución de 25 millones de formas por cada uno de los años correspondientes al siglo xxi.

La primera versión se presentó en el VI Congreso Internacional de la Lengua Española (Panamá, octubre de 2013) y desde diciembre de 2013 es posible realizar consultas al CORPES XXI a través de una aplicación específica que permite recuperar los casos contenidos en el corpus de una palabra, una expresión o una categoría o subcategoría gramatical. En la primera fase del proyecto, finalizada en diciembre de 2014, se incorporaron textos producidos entre 2001 y 2012.

En abril de 2015 se publicó la versión 0.8 con dos grandes novedades: la posibilidad de la recuperación del sonido alineado con textos orales y la consulta por categoría gramatical. En noviembre del mismo año, la 0.82 con más de 215 millones de formas. La versión 0.83 se publicó en junio de 2016 con un incremento de unos diez millones sobre la anterior. En julio de 2018, la versión 0.9 llegó a los 276 millones y la 0.91 se publicó en diciembre del mismo año con unos 286 millones de formas. Ya en 2020, en mayo, se publicó la versión 0.92, con algo más de 312 millones de formas.

La versión 0.93 se dio a conocer en el mes de febrero de 2021, con 333 millones de formas ortográficas. Le siguió la 0.94, publicada en el mes de julio de 2021, que contó con más de 327 000 documentos y unos 350 millones de formas ortográficas.

En el mes de enero de 2023 se publicó la 0.99, ya con algo más de 381 millones de formas, y, en mayo del mismo año, la versión 1.0, con más de 395 millones de formas y una nueva interfaz mucho más intuitiva y nuevas funcionalidades y utilidades, en especial las relacionadas con los tipos de resultados. Para la visualización de los resultados estadísticos, se incorporan desde esta versión gráficos más sugestivos, en los que resulta posible la geolocalización de formas o de elementos gramaticales en todos los países en los que se habla español.

Es posible crear subcorpus virtuales y seleccionar entre varios tipos de resultados: concordancias, estadísticas y, en esta nueva versión, obtener varios tipos de inventario de los resultados, con los datos correspondientes a su frecuencia absoluta y normalizada, por categoría gramatical, por lema, por forma, etc. Los inventarios pueden descargarse, lo que facilita su tratamiento en la investigación lingüística posterior.

La versión actual, la 1.1, se publicó en el mes de abril de 2024. Contiene más de 380 400 textos escritos y casi 1000 textos procedentes de transcripciones de la lengua oral. Reúne más de 410 millones de formas; cinco millones de ellas se corresponden con las transcripciones de la lengua oral.

En esta versión se publica, por primera vez, el diccionario de frecuencias léxicas basado en el CORPES.

Con el asesoramiento y la colaboración de las academias de la lengua española.
Con el patrocinio de Banco Santander.
Con la colaboración de grupos editoriales y autores.
Con la participación de equipos de codificación pertenecientes a diferentes instituciones españolas y americanas.