corpes

Corpus del Español del Siglo XXI

La nueva versión de CORPES supera los 380 millones de formas ortográficas

23 de Enero de 2023

Supone un incremento de más de 30 millones de formas

La nueva versión de CORPES, la 0.99, cuenta con más de 357000 documentos, que suman algo más de 381 millones de formas ortográficas, procedentes de textos escritos y de transcripciones orales. Más de cuatro millones y medio de ellas proceden del parámetro oral y algunos archivos ofrecen el sonido alineado correspondiente a la transcripción; en otros es posible la descarga del archivo de audio, además de la visualización del vídeo.

Con respecto a la versión anterior, publicada en julio de 2021, supone un incremento de más de 30 millones de formas. Su consulta ya está disponible en línea en este enlace.

Por lo que respecta al bloque de ficción (novelas, guiones de cine, relatos, obras de teatro), las formas de CORPES superan los 101 millones, mientras que las contenidas en textos de libros de no ficción y en publicaciones periódicas (ciencias sociales, salud, política, artes, tecnología...) sobrepasan los 275 millones. Los textos procedentes de libros suponen más de 180 millones de formas; las publicaciones periódicas están representadas con unos 188 millones. Algo más de ocho millones provienen de blogs, entrevistas digitales, redes sociales y miscelánea.

Cronológicamente, aumenta el número de textos producidos entre 2016 y 2020, con algo más de 68 millones de formas en esta versión, y se añaden ya textos producidos en 2021 y 2022, con más de 13 millones de formas. Por lustros, el mayor peso recae en el segmento 2006-2010, con más de 150 millones de formas; más de 102 millones corresponden a formas producidas entre 2001 y 2005, y el periodo de 2011 a 2015 supera los 84 millones de formas. El equilibro previsto entre España y América (30 %-70 %) se mantiene: las formas producidas en textos clasificados como España suponen algo más del 30 % y las de América alcanzan los 250 millones de formas.

ESTADÍSTICAS: LISTADO DE FRECUENCIAS DE CORPES

Dado que todos los textos han sido anotados morfosintácticamente y lematizados, es posible obtener estadísticas referidas tanto a elementos gramaticales como a lemas.

Los elementos gramaticales son los que resultan al llevar a cabo los procesos de análisis morfosintáctico hasta un cierto nivel de profundidad. Así, en una forma como diciéndoselo se reconoce la existencia de tres elementos (el gerundio diciendo, el pronombre se y el pronombre lo), mientras que Real Academia Española es considerada como una unidad. Con el sistema de anotación aplicado a esta versión, el corpus contiene un total de 436601235 elementos gramaticales, de los cuales 56219493 corresponden a signos ortográficos (puntos, comas, etc.). En los listados adjuntos figuran los elementos, la clase a la que pertenecen, la frecuencia general y dos frecuencias normalizadas: la primera refleja el número de casos por cada millón de elementos en total y la segunda el número de casos por cada millón de elementos sin contar los signos ortográficos. Para evitar la dispersión que podrían suponer diferencias tipográficas, todos los elementos han sido reducidos a su forma en minúsculas, pero los nombres propios son fácilmente identificables por llevar la clave K en la clase.

Los lemas son las «palabras léxicas» a las que son adscritas las diferentes formas flexionadas o conjugadas. Así, lleguéllegaremosllegarán, etc., son todas ellas formas pertenecientes al verbo llegar, que es el lema. Si se tiene en cuenta también la clase (militar puede ser un verbo, un adjetivo o un sustantivo), en esta versión de CORPES hay 1769949 lemas diferentes, pero 1274064 corresponden a nombres propios (entidades nombradas), de modo que el número de lemas distintos realmente significativo es la diferencia entre las dos cifras: 495885. En los listados adjuntos figuran los lemas, la clase a la que pertenecen, la frecuencia general y dos frecuencias normalizadas: la primera refleja el número de casos por cada millón de elementos en total y la segunda el número de casos por cada millón de elementos sin contar los signos ortográficos.

Todos los listados están en formato texto organizado en columnas separadas por tabuladores. Pueden descargarse las listas correspondientes a los 1000, 5000 y 10 000 elementos o lemas más frecuentes y también la lista completa.

HERRAMIENTA FUNDAMENTAL DE LA LINGÜÍSTICA

El Corpus del Español del Siglo XXI (CORPES XXI) es, al igual que CREA, un corpus de referencia. En lingüística, se llama corpus a un conjunto lo más extenso y ordenado posible de textos. Los corpus son empleados habitualmente para conocer el contexto y las propiedades de las palabras, expresiones y construcciones a partir de los usos reales registrados. Dado el tamaño que poseen, los corpus tienen que estar en formato electrónico.

Un corpus general (llamado de referencia) tiene como propósito básico el de servir para obtener las características globales que presenta una lengua en un momento determinado de su historia. En el caso del español actual, el corpus debe contener textos de todos los tipos y también de todos los países que constituyen el mundo hispánico.

cerrar

Buscador general de la RAE