Tecla roja - CORPES (Imagen: RAE)

Conozca (algo más) el CORPES: listados de frecuencias

30 de Junio de 2021

¿Saben que están disponibles para su descarga los listados de frecuencias del CORPES XXI (Corpus del Español del siglo XXI)?

Listados

La versión 0.93 del CORPES está formada por unos 316 000 documentos diferentes que suman algo más de 333 millones de formas ortográficas. Dado que todos los textos han sido anotados morfosintácticamente y lematizados, es posible obtener estadísticas referidas tanto a elementos gramaticales como a lemas.

Los listados de frecuencias de CORPES muestran todos los elementos gramaticales, lemas y formas contenidos en el Corpus del Español del Siglo XXI, junto con su frecuencia.

Es posible, desde la página del CORPES, descargar las estadísticas de todos los elementos anteriores.

En los listados figuran los elementos en cuestión, la clase a la que pertenecen, la frecuencia general (la que tiene un determinado elemento en el corpus) y dos frecuencias normalizadas: el número de casos por cada millón de elementos en total y el número de casos por cada millón de elementos (sin contar los signos ortográficos en el caso de los elementos gramaticales).

El listado de formas ofrece las palabras más frecuentes en el CORPES. Estas son las diez primeras:

Palabras más frecuentes en el CORPES

En el listado de lemas más frecuentes en el CORPES observamos que el artículo el ocupa el primer lugar, porque incluye todas las formas el, la, los, las…

Lemas más frecuentes en el CORPES.

Para las clases de palabras hay que tener en cuenta la correspondencia con esta tabla:

  • A: Adjetivo
  • C: Conjunción
  • D: Demostrativo
  • E: Contracción
  • F: Extranjerismo
  • H: Relativo
  • I: Interjección
  • K: Entidad nombrada (nombre propio)
  • L: Pronombre personal
  • M: Numeral
  • N: Sustantivo (común)
  • P: Preposición
  • Q: Cuantificador
  • R: Adverbio
  • T: Artículo
  • U: Desconocido
  • V: Verbo
  • W: Interrogativo
  • X: Posesivo

Las tablas se guardan fácilmente como archivos *.txt. Se pueden importar después desde una hoja de cálculo y filtrar por categoría, etc. Por ejemplo, podremos obtener los adverbios más frecuentes en CORPES:

no

R

3282681

8.550.742

9.816.571

más

R

1310486

3413.56

3.918.894

cuando

R

572046

1.490.068

1.710.654

también

R

534715

1.392.828

1.599.019

ya

R

514035

1.338.961

1.537.177

muy

R

453649

1.181.667

1.356.598

donde

R

327246

852.412

978.601

¿Se animan a localizar los verbos más frecuentes en el CORPES? ¿Y los nombres propios? Si tienen alguna duda, pueden ponerse en contacto con nosotros a través de la cuenta corpus@rae.es.

cerrar

Buscador general de la RAE