agradecer1

Banco de datos

CDH

El corpus del actual Diccionario histórico de la lengua española (CDH) consta de 355 740 238 registros, que se distribuyen en tres capas de consulta:

  • CDH nuclear: Cuenta con más de 53 millones de ocurrencias, de las cuales 32 pertenecen a textos españoles y más de 20 millones a obras americanas. Los textos que conforman el corpus (en buena medida, comunes al CORDE y al CREA) se han sometido a un proceso semiautomático de anotación lingüística (operación llevada a cabo por el Departamento de Tecnología de la Real Academia Española), lematización que constituye un punto de partida para el manejo de los datos en el trabajo lexicográfico. Posteriormente, en la Fundación Lapesa se desarrolló una interfaz de consulta para el CDH, aplicación que permite realizar una variada gama de consultas, motivo por el que se ha utilizado para la presentación de otros corpus de la Academia. Las obras medievales de esta capa de consulta presentan, además, una caracterización filológica, por lo que en el apartado de consulta se pueden obtener las ocurrencias por la fecha del testimonio base (y no solo por la fecha de redacción del texto).
  • S. XII-1975. Conjunto de textos enmarcados entre el siglo xii y 1975, formado por una selección de obras procedentes del CORDE (Corpus Diacrónico del Español) de la Real Academia Española (con un total de 199 387 676 formas).  Estas obras poseen una preanotación morfosintáctica, realizada con herramientas de software libre (Freeling) en el marco del proyecto del Diccionario histórico de la lengua española.
  • 1975-2000. Conjunto de obras datadas entre 1975 y 2000, con títulos procedentes del CREA (Corpus de Referencia del Español Actual), anotados lingüísticamente por el Departamento de Tecnología de la Real Academia Española (con 103 173 014 registros).
cerrar

Buscador general de la RAE