Palabras binarias
Informática para lingüistas

Cada corpus se construye teniendo en cuenta unos objetivos concretos, diferentes de los de otros corpus y, por lo tanto, estos pueden agruparse y clasificarse siguiendo diferentes criterios. Recogemos, a continuación, algunas de las clasificaciones más utilizadas:

Variedades de lengua

Según las variedades de lengua que recogen, los corpus pueden clasificarse en corpus de referencia, que abarcan todas las variedades lingüísticas de una lengua, y corpus dialectales, centrados en recoger únicamente variedades dialenctales.

Medio

La clasificación basada en el medio hace distinción entre corpus escritos, formados por textos escritos, y corpus orales, constituidos por transcripciones de intervenciones orales.

Período temporal

En lo que respecta al período temporal, podemos distinguir entre corpus sincrónicos, que se centran en un período temporal concreto, y corpus diacrónicos, que recogen material de un período temporal extenso.

Especialización

Teniendo en cuenta la especialización de la temática o el dominio de los textos que recogen, los corpus poden clasificarse en generales, que incluyen textos de temáticas o dominios generales, y especializados, que recogen textos de una temática o dominio específico. Dentro de los especializados, también se suelen distinguir los corpus técnicos, que están formados por textos producidos por especialistas de una área específica de conocimiento.

Autoría

Según su autoría, podemos distinguir entre corpus de aprendices, formados por textos producidos por estudiantes de una segunda lengua extranjera (L2) y corpus de nativos, que recogen textos producidos por hablantes nativos de una lengua.

Posibilidad de ampliación

Hay corpus que se van ampliando poco a poco y otros que no. Podemos distinguir entre corpus cerrados, los que una vez construidos ya no cambian, y corpus abiertos, que van incorporando nuevos textos a lo largo del tiempo.

Número de lenguas

Los corpus monolingües contienen únicamente textos de una lengua determinada, mientras que los corpus multilingües contienen textos en más de una lengua. Dentro de los multilingües podemos distinguir también entre corpus paralelos, formados por textos de una lengua y sus traducciones a las otras lenguas, y corpus comparables, que contienen textos en diferentes lenguas que non son traducciones unos de los otros, pero que tienen algunas características comunes que permiten comparar los resultados entre las diferentes lenguas.

También se dice que un corpus paralelo está alineado si cada oración de una lengua está asociada a la oración correspondiente en las otras lenguas.

Codificación

Por último, teniendo en cuenta la codificación que se hace en los textos, podemos distinguir entre corpus anotados, en los que los documentos que lo forman incluyen alguna información lingüística adicional (morfológica, sintáctica, léxica, etc.) al propio texto, y corpus no anotados, en los que los documentos recogen únicamente el texto.