Palabras binarias
Informática para lingüistas

Cada corpus constrúese tendo en conta uns obxectivos concretos, diferentes dos de outros corpus e, polo tanto, estes poden agruparse e clasificarse seguindo diferentes criterios. Recollemos, a continuación, algunhas das clasificacións máis empregadas:

Variedades de lingua

Segundo as variedades de lingua que recollen, os corpus poden clasificarse en corpus de referencia, que abranguen todas as variedades lingüísticas dunha lingua, e corpus dialectais, centrados en recoller unicamente variedades dialectais.

Medio

A clasificación baseada no medio fai distinción entre corpus escritos, formados por textos escritos, e corpus orais, constituídos por transcricións de intervencións orais.

Período temporal

No tocante ao período temporal, podemos distinguir entre corpus sincrónicos, que se centran nun período temporal concreto, e corpus diacrónicos, que recollen material dun período temporal extenso.

Especialización

Tendo en conta a especialización da temática ou dominio dos textos que recollen, os corpus poden clasificarse en xerais, que inclúen textos de temáticas ou dominios xerais, e especializados, que recollen textos dunha temática ou dominio específico. Dentro dos especializados, tamén se soen distinguir os corpus técnicos, que están formados por textos producidos por especialistas dunha área específica de coñecemento.

Autoría

Segundo a súa autoría, podemos distinguir entre corpus de aprendices, formados por textos producidos por estudantes dunha segunda lingua estranxeira (L2) e corpus de nativos, que recollen textos producidos por falantes nativos dunha lingua.

Posibilidade de ampliación

Hai corpus que se van ampliando pouco a pouco e outros que non. Podemos distinguir entre corpus pechados, os que unha vez construídos xa non cambian, e corpus abertos, que van incorporando novos textos ao longo do tempo.

Número de linguas

Os corpus monolingües conteñen unicamente textos dunha lingua determinada, mentres que os corpus multilingües conteñen textos en máis dunha lingua. Dentro dos multilingües podemos distinguir tamén entre corpus paralelos, formados por textos dunha lingua e as súas traducións ás outras linguas, e corpus comparables, que conteñen textos en diferentes linguas que non son traducións uns dos outros, pero que teñen algunhas características comúns que permiten comparar os resultados entre as diferentes linguas.

Tamén se di que un corpus paralelo está aliñado se cada oración dunha lingua está asociada á oración correspondente nas outras linguas.

Codificación

Por último, tendo a conta a codificación que se fai nos textos, podemos distinguir entre corpus anotados, nos que os documentos que o forman inclúen algunha información lingüística adicional (morfolóxica, sintáctica, léxica etc.) ao propio texto, e corpus non anotados, nos que os documentos recollen unicamente o texto.