Dito de maneira sinxela, un corpus textual é un conxunto de textos, codificados dixitalmente, que comparten unha ou varias características, aínda que é conveniente matizar diferentes cuestións relacionadas con esta definición.

En primeiro lugar, cando falamos de textos, referímonos, tanto a calquera texto completo ou fragmento (unha novela, unha revista, un artigo, un guión, un fragmento dunha novela etc.), como a calquera outra representación escrita (transcricións dos diálogos dunha película, dun programa radiofónico etc.), que foron creados cunha intención comunicativa real e, usualmente, producidos con anterioridade á creación do propio corpus.

Por outra banda, a característica ou características comúns dos textos que forman parte dun corpus difiren dun corpus a outro. Así, por exemplo, un corpus pode conter documentos dun período temporal específico, dun estilo narrativo concreto ou dunha área temática particular. Estas características determinarán, en grande medida, o tipo de estudos e investigacións que se poderán facer empregando este corpus.

Non debemos esquecer que o fin último dun corpus é o de permitir a realización e/ou validación de diferentes tipos de estudos (léxicos, gramaticais, semánticos, sociolingüísticos etc., dependendo do corpus en particular), polo que unha selección axeitada dos textos é fundamental para que o corpus poida servir ao propósito para o que foi creado. Polo tanto, para efectuar esta selección de forma correcta, é importante ter en conta que o corpus debe ser representativo para a materia que se pretende investigar.

Para afondar máis neste tema recomendámosche o capítulo 1 do libro "Introducción a la lingüística de corpus en español", de Guillermo Rojo (2021).