Palabras binarias
Informática para lingüistas

Transcrición

Boas!

Benvidos e benvidas a Palabras Binarias, Informática para Lingüistas. Recórdovos que aquí podedes estar informados sobre diferentes cuestións relacionadas coa lingüística computacional, a lingüística de corpus, a informática xeral e a intelixencia artificial.

Hoxe imos falar sobre como construír un corpus. A priori pode parecervos unha cuestión moi sinxela, seguramente algúns de vós participastes no desenvolvemento da construción dalgún corpus, pero non é tan sinxelo como pode parecer. Despois de traballar colaborando en moitos proxectos de construción de corpus, detectamos dous problemas que aparecen nalgúns destes proxectos.

O primero deles é se o sistema de traballo ven implantado desde fai moitos anos e non se actualizou, vale?. Normalmente nestes proxectos estanse utilizando ferramentas obsoletas, moitas veces se limitan as capacidades de representación do que queremos representar nos nosos documentos, utilizamos tecnoloxía antiga, etcétera, e fai que o resultado da construción do corpus non é o máis axeitado.

Outro dos problemas que soemos ver é proxectos nos que se empeza a traballar directamente construíndo, pois, documentos en Word, ou o que sexa, para ir traballando y logo xa veremos máis adiante como facemos o traballo correcto de construción dun corpus. Ben, neste vídeo o que vamos facer é ver un pouco que fases están involucradas na construción dun corpus e podedes velo como unha guía xeral a cousas a ter en conta á hora de construír un corpus.

Ben, podedes ver aí unha proposta de fases de construción dun corpus, vale? definición da metodoloxía de traballo, construción da metodoloxía, comprobación de que a nosa metodoloxía funciona correctamente, planificación de que documentos vamos a traballar en que momento e, finalmente, o desenvolvemento, que é a construción, ou a creación ou a elaboración dos materiais do noso corpus.

Ben, na fase de definición da metodoloxía debemos ter en conta, pois, obxectivos do corpus, tipo de corpus que queremos, recordovos que temos un artigo en Palabras Binarias falando xusto sobre este tema, sobre tipos de corpus, que tipos de documentos vamos a incorporar no noso corpus, estamos interesados en material escrito, material oral, se é material oral como vamos a recopilar ese material oral ou xa está recopilado. Un tema importante que sería conveniente ter en conta xa ao comezo é como está o tema dos dereitos sobre os materiais que queremos empregar, vale? para evitarnos sorpresas despois cando queiramos facer unha explotación do noso corpus, que estándar de representación vamos a usar, que vamos a usar documentos de texto, documentos XML, os documentos van a estar, vai ser unha aplicación que xa mete todo nunha base de datos. Temos que definir que estrutura van ter os nosos documentos, e para definir esa estrutura a veces é importante ter en conta que tipo de explotación vamos a facer nos nosos corpus, que tipo de busca, por exemplo, que queremos un corpus donde queremos que se poida buscar nos nosos documentos toponimia, pois igual resulta relevante ter marcados os topónimos dos documentos que estamos incorporando no corpus, é un exemplo, vale? E tamén é importante definir que etapas do procesamento van a pasar os diferentes documentos para entrar no corpus, é dicir, nós vamos a partir dunhas fontes documentais e vamos a traballar esas fontes documentais ata xerar un documento do noso corpus. Ben, pois todo o que imos facendo sobre o documento orixinal ata chegar ao documento definitivo son as etapas ou fases de procesamento documental, que debe ser definido tamén na metodoloxía.

Ben, unha vez temos definida a metodoloxía temos que construíla. Que é esto de construír a metodoloxía? Pois é construír todos os elementos necesarios para levar a cabo as tarefas definidas na metodoloxía. Por exemplo, xa decidimos que estrutura van ter os documentos. Imaxinádevos que os documentos van a estar en formato XML. Pois na construción da metodoloxía definimos o XML que vai a recoller os documentos, ou definimos a DTD ou o esquema XML que define a estrutura destes documentos. Podemos tamén, na construcción, temos que ver que editor se vai a usar para editar os documentos. Incluso tamén podemos pensar en ir xa empezando a definir un protocolo de que tarefas se van facer transformando os documentos para que estes pasen a formar parte do corpus. Tamén temos que ver que os documentos somos quen de obtélos. Imaxinademos que queremos facer un corpus duns documentos que están no Vaticano. Temos acceso? Pois na construción da metodoloxía temos que validar que podemos acceder a eses documentos. Si nalgunha fase entra en xogo algún script de transformación automático, pois o equipo informático que esté colaborando na construcción deste corpus debe desarrollar eses scripts aquí na construción.

Que máis? Recursos económicos e humanos. Temos os recursos económicos e humanos necesarios para levar a cabo a construción do proxecto? Si, no, ou si, pero nestas condicións, pois hai que recollelo aí na construción, telo en conta. Sobre almacenamento, donde vamos a almacenar os documentos? Como se vai a traballar? Temos un repositorio centralizado? Cada un leva uns poucos documentos para casa, como se suele dicir, e se traballa de andar por casa, ou temos un sistema un pouco máis ordenado, cunha nube, onde varias persoas poden modificar un mismo documento a vez ou non?, etcétara. Vale? Entones, na construción da metodoloxía o que facemos é validar que o que puxemos na definición da metodoloxía podemos levalo a cabo.

Ben, despois ven a fase de comprobación. Que facemos na fase de comprobación? Pois levar á práctica a metodoloxía para algúns documentos. Collemos un documento, dous documentos ou un de cada tipo, y comprobamos que todo o que fixemos na definición e na construción se pode levar a cabo y ademais o comprobamos cun documento concreto. Vale? O que facemos é coller un documento, ou varios, ou uns pouquiños de cada tipo e procesamos eses documentos seguindo os criterios que determinamos na definición e na construción. Vale?

Esto o que nos vai permitir é detectar problemas. Ao mellor na definición da metodoloxía dixemos que íbamos facer unha cousa pero vemos que en la práctica non se pode facer así, que hai que cambiálo. Nos permite reaxustar todo o que definimos e construímos na metodoloxía e adaptalo antes de empezar coa fase de desenvolvemento, porque non hai nada peor que ir muy rapidamente á fase de desenvolvemento. Vale? Porque canto máis tarde atopemos problemas na estrutura dos documentos, nalgunha fase que definimos da etapa de construción, etcétera, etcétera. Canto máis tarde detectamos eses problemas máis custoso vai ser corrixílos. Vale? Pois porque ao mellor xa temos documentos procesados dunha maneira e hai que ao mellor volver sobre documentos que xa estaban procesados, etcétera, etcétera. Por eso a fase de comprobación é moi importante.

E logo ven a planificación, que é como vamos a levar a cabo, que se asignan documentos a persoas y a tempos. Tal persona vai a traballar nestes documentos, nestes outros, nesta época, etcétera, etcétera.

E finalmente o desenvolvemento, que é xa cando as persoas empezan a aplicar a metodoloxía de traballo á construción dos documentos que se lle foron asignados. De acordo?

Insisto. Aínda que esto é unha roda que vai do principio ao final, pódese volver atrás para corrixir cousas que non nos percatamos. Canto antes detectemos esas cousas que hai que corrixir, moito mellor. Canto máis adiante, canto máis avanzado estea o proxecto, si detectamos un erro no sen momento vai ser moito máis custoso. Vale? Porque seguramente haxa que cambiar cousas de outros documentos ou máis complexas de solucionar.

Ben, na fase de definición había unha parte importante que era o procesamento dos documentos, vale? O que vos decía, que modificacións hai que facer nos documentos, ou que etapas teñen que pasar os documentos ata que forman parte do corpus. Y aquí facemos unha proposta de fases por as que deben pasar os documentos.

Temos aí, por exemplo, a fase de adquisición. A fase de adquisición consiste en descargar ou coller os documentos para poder traballar con eles. Consiste en ter unha versión dixital dun documento, vale? Que é un PDF que temos que descargar dun sitio, descargámoslo, que é un xornal ou un documento que hai que descargar en HTML, descargálo, que está fisicamente nun sitio e hai que escaneálo, pues se escanea. O resultado da fase de adquisición é unha primeira versión dixital do documento, de acordo? Coa que empezar a traballar.

Este formato, resultado de adquisición, normalmente non é tratable automaticamente, vale? Si temos un escaneado en imaxes, eso é moi difícil de tratar automaticamente. Incluso un PDF ou incluso un Word que está pensado para visualizar de maneira bonita un documento, non está pensado para tratalo automáticamente. Entón, que facemos? Normalmente a nós nos gusta incluír unha fase de estruturación donde, a partir dese primer formato dixital, conseguir convertelo a un formato que poida ser manexable. Podería ser o formato definitivo que traballamos no corpus? Si, podería ser. Podería ser xa un XML. Pero ás veces é cómodo pasar por un formato intermedio, vale? En algúns dos proxectos nos que traballamos pasamos por un formato intermedio de tal maneira que minimizamos un pouco o esforzo que ten que facer a parte técnica co esforzo que ten que facer a parte lingüística. Hai que chegar a un equilibrio para que non se descompense moito eso. E ás veces meter unha fase de estruturación facilita o traballo do lingüista, vale? Para non tratar directamente xa co formato definitivo.

Un exemplo de estruturación. Imaxinádevos que queredes procesar un xornal de internet que descargades, por exemplo, en PDF. Ben. Un exemplo de estruturación sería estruturar, o sea, ir collendo o texto dese PDF e ir metendo cada noticia nun ficheiro de texto, noticia un, noticia dous, noticia tres, nun ficheiro de texto e metelos dentro dunha carpeta. Unha carpeta que se chame como o nome do xornal y a data y o día do xornal. Que queremos considerar as seccións? Pois poderíamos ter dentro da carpeta do xornal unha carpeta con cada unha das seccións e logo as noticias co texto da noticia. De acordo? Desta maneira, o resultado da fase de estruturación deste exemplo serían unha carpeta donde dentro desa carpeta para cada xornal hai as seccións que ten ese xornal y dentro desas seccións as noticias. Vale?

Esto que vantaxe ten? Pois que un script informático pode xa coller esta información y crear o que sexa o formato definitivo co que empezar a traballar. Formato definitivo dos ficheiros do noso corpus, dee acordo?. Entonces, na fase de conversión, ten que haber uns scripts que collan os documentos nesa estrutura de estruturación e convertelos xa, imaxinádevos que é XML o formato que estamos usando nos nosos corpus, que é un pouco o máis estendido no día de hoxe, que é o que se suele utilizar, bueno, pois eses scripts constrúen un XML. Que pasa? Que este XML non está xa perfecto para incluír no corpus. Hai cousas que non se marcaron na estruturación, que se decidiron non marcar aí, ou cousas que non poden facer os scripts automáticos coa información que puxemos na fase de estruturación, y esa parte manual de revisión ou de completar o documento é a fase de revisión, vale? Que é outra vez é un traballo manual que xa se traballa co formato definitivo dos documentos. Vale?

Se é un XML, será un XML. Se se traballa contra unha base de datos ao mellor na conversión xa meten o documento na base de datos e logo se manipula coa ferramenta que haxa para a conexión coa base de datos, etcétera. Vale? Entones, na revisión, se revisan e se completan as cousas, logo ven unha fase de validación que a veces é tan simple como ver que XML valida o esquema ou a DTD que ten asociada, pero en moitas ocasións hai scripts de validación ou é recomendable facer scripts de validación que validan múltiples cousas: que están todos os campos, que os campos teñen valores correctos, etcétera. Y unha vez se valida pois se inclúen no corpus, que o único que hai que facer é meter o ficheiro no repositorio que digamos donde teñen que estar os ficheiros definitivos, de cardo? Y se incluen o corpus.

Vedes aí que hai unha proposta en seis fases de traballo. Algúnas fases poden estar, outras, quero dicir, poden non estar e simplificar o proceso, pero intentamos ser un pouco exhaustivos nesta proposta. E con isto temos as fases de conversión listas, de como un documento desde que o collemos hasta que pertence o corpus se vai procesando.

O tema da explotación xa é outro tema diferente, que non vamos a tratar nesta presentación, que sería coller os documentos que están na inclusión y, bueno, procesálos si quero construír un sistema de búsquedas ou que seixa. Pero este vídeo é simplemente enfocado no tema de como construír un corpus.

Ben, recórdovos que se necesitades axuda ou asesoramento ou calquera cousa en NLPgo estamos aquí para axudarvos. Tamén podedes pedirnos orzamentos se credes que necesitades apoyo potente pero, bueno, se tedes calquera dúbida ou calquera cousa estamos aí para o que necesites.

Y despois, dicirvos que, bueno, que si vos gustou o vídeo eyqueredes que, bueno, primero, se tedes dúbidas podedes, a través do formulario de contacto que hai debaixo do vídeo en Palabras Binarias, ou incluso nos comentarios de Youtube, si queredes que seixan privados, mellor a través do formulario, si queredes que sexan públicos a través dos propios comentarios de Youtube, podedes dicirnos si non quedou claro, ou si tedes dúbidas sobre o que acabo de comentar, ou incluso se queredes que explique algo polo miúdo, algunha parte, desgolosa máis esto, mo podedes poñer por aí e nos tomamos nota y ao mellor pois podemos facer un vídeo ou contestarvos directamente ou que seixa. Dacordo?

Ben, isto é todo polo vídeo de hoxe espero que vos gustara y nos vemos na próxima entrega. Ata logo!