[{"data":1,"prerenderedAt":3405},["ShallowReactive",2],{"articles-index":3},[4,132,272,490,568,693,805,875,935,1017,1440,1832,1984,2414,2498,2519,2541,2563,2654,2799,2945,3017,3071,3231,3285],{"id":5,"title":6,"author":7,"body":8,"description":111,"entity":112,"extension":113,"image":114,"imageOnContent":115,"language":116,"meta":117,"navigation":118,"number":119,"path":120,"promoted":115,"published":121,"seo":122,"stem":123,"tags":124,"translation":130,"type":130,"__hash__":131},"articles/articles/2026-03-18-convertir-archivos-de-audio-con-audacity.md","Convertir archivos de audio con Audacity (M4A, FLAC, WMA → MP3 o WAV)","Mario Barcala",{"type":9,"value":10,"toc":104},"minimark",[11,15,20,24,27,43,53,57,67,71,74,77,80,83,86,89,92,95,98,101],[12,13],"youtube",{"url":14},"https://youtu.be/f7QceHoSM84",[16,17,19],"h2",{"id":18},"resumen-breve-del-contenido","Resumen breve del contenido",[21,22,23],"p",{},"Muchas grabadoras y teléfonos móviles guardan el audio en formatos como M4A, WMA o FLAC, que no siempre son los más cómodos para trabajar en proyectos de investigación o análisis lingüístico.",[21,25,26],{},"En este vídeo de Palabras binarias: Informática para lingüistas vemos cómo usar Audacity para convertir archivos de audio entre distintos formatos, por ejemplo:",[28,29,30,34,37,40],"ul",{},[31,32,33],"li",{},"Convertir M4A a WAV.",[31,35,36],{},"Convertir WMA a MP3.",[31,38,39],{},"Adaptar grabaciones de entrevistas al formato que necesites.",[31,41,42],{},"Preparar audio para transcripción o análisis lingüístico.",[21,44,45,52],{},[46,47,51],"a",{"href":48,"rel":49},"https://www.palabrasbinarias.com/subscribe",[50],"nofollow","📩"," Suscríbete para no perderte los próximos vídeos.",[16,54,56],{"id":55},"enlaces-de-interés","Enlaces de interés",[28,58,59],{},[31,60,61,62],{},"Audacity: ",[46,63,66],{"href":64,"rel":65},"https://www.audacityteam.org",[50],"\"https://www.audacityteam.org\"",[16,68,70],{"id":69},"transcripción","Transcripción",[21,72,73],{},"Es habitual que los dispositivos que utilizamos para grabar diferentes tipos de audio, como pueden ser una entrevista, almacenen este audio en un formato que no nos es familiar. Normalmente estamos acostumbrados a trabajar con MP3 o incluso WAV y a veces estos dispositivos pues almacenan en formato FLAC o formato M4A, etcétera. En este vídeo lo que vamos a hacer es ver cómo utilizar Audacity para convertir entre formatos de audio. De esta manera podemos adaptar nuestro audio de nuestras entrevistas al formato con el que deseemos trabajar.",[21,75,76],{},"Esto es Palabras binarias: Informática para lingüistas. Vamos a verlo.",[21,78,79],{},"En un vídeo anterior hemos visto cómo instalar Audacity en Windows 11. Aquí ya lo tengo instalado, no lo voy a hacer otra vez, pero os dejaré el enlace en la descripción para que lo podáis ver si queréis hacerlo desde cero. Yo ya lo tengo aquí instalado. Tenemos aquí la aplicación que tendría este aspecto y tengo aquí un fichero, grabado con mi móvil, que es audio_prueba.M4A. Veis que está en formato M4A.",[21,81,82],{},"Supongamos que en nuestro proyecto estamos trabajando todo pues con MP3 y queremos convertir este M4A a MP3. Vamos a escucharlo primero para comprobar que está correcto. \"Lo que ha dicho Luis Pérez es inaceptable.\" ¿De acuerdo? ¿Veis el contenido? Entonces lo que queremos hacer es convertirlo a MP3. ¿Qué pasa? Que tenemos Audacity instalado y si intentamos abrir ese archivo, fijaos lo que pasa. Nos dice que \"no se ha podido abrir el archivo, tipo de archivo incorrecto\". Lo que está ocurriendo aquí es que Audacity, por defecto, sólo puede trabajar creo que con por lo menos MP3 y WAF y no sé si alguno más pero desde luego el M4A no.",[21,84,85],{},"¿Qué hay que hacer para que Audacity pueda trabajar con esos ficheros? Pues hay que ir aquí. Bueno aquí ya nos da una pista. Fijaos \"es un archivo de Advanced Audio Coding. Audacity no puede abrir este archivo sin la biblioteca opcional ffmpeg. Deberá convertirlo a un formato de audio compatible como WAF o AIFF.\" Esto, e incluso MP3 yo creo que ya lo reconoce Audacity por defecto, pero este otro no. Bien, entonces, para instalar esa librería ffmpeg, que es una de las mejores librerías que hay para el procesamiento de audio y vídeo, hay que ir aquí a \"editar\", \"preferencias\" y aquí en \"preferencias\", en \"bibliotecas\", veis que aparece \"biblioteca ffmpeg\", \"descargar\" o \"localizar\".",[21,87,88],{},"Le damos a \"descargar\", aquí dice \"la librería opcional de ffmpeg permite Audacity importar y exportar un mayor número de formatos como M4A o WMA.\" Lo veis ahí ¿no? No lo puede incluir por defecto por un tema de patentes pero se puede instalar aparte. Pues vamos a darle a \"install\" y aquí aquí sale para Windows la manera recomendable es ir aquí a lame.buanzo.ffmpeg.php, veis que lo recomiendan ahí. A ver, esta url es un poquito rara, porque veis que no es oficial de nada, pero se supone que si la propia página de Audacity recomienda a través de ese enlace pues bueno podemos medio confiar en que será un enlace correcto y que no nos van a meter ningún virus ni nada por el estilo ¿vale? Nos debería chocar ver este enlace porque es buanzo.org, que no sabemos lo que es, pero bueno, vamos a confiar porque está en la página oficial de Audacity ¿vale?",[21,90,91],{},"Entonces, ahora aquí, hay que tener cuidado porque hay algo de publicidad, en \"install now\". Esto no tiene nada que ver con la instalación de Audacity, eso es un banner de publicidad y lo que tenemos que ir aquí es a... a ver si lo encuentro... \"Cómo instalar en Windows\" Aquí, aquí está. Esto es un... aquí, perdón, aquí me lo pasé, \"ffmpeg installer\" ¿vale? Aquí está el instalador para Windows. En general los ordenadores modernos usan 64-bit Windows ¿vale? Si no os funciona probad con la 32 bits y también está aquí para macOS ¿vale? Aunque en macOS hay otras maneras también de instalarlo. Bien, vamos a darle a \"instalar\", \"acepto\", \"siguiente\", \"instalar\", \"finalizar\".",[21,93,94],{},"Bien, una vez que ya está instalado, si nos vamos aquí a \"localizar\", \"Audacity ha detectado automáticamente unas... bibliotecas, aún así desea localizarla manualmente\", le decimos que no, porque en realidad ya lo ha localizado él, aceptar. ¿Vale? Entonces, ya hemos instalado la librería ffmpeg que nos sirve para trabajar con más tipos de ficheros de audio.",[21,96,97],{},"Bien, vamos a intentar abrir de nuevo el fichero de antes, abrir y nos abrimos el M4A. ¿Veis? Ya lo abre, le damos aquí al play. \"Lo que ha dicho Luis Pérez es inaceptable\". Le damos ahora a exportar, aquí, para cambiar de un formato, \"exportar audio\". Queremos exportarlo a este ordenador y entonces aquí pues podemos elegir el formato. ¿Vale? Estos son los formatos a los que nos deja exportar ahora, le vamos a decir MP3 y lo vamos a renombrar como audio_prueba.mp3. ¿Vale? Le vamos a poner ese nombre. Exportamos, no sé dónde lo ha exportado, un segundo, esperad un segundo, exportar, lo voy a exportar aquí, está en otro sitio, al escritorio, ahí, \"guardar\", \"exportar\", cerramos, no guardo el proyecto y veis que lo ha exportado aquí arriba. ¿Vale? Un MP3, le damos aquí. \"Lo que ha dicho Luis Pérez es inaceptable\". ¿Veis? Ya lo hemos convertido a MP3. ¿Vale?",[21,99,100],{},"Esto lo podemos hacer entre cualquier par de formatos. ¿Vale? El WMA, ese que hablaba, el M4A, etcétera. Si instalamos el ffmpeg lo podemos hacer. Claro, si queremos convertir sólo un fichero pues hay que ir uno a uno, con Audacity, uno, otro, otro, otro, otro. Esta solución está bien para cuando queréis convertir unos pocos ficheros: 5, 10, 15, pero qué pasa si tenéis 60, 200, 500 o 1000 audios y los queréis convertir todos. Bueno, pues para eso os recomiendo que hagáis nuestro curso Aprendiendo a usar el Terminal, ya que allí tenemos documentada una solución para poder hacer esto automáticamente con un conjunto de ficheros. ¿De acuerdo? Aprendiendo a usar el Terminal.",[21,102,103],{},"Bien, y ya estaría. Si te ha gustado el vídeo dale a me gusta y suscríbete a nuestro boletín en palabrasbinarias.com. Verás que allí hay una campanita donde os podéis suscribir a nuestro boletín donde os informamos de todas las actividades que realizamos. ¡Hasta luego!",{"title":105,"searchDepth":106,"depth":106,"links":107},"",2,[108,109,110],{"id":18,"depth":106,"text":19},{"id":55,"depth":106,"text":56},{"id":69,"depth":106,"text":70},"Muchas grabadoras y teléfonos móviles guardan el audio en formatos como M4A, WMA o FLAC, que no siempre son los más cómodos para trabajar en proyectos de investigación o análisis lingüístico. En este vídeo vemos cómo usar Audacity para convertir archivos de audio entre distintos formatos.","NLPgo Technologies, S.L.","md","/media/palabras_binarias_covertir_archivos_audio_audacity.png",false,"es",{},true,25,"/articles/2026-03-18-convertir-archivos-de-audio-con-audacity","2026-03-18T17:30:00.000Z",{"title":6,"description":111},"articles/2026-03-18-convertir-archivos-de-audio-con-audacity",[125,126,127,128,129],"Informática","Audacity","Audio","Nivel básico","2026",null,"a6Vp40xkATc7gSIClqfa-ZR82KNLymo0YLkz3YxklZU",{"id":133,"title":134,"author":7,"body":135,"description":262,"entity":112,"extension":113,"image":263,"imageOnContent":115,"language":116,"meta":264,"navigation":118,"number":265,"path":266,"promoted":115,"published":267,"seo":268,"stem":269,"tags":270,"translation":130,"type":130,"__hash__":271},"articles/articles/2026-02-25-anonimizar-audios-de-entrevistas-con-audacity.md","Anonimizar audios de entrevistas con Audacity",{"type":9,"value":136,"toc":257},[137,140,142,145,148,162,171,174,188,202,204,211,213,216,219,222,225,228,231,234,237,240,243,246,254],[12,138],{"url":139},"https://youtu.be/s-2ZLqmKYRk",[16,141,19],{"id":18},[21,143,144],{},"En este vídeo te enseñamos paso a paso cómo anonimizar fragmentos de audio usando Audacity, una herramienta gratuita y muy potente que puedes utilizar en tus proyectos lingüísticos.",[21,146,147],{},"Aprenderás a:",[28,149,150,153,156,159],{},[31,151,152],{},"Descargar e instalar Audacity correctamente.",[31,154,155],{},"Localizar los fragmentos con información confidencial.",[31,157,158],{},"Editar y anonimizar datos personales en una grabación.",[31,160,161],{},"Exportar el archivo final listo para su uso.",[21,163,164,165,170],{},"Este tutorial forma parte de ",[46,166,169],{"href":167,"rel":168},"https://www.palabrasbinarias.com",[50],"Palabras binarias: Informática para lingüistas",", un proyecto de formación pensado para que los lingüistas ganen autonomía técnica en sus investigaciones y trabajos profesionales.",[21,172,173],{},"Si quieres seguir aprendiendo sobre:",[28,175,176,179,182,185],{},[31,177,178],{},"Inteligencia artificial aplicada a la lingüística.",[31,180,181],{},"Estadística para lingüística de corpus.",[31,183,184],{},"Uso del Terminal para lingüistas.",[31,186,187],{},"Nuevas herramientas digitales.",[21,189,190,191,196,197,201],{},"Descubre todos los cursos disponibles en nuestra sección de ",[46,192,195],{"href":193,"rel":194},"https://www.palabrasbinarias.com/workshops",[50],"talleres"," y suscríbete ",[46,198,200],{"href":48,"rel":199},[50],"aquí 📩"," para no perderte nuestros próximos vídeos.",[16,203,56],{"id":55},[28,205,206],{},[31,207,61,208],{},[46,209,66],{"href":64,"rel":210},[50],[16,212,70],{"id":69},[21,214,215],{},"Si trabajas con grabaciones de entrevistas estoy casi seguro de que alguna vez te ha pasado que ya tienes todo listo, el audio está preparado y, revisando la grabación, te das cuenta de que se menciona algún dato sensible, o algún dato de carácter personal, que te gustaría eliminar de la entrevista y no sabes cómo hacerlo.",[21,217,218],{},"En este vídeo te voy a enseñar, paso a paso, cómo puedes hacer para anonimizar esos fragmentos donde se dice información confidencial. Esto es Palabras binarias: Informática para lingüistas. Vamos a verlo.",[21,220,221],{},"Bien, lo primero que vamos a hacer es descargar la aplicación gratuita Audacity, que es la que vamos a usar para hacer esta anonimización. Entonces, yo aquí, como siempre, buscamos Audacity, que se escribe así, y siempre recomiendo ir al enlace original, de acuerdo, que es este Audacity Team, Audacity Team, audacityteam.org. Vemos que va ahí y simplemente descargamos la aplicación y la instalamos como una aplicación normal.",[21,223,224],{},"Vale, ya me ha descargado aquí el instalador. Fijaos que pone \"Audacity Installer vía Muse Hub\", ¿de acuerdo? Lo que vamos a hacer es instalar primero Muse Hub y después Audacity, y os preguntaréis que qué es Muse Hub, pues es como un ecosistema de aplicaciones relacionadas con el sonido y el audio. Entonces nada, abrimos el instalador, ya veréis que es bastante sencillito. Parece que ya lo ha instalado y aquí dentro del instalador después hay que decirle que instale Audacity. Le damos aquí a \"install\", si lo queremos con el tutorial o sin el tutorial. Bueno, veis aquí que con el tutorial hay que pagar, me parece, lo que pone aquí. Vamos a decir sin el tutorial entonces. Y aquí luego nos dice si nos queremos suscribir a una nube, conectarnos a una nube, etcétera. Yo, por ahora, simplemente vamos a usar la herramienta local y no vamos a tocar nada relacionado con la nube, así que le decimos aquí \"maybe later\" y ya estaría.",[21,226,227],{},"Simplemente si le damos aquí a \"launch\" ya lo lanzaría. Aceptar y continuar. Nos dice que hay una actualización, pues también la actualizamos. Que en qué idioma lo queremos, lo voy a dejar en español. Siguiente, siguiente, siguiente. Crear un acceso directo en el escritorio, sí. E instalar. Vale, siguiente y finalizar. Bien, si ahora cerramos, bueno ya nos lo arranca aquí, pero si cerramos todo deberíamos tener aquí un acceso directo a Audacity en el escritorio, ¿de acuerdo? Lo hace como en dos pasos, primero instala el hub ese y luego dentro del hub pues el Audacity, pero al final nos queda aquí la aplicación.",[21,229,230],{},"Entonces al arrancarlo, bueno, \"obtenga muestras gratuitas\". Yo aquí de momento le voy a decir que no haga nada. Aquí te dice las ventajas de la aplicación, \"obtenga nuestras herramientas gratuitas de IA\", etcétera. Bueno, hay varias cosas. Si te quieres conectar con la nube, etcétera. Yo, como digo, nos vamos a centrar en usar la aplicación en local, sin más. Que es esto de aquí.",[21,232,233],{},"Bien, una vez tenemos la aplicación instalada, vamos a trabajar con un audio. Tengo yo aquí un audio de ejemplo que vamos a escuchar. \"Lo que ha dicho Luis Pérez es inaceptable\". Imaginad que queremos anonimizar ese Luis Pérez, ¿de acuerdo? Queremos sustituir ese Luis Pérez por un pitido. Bien, pues vamos a abrirlo aquí, le decimos \"abrir\". Bien, veis que aquí este fichero está en formato MP3. Con el formato WAV o MP3, Audacity trabaja normalmente. A veces con otro tipo de formatos hay que convertirlos a MP3 o instalar alguna librería adicional. Quizás tratemos este asunto en otro vídeo, pero hoy nos vamos a centrar en anonimizar un audio que esté en formato WAV o MP3, que es un formato bastante extendido, como supongo que sabréis.",[21,235,236],{},"Bien, aquí vemos la forma de la onda. Vamos a darle al play otra vez para ver más o menos en qué zona decimos el nombre propio. \"Lo que ha dicho Luis Pérez es inaceptable\". O sea, Luis Pérez está por aquí, por esta zona. \"cho Luis Pérez es inaceptable\". Yo puedo ahora clicar para saber dónde empieza. \"cho Luis Pérez es inaceptable\". Aquí no, aquí. \"cho Luis Pérez es...\" Quizás un poquito más, podemos ajustarlo más. \"Luis Pérez es inaceptable\". \"Luis Pérez es inaceptable\". Desde aquí, desde aquí y hasta aquí seguramente será este fragmento. Si le doy al play, ahora me debería reproducir el fragmento. \"cho Luis Pérez\" Perfecto. \"cho Luis Pérez\"   Si quisiéramos cambiar esto, bueno, pues lo podemos ajustar aquí. No me convence aquí este... que sale. Fijaos. \"dicho Luis Pérez\" Vamos a moverlo. \"cho Luis Pérez\" Vamos a ajustarlo más. \"cho Luis Pérez\" Hasta que no se diga, hasta que no se escuche el ch. Un poquito más. \"cho Luis Pérez\" Casi. \"Luis Pérez\" Ahí, más o menos. ¿vale? \"Luis Pérez\". Ya tenemos ahí, acorralado el nombre propio.",[21,238,239],{},"Y ahora, aquí, en \"generar\", le decimos \"tono\". Podría ser un cuadrado... Hay varios tipos de tono. A mí me gusta el sinusoide. Suele poner un tono bastante alto. Lo voy a dejar por defecto para que veáis y luego, si acaso, lo rebajamos un poco. Bueno, al darle al \"vista previa\" nos escuchamos el tono que va a poner. Que está bastante alto. Si lo ponéis en contraposición con el audio original está bastante alto. A mí me gusta bajarlo un poquito para que no moleste tanto al escucharlo. Por ejemplo, en amplitud se le baja el número de 0,8 a otro número más bajo, con 0,3, suena un poquito más bajo. Y le damos a \"generar\". Fijaos que en la zona donde estaba el nombre propio, donde yo decía Luis Pérez, se ha transformado en una onda así como plana, porque es un pitido. Y ahora, simplemente, vamos a irnos para aquí, para el inicio del audio y vamos a ver cómo queda. \"Lo que ha dicho (pitido) es inaceptable\". ¿Veis? Hemos anonimizado el audio y ahora sólo nos queda exportarlo.",[21,241,242],{},"\"Exportar audio\". Lo queremos exportar a este ordenador y, bueno, aquí nos dice... qué formatos podemos exportar. Le vamos a poner \"MP3\", \"audio_prueba_resultado\", por ejemplo. Y aquí lo ponemos en \"Escritorio\", que es donde estoy trabajando ahora. \"Guardar\", \"Exportar\". Nos lo ha creado aquí abajo. Le vamos a dar a \"play\" para ver si lo reproduce. \"Lo que ha dicho (pitido) es inaceptable\". Y ya estaría. Sencillo, ¿no?",[21,244,245],{},"Instalamos dos pasos. Primero, hace algo de instalar... no me acuerdo cómo se llamaba... no sé qué hub. Y dentro del hub este se instala Audacity. Después te queda la aplicación instalada sin más. Le hemos dicho que no queremos saber nada de la nube ni nada de eso. Y luego, un pitidito. Que tenemos una entrevista donde queremos anonimizar esto, seleccionamos el fragmento, creamos el pitido en las zonas que haya que hacerlo y le damos a exportar y nos quedamos con el audio.",[21,247,248,249,253],{},"Si te ha gustado este vídeo dale a \"me gusta\" y suscríbete a nuestro boletín informativo en la web ",[46,250,252],{"href":167,"rel":251},[50],"palabrasbinarias.com",".",[21,255,256],{},"¡Hasta luego!",{"title":105,"searchDepth":106,"depth":106,"links":258},[259,260,261],{"id":18,"depth":106,"text":19},{"id":55,"depth":106,"text":56},{"id":69,"depth":106,"text":70},"Si trabajas con entrevistas y grabaciones de audio, seguro que alguna vez te has encontrado con datos sensibles o información personal que necesitas eliminar antes de compartir o publicar el material. En este vídeo te explicamos cómo hacerlo de forma sencilla.","/media/palabras_binarias_anonimizar_audios_de_entrevistas_con_audacity.png",{},24,"/articles/2026-02-25-anonimizar-audios-de-entrevistas-con-audacity","2026-02-25T17:30:00.000Z",{"title":134,"description":262},"articles/2026-02-25-anonimizar-audios-de-entrevistas-con-audacity",[125,126,127,128,129],"n9h214RNC6B_HvT3IP-jF45-I60VkDC9TsWA94qYDbw",{"id":273,"title":274,"author":7,"body":275,"description":477,"entity":112,"extension":113,"image":478,"imageOnContent":115,"language":116,"meta":479,"navigation":118,"number":480,"path":481,"promoted":115,"published":482,"seo":483,"stem":484,"tags":485,"translation":130,"type":130,"__hash__":489},"articles/articles/2026-01-28-que-es-una-edicion-critica-filologia-calderon-herramientas-digitales.md","¿Qué es una edición crítica? Filología, Calderón y herramientas digitales",{"type":9,"value":276,"toc":472},[277,280,282,285,288,305,313,320,322,332,334,341,346,352,357,362,367,372,377,382,387,392,397,402,407,412,417,422,427,432,437,447,452,457,462,467],[12,278],{"url":279},"https://www.youtube.com/watch?v=qe-xfd7qX38",[16,281,19],{"id":18},[21,283,284],{},"En esta entrevista hablamos con Candela Iglesias Balsa, investigadora predoctoral de la Universidad de Santiago de Compostela y miembro del grupo Calderón, sobre ediciones críticas,  el teatro del Siglo de Oro, Calderón de la Barca y dos aplicaciones informáticas que pueden ayudar en la investigación.",[21,286,287],{},"A lo largo de la conversación tratamos cuestiones como:",[28,289,290,293,296,299,302],{},[31,291,292],{},"¿Qué es exactamente una edición crítica?",[31,294,295],{},"¿Por qué sigue siendo clave para la investigación filológica?",[31,297,298],{},"¿Qué particularidades tienen las obras de teatro del Siglo de Oro en general y las de Calderon de la Barca en particular.",[31,300,301],{},"La utilidad de disponer de una herramienta de comparación de ediciones.",[31,303,304],{},"Posibles usos de una aplicación de consulta en corpus.",[21,306,307,308,312],{},"Este vídeo forma parte del proyecto ",[46,309,311],{"href":167,"rel":310},[50],"Palabras Binarias: Informática para lingüistas",", donde exploramos cómo la tecnología puede apoyar el trabajo de lingüistas, filólogos y humanistas.",[21,314,315,316,253],{},"📩 Si quieres estar al día de nuestros cursos y recursos, apúntate a nuestro boletín informativo ",[46,317,319],{"href":48,"rel":318},[50],"aquí",[16,321,56],{"id":55},[28,323,324],{},[31,325,326,327],{},"Grupo Calderón: ",[46,328,331],{"href":329,"rel":330},"https://www.calderondelabarca.org",[50],"\"https://www.calderondelabarca.org\"",[16,333,70],{"id":69},[21,335,336,340],{},[337,338,339],"code",{},"Mario:"," Bienvenidos y bienvenidas a una nueva entrega de Palabras Binarias, Informática para Lingüistas. En esta ocasión volvemos a traer una entrevista a nuestro canal. Se trata de Candela Iglesias Balsa, que es investigadora de la Universidad de Santiago de Compostela y miembro del grupo Calderón de dicha universidad. Candela es investigadora predoctoral y además de estar realizando su tesis, colabora con proyectos relacionados con la edición crítica y la bibliografía material del teatro del siglo XVII. Hoy vamos a hablar con ella sobre qué son las ediciones críticas, sobre qué ha pasado con las obras de Calderón, que veréis que podría dar para un buen guión de una película, y hablaremos también de dos aplicaciones que hemos desarrollado para el grupo Calderón, al que Candela pertenece desde hace algún tiempo. Vamos allá.",[21,342,343,345],{},[337,344,339],{}," Hola Candela, buenos días. Bueno, en primer lugar, muchas gracias por aceptar la invitación para venir aquí a hablar del mundo de las ediciones críticas, de Calderón de la Barca y también de dos herramientas que quería mostrarle a la audiencia de qué hemos hecho para vosotros en colaboración, para ver si sacamos algo en claro. Bueno, buenos días y muchas gracias a vosotros por invitarme. Muy bien, revisando contigo antes un poco los temas que íbamos a tratar, ya me imagino que van a salir algunos \"palabros\" que para la gente profana igual son un poco difíciles de entender, entonces si no te importa, vamos a ir explicando o igual te interrumpo para hacer alguna aclaración sobre esto, ¿vale?",[21,347,348,351],{},[337,349,350],{},"Candela:"," Vale, sin problema.",[21,353,354,356],{},[337,355,339],{}," Bueno, pues podemos comenzar entonces. Me gustaría empezar porque nos cuentes a ver qué es esto de una edición crítica.",[21,358,359,361],{},[337,360,350],{}," Bueno, pues creo que para explicar lo que es una edición crítica igual es útil explicar un poco el contexto histórico, la forma en que se transmitían los textos en la época para que se pueda entender un poco mejor, ¿no?",[21,363,364,366],{},[337,365,339],{}," Muy bien, estupendo.",[21,368,369,371],{},[337,370,350],{}," Bueno, pues en primer lugar la filología es la disciplina de las humanidades que estudia la cultura a través de su lengua y su literatura y concretamente a partir de los textos escritos. Entonces el germen de la filología se encuentra en la copia y en la edición de textos que han permitido que las obras literarias desde las más antiguas hayan perdurado y se puedan convertir en nuestro objeto de estudio. En el caso de los periodos literarios más arcaicos lo habitual es que no conservemos textos de puño y letra de sus autores y ni siquiera autorizados por ellos mismos, sino manuscritos trasladados por copistas. Con la llegada de la imprenta empezamos a conservar textos impresos basados con frecuencia en testimonios desconocidos, y estos testimonios, ya sean manuscritos o impresos, nunca son exactamente iguales, sino que muestran discrepancias de lectura, lo que en la anecdótica conocemos como variantes.",[21,373,374,376],{},[337,375,339],{}," Vale, pues perdona que te interrumpa, que han salido ahí ya varias palabras. A ver entonces, si entiendo bien, un autor escribe a mano una obra, normalmente a mano en aquella época, para que estos textos perduren en el tiempo. Existían copistas que generaban copias y supongo que luego con el tiempo incluso habría copias de copias de copias y un montón de copias que no eran exactamente iguales al original. Esto ya nos contarás algún detalle un poco después, de por qué no eran exactamente iguales al original, y esto da lugar a diferentes versiones del documento. Las diferencias que había entre esos documentos es lo que has llamado variantes, y si no me equivoco también las diferentes copias e incluso el original, cada versión de un documento es un testimonio, le llamáis así, testimonio, y luego has comentado ahí una palabra que si nos puedes explicar qué es la ecdótica, estaría...",[21,378,379,381],{},[337,380,350],{}," Pues a grandes rasgos, la ecdótica es la disciplina filológica que se encarga de la teoría y de la práctica de la edición de textos, con la intención de restituir o reconstruir esta versión más cercana a las últimas voluntades del autor o a un supuesto original que no se conoce. Muy bien, pues estupendo. Pues continuemos con lo que te había interrumpido sobre las ediciones críticas. Bueno, pues en este contexto de impresos, copias manuscritas que difieren unas de otras, una edición crítica lo que pretende es, a partir de estos testimonios manuscritos o impresos que se han conservado, reconstruir el texto más similar al inicialmente concebido por su autor. En palabras de Pérez Priego, todo el problema de la edición crítica reside en cómo recuperar el texto originario de una obra, es decir, el más próximo a la pluma y a la voluntad del autor, transmitida a través de esa serie de testimonios diversos y diferentes a lo largo del tiempo.",[21,383,384,386],{},[337,385,339],{}," Muy bien, entiendo. O sea, que una edición crítica de una obra pretende reconstruir el texto original y entiendo que, claro, para intentar reconstruir el texto original es necesario considerar los testimonios, por lo menos los que se consideren fiables, que existían del documento original. Y por lo que he podido trabajar en proyectos similares a este, también tenéis una manera más o menos establecida sobre cómo hay que hacer estas marcas, esta edición, cómo marcar las variantes o las notas o todo esto que ponéis en ese tipo de ediciones. Creo que le llamáis algo así como el aparato crítico, ¿verdad?",[21,388,389,391],{},[337,390,350],{}," Sí, bueno, los testimonios se cotejan todos entre sí y se elabora una especie de lista, un aparato crítico, que recoge todas las variantes descartadas de los testimonios consultados durante ese cotejo. En él se suelen indicar la lectura adoptada por el lector moderno y las variantes descartadas presentes en los demás testimonios.",[21,393,394,396],{},[337,395,339],{}," Bueno, pues yo creo que con esto nos queda una idea bastante general de lo que es una edición crítica y, si te parece bien, cuéntame ahora un poco las particularidades de la edición del Teatro del Siglo de Oro en general y de Calderón de la Barca en particular. Quería recordar aquí que el Siglo de Oro es el único siglo de más de 100 años que abarca entre el XVI y el XVII, ¿verdad?",[21,398,399,401],{},[337,400,350],{}," Sí. Bueno, el Teatro del Siglo de Oro y la que es la dramaturgia conocida como Comedia Nueva, la instaura Lópe de Vega tras la publicación del arte nuevo de hacer comedias, se inicia a principios del siglo XVII y acoge una cantidad de textos inabarcable cuya misión prioritaria en su momento era la representación. O sea que eran las tablas, las tablas de corte, las tablas de corral o las tablas urbanas, en la calle, donde se dio la principal difusión de los textos teatrales. El funcionamiento empresarial del teatro del siglo XVII, que era como un circuito en sí mismo, era el siguiente. Los autores de comedias, que son algo similar a los directores de compañía actuales, compraban a los dramaturgos los originales de las comedias en textos manuscritos de puño y letra del escritor, y a partir de ese momento estos autores de compañía se convertían en propietarios exclusivos de las obras y responsables también de su vida escénica. Podían acomodar el texto, el argumento, los personajes al espacio de representación que tuvieran, a las capacidades de su compañía, a los gustos del público, acortar pasajes, alargarlos y un larguísimo etc. Una vez explotaban una comedia lo suficiente en escena, solían vender los textos o a otros autores de comedias o a impresores. En todo este proceso, claro, el dramaturgo, Lope, Calderón, quien fuera, perdía por completo el control sobre su obra, y en el momento en el que quisiera publicarla él, debía recurrir a los autores de comedias e intentar recuperar su propio texto. Entonces, aunque el objetivo principal de las comedias era su puesta en escena, también se difundieron y se comercializaron como objetos de lectura, como los libros que compramos ahora, sobre todo a través de la imprenta. Las modalidades impresas principales en el XVII son dos, la parte, que es un conjunto de 12 piezas teatrales, y la suelta, que como su nombre indica es una pieza teatral suelta o aislada. Esta última constituye la impresión de una comedia exenta. Se trata de un objeto que no acostumbra a tener más de 30 folios y su brevedad las hacía muy baratas de imprimir y permitía que se publicasen sin los documentos legales y sin las aprobaciones que la ley le exigía a un libro como tal. Esto supuso que impresores y libreros llevasen a cabo todo tipo de ilegalidades y de tropelías editoriales. Cuando un dramaturgo pasaba de moda o se habían muerto recientemente, pues publicaban sus textos atribuidos a otros dramaturgos que estuviesen teniendo más éxito para vender más, revendían textos ya conocidos cambiándoles el título para que la gente pensase que eran nuevos. Los impresores de estos textos ni los corregían ni los editaban y tampoco les importaba el partir del cual estaban componiendo ese impreso. Entonces no es extraño que las sueltas ofrezcan textos deturpados, con versos ausentes, erratas o que la misma comedia hubiese circulado bajo títulos diferentes o atribuida a distintos dramaturgos. En el caso de la parte, ésta puede reunir textos de varios autores o constituir colecciones particulares de las obras de un único dramaturgo. Los escritores de más éxito las tenían. Estas partes son a veces recopiladas por los propios autores teatrales, por personas allegadas, un hermano, por ejemplo, o editores ajenos. Evidentemente la responsabilidad editorial detrás de estas partes tiene un impacto en la calidad de los textos que ofrecen.",[21,403,404,406],{},[337,405,339],{}," Todo esto que nos acabas de contar explica o da a entender la dificultad que hay detrás de saber qué texto incluía la obra original. Y de ahí la importancia de hacer ediciones críticas, que imagino que requerirá realizar una investigación para determinar lo fieles que eran los testimonios. Pero además, en el caso de Calderón, el tema se ha complicado con la aparición en escena de un editor creativo. ¿Nos puedes contar algo más sobre esto?",[21,408,409,411],{},[337,410,350],{}," Nuestro amigo Vera Tassis. En el año 1677 se publica la quinta parte de Comedias de Calderón, que el dramaturgo desautoriza explícitamente. Tras la muerte del poeta en el 1681, Juan de Vera Tassis y Villarroel, que se autoproclamaba a su mayor amigo, emprende la tarea de editar y publicar todas las comedias calderonianas a las que tuviese acceso. Y empieza esta labor con la publicación en 1682 de la que llamó La verdadera quinta parte. Y continúa la serie con las ocho restantes entre 1683 y 1691. Y promete un décimo volumen que nunca llega a ver la luz. Estos nueve volúmenes, de mejores condiciones materiales que las cuatro primeras partes que había publicado el hermano de Calderón, acogen textos mejor puntuados, con más acotaciones, sin apenas erratas, y hace que se conviertan en la base exclusiva de las ediciones posteriores de Calderón en los siglos siguientes. ¿Qué pasa? A mediados del XIX empezó a cuestionarse la labor editorial de Vera Tassis y también esa relación de amistad con el dramaturgo que quizá fuese más unilateral de lo que Vera indicaba en sus ediciones. La realidad es que Vera Tassis era un editor muy intervencionista, enmendaba a capricho pasajes que hoy se saben genuinamente calderonianos. Y este cambio en la postura de la crítica provocó que se denostaran los textos de las partes de Vera Tassis. A partir del último tercio del siglo XX, el trabajo de investigadores como Cruikshank o Wilson, que estudiaron diferentes textos calderonianos editados por Vera, supuso la revalorización de su labor editorial, al poner de manifiesto su instinto corrector y su perspicacia. Vera Tassis a veces recuperaba lecturas de manuscritos autógrafos que no conocía o llegaba a manejar más de un texto para sus ediciones. La consideración actual ante los textos de Vera es que es necesario evaluar cada caso concreto de cada comedia de Calderón para determinar el grado de intervencionismo del editor, la situación textual del resto de los testimonios conservados, si hay más testimonios conservados, pero en líneas generales es verdad que su trabajo sigue poniendo en aprieto a los editores modernos. Esto empeora con la existencia de una serie de ediciones falsificadas de estas partes de Vera Tassis. Ediciones falsificadas que surgen entre la edición genuina y la reedición autorizada de principios del XVIII, con el propósito de atender a la demanda del público lector de la época. A estas falsificaciones las llamamos Pseudo Vera Tassis y son partes de comedias formadas por las doce sueltas, pero de origen diferente que siguen a una réplica casi perfecta de los preliminares de la edición veratassiana. El resultado es que estos ejemplares falsos pueden ser muy diferentes entre sí, llegando a ofrecer textos distintos de los empleados por Vera Tassis para sus ediciones y también distintos de los controlados por Calderón. Entonces, claro, para hacer la edición es importante revisar los diferentes ejemplares de Pseudo Vera Tassis en los que se ha transmitido la comedia para cerciorarnos de que no estamos pasando por alto una suelta que tenga variantes de interés. Caray, he visto guiones de Netflix con menos chicha que la historia de las ediciones de Calderón.",[21,413,414,416],{},[337,415,339],{}," Bueno, pues yo creo que ha quedado más o menos claro lo que es una edición crítica y un poco las particularidades de las obras de Calderón. Si te parece, ahora vamos a ver un poquito así por encima las aplicaciones que hemos desarrollado con vosotros, ¿te parece? Perfecto. Voy a compartir la pantalla. Ahí estamos. Lo ves, ¿verdad?",[21,418,419,421],{},[337,420,350],{}," Sí.",[21,423,424,426],{},[337,425,339],{}," Bien, pues nada, quería, bueno, esta es la página que tenéis del grupo. Ahora mismo se puede acceder en calderondelabarca.org y lo que estamos hablando está aquí en la parte de Calderón Digital. Y hay particularmente dos herramientas que hemos hecho con vosotros. Una es la de ediciones críticas y otra una aplicación para poder comparar ediciones críticas, lo veremos ahora, y la otra es para consultar corpus. Iremos viendo ahora cada una de ellas. A esto también se puede acceder a través de aquí, ¿vale? Calderón Digital está por aquí, pero bueno, esto es un acceso un poco más directo. Vamos entonces aquí a las ediciones críticas, a la herramienta de comparación de ediciones y vemos que aquí lo que podemos hacer es elegir algunas obras de Calderón. Aquí vemos que hay una, dos, tres, cuatro y cinco porque solo están incluidas en esta herramienta las obras de Calderón para las cuales vosotros habéis hecho precisamente una edición crítica propia. Es aquí donde, por eso solo hay cinco, porque son las cinco que por ahora tenéis preparadas, aunque me consta que ya tenéis dos o tres ahí esperando para que salgan en la herramienta. Entonces, tenía aquí anotado un ejemplo. Bueno, dentro de un momentito veremos que en el corpus tenéis más y yo creo que la gente ya se está haciendo un poco la idea de por qué hay 25 obras en la consulta de corpus y cinco en la edición crítica. Claro, marcar, etiquetar, contrastar testimonios, etc. es mucho más complejo que hacer el marcado para consultar las obras como un corpus y por eso va un poco más despacio. Entonces, tengo aquí un ejemplito preparado para que vean un poco cómo va, en El Galán Fantasma, y vemos que cuando se accede a la aplicación, sale a la izquierda, por defecto, vuestra edición crítica, la que habéis preparado vosotros y a la derecha uno de los testimonios que habéis tenido en cuenta. Aquí podemos ver que para El Galán Fantasma hay 1, 2, 3, 4, 5, 6, 7, 8 testimonios, además del vuestro, que ahora sería un testimonio más, serían nueve testimonios. Entonces, en esta herramienta lo que podéis es ir comparando cualquier par de ediciones. Aquí tengo un ejemplo, por ejemplo, tenía anotado el verso 91, aquí nos podemos mover entre versos, del 31 al 60, 61 al 90, aquí al 91. Y cómplice hice un jardín. La audiencia ve que hay dos botones, alinear y aquí a la derecha, si yo ahora le digo que quiero alinear la edición que tengo a la derecha con respecto a lo que estoy viendo a la izquierda, le doy a alinear, me cambia de página y como podrá comprender la audiencia, las diferentes ediciones tienen paginaciones diferentes. Por lo tanto, no quiere decir que esto vaya a salir al principio de la página, pero si vamos aquí hacia el final, aquí, y cómplice hice un jardín que a los dos quise fiarme. Se puede contrastar, ir de una a la otra o incluso si ahora queremos aquí, en lugar de poner la edición crítica, queremos poner otra edición y alinear la página con la página que tiene, también se puede, o sea, no es solo comparar vuestra edición crítica con otros testimonios, sino que podéis ir comparando testimonios. Voy a volver a la vuestra un momentito, aquí, porque podríamos ver, esto ha cambiado por el tema de las alineaciones, voy a ir al principio, aquí vuelvo a la 91, aquí, veis que hay zonas en gris y zonas en subrayadas, que, corrígeme si me equivoco, pero unas son las variantes, las grises son variantes, y las subrayadas son notas que tenéis, las notas de edición, o sea, el aparato crítico está incrustado en el propio texto, que supongo que eso os ayudará un poco a, bueno, a tener, cuando queréis hacer comparaciones, a tener un poco más presente toda la información que se necesita para investigar lo que investigáis, imagino.",[21,428,429,431],{},[337,430,350],{}," Sí, bueno, lo que buscábamos con la aplicación era, por una parte, democratizar el acceso a ediciones críticas de Calderón, poder encontrar los textos en Internet cómodamente, y hacerlo, además, con un mejor acceso a las notas y a las variantes. Por norma general, en las ediciones tradicionales en papel, los aparatos críticos, ese conjunto de todas las variantes descartadas de los testimonios consultados, se consignan al final de la obra, de manera que su consulta, digamos, obliga al lector a ir hacia atrás y hacia adelante para consultar las variantes si le interesan. En los casos en los que el aparato se dispone a pie de página, pues puede no dejar suficiente espacio para las notas, configurando unas páginas de incómoda lectura, de una arquitectura sin apenas texto literario, dos, tres versos, y luego todo además, un exceso de texto del editor. Entonces, este formato de edición crítica digital permite una lectura de un texto crítico fiable, del texto literario, y una consulta opcional, pero más cómoda, de las notas y de las variantes. Además, como comentabas, permite esa consulta paralela de testimonios digitalizados. En el formato tradicional en papel no se incluyen este tipo de materiales, pues por cuestiones de espacio, y aunque esto no implique la presencia de todos los testimonios que han transmitido la comedia, incluyendo los de los siglos XVIII y XIX, por ejemplo, sí que se ponen a disposición de los investigadores el acceso a una reproducción digital de todos los testimonios que se han tenido en cuenta para la elaboración de la edición y del texto crítico. Entonces, bueno, en sí misma esta posibilidad de añadir materiales digitalizados, enlaces a otras páginas web o a otros recursos, supone un gran potencial para el estudio de cada obra concreta de Calderón.",[21,433,434,436],{},[337,435,339],{}," Pues me alegro que os esté siendo de ayuda, la verdad, es muy satisfactorio ver que las aplicaciones son útiles para las personas que las desarrollamos. Bien, pues yo creo que queda más o menos claro. Estaba aquí, mientras tú hablabas, señalando esto, por ejemplo, lo que quiere decir, al clicar aquí en \"mar\", lo que quiere decir es que en el testimonio VT, que lo podríamos ver aquí, en este VT, pues aquí en lugar de \"mar\" ponía \"prado\", ¿verdad? Esto es lo que se ve al clicar en la zona gris. Muy bien, pues si te parece le vamos a dar así también una visual por encima a la otra aplicación, a la del corpus. Voy a ir primero aquí en los metadatos para que se vea que aquí hay más obras. Aquí sí que hay 25 y si vamos aquí a la parte de búsquedas, tenía aquí también preparado una búsqueda, la palabra desdicha, por ejemplo. Bueno, esta es una aplicación típica, supongo que la gente que suele ver mis vídeos está más familiarizada con este tipo de aplicación que con la anterior, ¿no? Pero bueno, tiene alguna particularidad que quería comentar, que es, bueno, aquí vemos las típicas concordancias, pero aquí en frecuencia completa podemos ver, por ejemplo, no solo, bueno, en un sistema típico, aquí no habría en la parte izquierda así tan desglosado por obra, pero aquí se puede, por ejemplo, ver la palabra desdicha, en qué obras de Calderón se utiliza más o menos esa obra, pero también en qué tipo de métrica está utilizando Calderón esa obra. Esto sí que me ha parecido bastante curioso e interesante. Supongo que esto también os sirve de alguna manera para investigar el estilo de escritura de Calderón o algo por el estilo.",[21,438,439,441,442,446],{},[337,440,350],{}," Sí, efectivamente. Es un corpus construido a partir de un conjunto de textos calderonianos correctamente editados que permite hacer estas búsquedas de usos lingüísticos y de construcciones frecuentes en Calderón. Esto es útil, por ejemplo, para localizar lugares paralelos, es decir, motivos o temas recurrentes en el dramaturgo que se tratan o se mencionan de forma similar en más de una comedia, y, sobre todo, también, para tomar decisiones editoriales. El criterio ecdótico principal para escoger una variante u otra, de todas las ofrecidas por los testimonios, es que no suponga un error, es decir, que no exista un error en la rima o en la longitud del verso o que constituya una incoherencia con respecto de la trama o el sentido del verso. Hay veces que dos o más testimonios pueden presentar variantes válidas y correctas a ojos del editor moderno. A esto le llamamos variantes equipolentes o adiáforas. Para escoger entre una u otra se puede recurrir al ",[443,444,445],"em",{},"usus scribendi"," del autor, a su modo habitual de escribir, qué palabras son más frecuentes, qué tipo de construcciones o rimas usa más a menudo, en qué posición o en qué forma métrica utiliza esas palabras. Para esto son muy útiles las búsquedas de este corpus construido a partir de textos fiables. Por otra parte, el hecho de tener todos estos datos estructurados y etiquetados permite extraer datos para otro tipo de estudios y de proyectos relacionados con la métrica y la polimetría en Calderón, el estudio de usos estróficos, la autoría o las redes de personajes, por poner algunos ejemplos. Es verdad, me olvidé de comentar que allí en la búsqueda también se puede hacer búsqueda por personaje.",[21,448,449,451],{},[337,450,339],{}," Está muy bien eso, sí. Jobá, pues no sé, a mí me ha encantado la charla. Espero que a la audiencia también le guste. Abre así un mundo, a mí me toca un poco de lado. Cada vez me estoy metiendo más, porque cada vez sois más los que nos llamáis para que os ayudemos con aplicaciones de este tipo, pero bueno, ya sabéis que yo estoy más con temas de aplicaciones de corpus. Pero la verdad es que me ha encantado hacer esta herramienta para vosotros, que sabéis que de vez en cuando tenemos que pulir y ajustar cosas porque en las ediciones aparecen cosas bastante complejas de representar digitalmente. Y nada, yo de nuevo agradecerte este ratito que nos has dedicado para contarnos un poco en lo que estáis haciendo y cómo van las herramientas estas que estamos haciendo con vosotros. Y nada, muchas gracias, Candela, por aceptar nuestra invitación.",[21,453,454,456],{},[337,455,350],{}," Muchas gracias a vosotros por proponerme la entrevista.",[21,458,459,461],{},[337,460,339],{}," Bueno, así también a ver si damos a conocer también, no solo vuestro trabajo sino el nuestro. Y yo creo que hace falta también divulgar un poquito para atraer a más masa crítica en estos nichos que a veces se están quedando olvidados en la red. Bueno, pues muchas gracias Candela. Nos vemos.",[21,463,464,466],{},[337,465,350],{}," Gracias a vosotros. Chao.",[21,468,469,471],{},[337,470,339],{}," Venga, hasta luego. Chao.",{"title":105,"searchDepth":106,"depth":106,"links":473},[474,475,476],{"id":18,"depth":106,"text":19},{"id":55,"depth":106,"text":56},{"id":69,"depth":106,"text":70},"En esta entrevista hablamos con Candela Iglesias Balsa sobre ediciones críticas, el teatro del Siglo de Oro, Calderón de la Barca y dos aplicaciones informáticas que pueden ayudar en la investigación.","/media/palabras_binarias_que_es_una_edicion_critica_filologia_calderon_herramientas_digitales.png",{},23,"/articles/2026-01-28-que-es-una-edicion-critica-filologia-calderon-herramientas-digitales","2026-01-28T17:30:00.000Z",{"title":274,"description":477},"articles/2026-01-28-que-es-una-edicion-critica-filologia-calderon-herramientas-digitales",[486,125,487,488,128,129],"Lingüística","Literatura","Ediciones digitales","cJlqVaCdNz2DZrokY-M0ogIdiQ73LTxi5p4huJ5Gpmk",{"id":491,"title":492,"author":7,"body":493,"description":557,"entity":112,"extension":113,"image":558,"imageOnContent":115,"language":116,"meta":559,"navigation":118,"number":560,"path":561,"promoted":115,"published":562,"seo":563,"stem":564,"tags":565,"translation":130,"type":130,"__hash__":567},"articles/articles/2025-12-17-pantalla-dividida.md","Sácale partido a tu pantalla: trabajo dividido sin monitor extra",{"type":9,"value":494,"toc":553},[495,498,500,503,506,514,517,522,525,528,530,533,536,539,542,545],[12,496],{"url":497},"https://www.youtube.com/watch?v=FvlbEGmINsg",[16,499,19],{"id":18},[21,501,502],{},"En este vídeo te enseñamos un pequeño truco que permite dividir la pantalla para colocar dos ventanas lado a lado y trabajar más cómodo, tanto en Windows 11 como en macOS.",[21,504,505],{},"✅ Windows 11:",[28,507,508,511],{},[31,509,510],{},"Atajo: tecla Windows (la \"ventanita\") + flecha izquierda/derecha para fijar una ventana a un lado y elegir la otra para el lado contrario.",[31,512,513],{},"Alternativa: desde el cuadradito (maximizar) para escoger la disposición (2, 3, etc.).",[21,515,516],{},"✅ macOS:",[28,518,519],{},[31,520,521],{},"Desde la bolita verde de la ventana, eligiendo la disposición para \"rellenar y ordenar\".",[21,523,524],{},"También explicamos cómo ajustar el tamaño de las dos ventanas.",[21,526,527],{},"En el ejemplo uso LibreOffice y Google Chrome, pero sirve con cualquier par de aplicaciones.",[16,529,70],{"id":69},[21,531,532],{},"Buenas, ¿habéis trabajado alguna vez con dos pantallas? Resulta superinteresante poner una aplicación en una pantalla, poner otra aplicación en otra pantalla y trabajar en una y ver lo que hay en la otra sin tener que andar intercambiando unas aplicaciones con otras. También resulta útil para copiar y pegar de una pantalla a la otra sin tener también que andar cambiando de aplicación. Yo lo uso habitualmente y el problema es que cuando las personas que estamos acostumbradas a trabajar con dos pantallas de repente tenemos que trabajar con una sola, como puede ser en un portátil o un ordenador que no viene siendo el habitual, pues nos vemos un poco perdidos. En este vídeo lo que os traigo es un truquito que permite alinear bien las aplicaciones para poder trabajar como si tuviéramos dos pantallas pero con una única pantalla. Esto es Palabras binarias: Informática para lingüistas. Vamos a verlo.",[21,534,535],{},"Bien, vais a ver que es muy facilito. Simplemente abrid dos aplicaciones cualesquiera, en este caso yo tengo abierto aquí el LibreOffice y el Google, ¿vale? Y el Google Chrome. Y simplemente tenéis que elegir una de ellas y darle a la tecla de Windows, a la que tiene la ventanita, y la flecha hacia un lado, ¿vale? Yo voy a clicar aquí en la de LibreOffice y hago ventanita de Windows y con esa pulsada, manteniendo pulsada la tecla de Windows, le doy a la flecha a la izquierda. Fijaos, me ha puesto LibreOffice a la izquierda y a la derecha salen las otras aplicaciones que tengo abiertas. Si yo clico aquí en el Google, ya me sale, perdón, en el Google Chrome, ya me sale el resto de la pantalla con la otra aplicación. ¿Veis? Izquierda y derecha. ¿Que queréis más espacio para lo que vayáis a ver en la pantalla de Google Chrome? Simplemente desplazando. Fijaos, si vais por aquí encima, moviendo esto a izquierda y a derecha, fijaos que ya os va encajando las dos aplicaciones, hacia la izquierda o la derecha. Y podemos estructurar esto como queramos, ¿vale? A ver, no es como tener dos pantallas, pero es una manera interesante de tener alineadas las cosas para simular que tenemos dos pantallas de alguna manera y que no anden las aplicaciones una delante de la otra. ¿Vale?",[21,537,538],{},"La manera más fácil de salir de aquí es simplemente pinchando aquí en maximizar y minimizar, perdón, maximizar y volver a poner en el tamaño normal y ya estaría. ¿Vale? Otra manera de hacer lo mismo sin la tecla de Windows y flecha es aquí en el cuadradito. Fijaos que también os dice cómo podéis, cómo queréis alinearlo, ¿vale? Si en lugar de hacerlo de dos lo queréis hacer de cuatro, pues fijaos, os pone aquí una, aquí otra y puedes elegir las otras aplicaciones. Yo aquí no tengo más, más que la aplicación que está grabando la sesión. Así que veis que aquí justo, si no os acordáis de la tecla, aquí podéis hacerlo de dos, de tres, la distribución que queráis. ¿Vale? Esto que acabamos de ver es para Windows 11. Si queréis saber cómo se hace en macOS, esperaos hasta el final del vídeo que os lo cuento ahora mismo.",[21,540,541],{},"Bien, en el caso de macOS no sé si hay un atajo de teclado que haga exactamente lo mismo, pero sí que sé que aquí en la zona de la bola, la bolita verde que aparece para las aplicaciones de macOS, veis que aquí también aparece una, bueno, una indicación de la disposición que queremos. Si le damos aquí a rellenar y ordenar, así mitad y mitad, pues ya nos coloca las dos. ¿Vale?",[21,543,544],{},"No me gusta en la solución de macOS que, por lo menos en mi ordenador, deja aquí en la parte de arriba un hueco que es muy interesante de usar. O sea, no sé por qué no expande justo hasta arriba. Igual tiene algún problemilla la configuración de mi equipo y esto no ocurre, pero eso no me acaba de convencer. Y después, bueno, aquí para mover de, como lo hacíamos en Windows, moviendo simplemente el eje de los dos, creo que sólo funciona, si os veis, veis que aquí al ir por el centro, sale aquí como una zona resaltada y aquí sí que nos deja moverlo. ¿Vale? Mover para la izquierda o para la derecha, para según donde queramos mover las aplicaciones. No va tan fluido como el equipo, como lo de Windows, pero sí, sí que funciona. Lo que no tengo claro es si lo cojo, por ejemplo, de aquí más arriba, no. ¿Veis? Tenéis que cogerlo justo donde está el resaltado este gris clarito que sale ahí entre las dos aplicaciones. ¿Vale? Bueno, lo único, eso, la parte de arriba, que no estoy seguro de si es algún problemilla con mi ordenador, pero veis que también funciona en macOS.",[21,546,547,548,552],{},"Y eso ha sido todo por hoy. Espero que os haya gustado este truquito. Os recuerdo que la única manera que tenéis de obtener los códigos de descuento que solemos enviar cuando vamos a organizar un nuevo curso es suscribiéndoos a nuestro boletín informativo en la campanita que aparece en la web de ",[46,549,252],{"href":550,"rel":551},"https://palabrasbinarias.com",[50],". Nos vemos en la próxima entrega. ¡Chao!",{"title":105,"searchDepth":106,"depth":106,"links":554},[555,556],{"id":18,"depth":106,"text":19},{"id":69,"depth":106,"text":70},"¿Trabajas con varias aplicaciones a la vez y te vendría bien tener dos pantallas pero solo tienes una? En este vídeo te enseñamos a dividir la pantalla para colocar dos ventanas lado a lado y trabajar más cómodo.","/media/palabras_binarias_pantalla_dividida.png",{},22,"/articles/2025-12-17-pantalla-dividida","2025-12-17T17:30:00.000Z",{"title":492,"description":557},"articles/2025-12-17-pantalla-dividida",[125,128,566],"2025","s0JN4cUma2wApBr9uuRqPz3oZOCVCXTsPzdzVcvsoGw",{"id":569,"title":570,"author":7,"body":571,"description":677,"entity":112,"extension":113,"image":678,"imageOnContent":115,"language":116,"meta":679,"navigation":118,"number":680,"path":681,"promoted":115,"published":682,"seo":683,"stem":684,"tags":685,"translation":130,"type":130,"__hash__":692},"articles/articles/2025-11-12-como-funcionan-las-aplicaciones-de-busqueda-en-corpus.md","Cómo funcionan las aplicaciones de búsqueda en corpus",{"type":9,"value":572,"toc":672},[573,576,578,581,584,598,600,610,612,615,618,621,624,627,638,641,644,647,650,653,656,659,662,665],[12,574],{"url":575},"https://www.youtube.com/watch?v=HkfAJxhTxiE",[16,577,19],{"id":18},[21,579,580],{},"En este vídeo exploramos un tema clave para quienes trabajan con corpus: cómo funcionan realmente las aplicaciones de búsqueda y por qué los resultados pueden variar dependiendo de la herramienta y el corpus.",[21,582,583],{},"🔍 Más en concreto, vemos ejemplos y explicaciones sobre:",[28,585,586,589,592,595],{},[31,587,588],{},"Qué ocurre cuando hacemos una búsqueda de palabras ortográficas o elementos gramaticales.",[31,590,591],{},"Por qué dos corpus pueden devolver resultados diferentes para una misma búsqueda.",[31,593,594],{},"Cómo interpretar correctamente los resultados.",[31,596,597],{},"Consejos prácticos para mejorar tus consultas y evitar errores.",[16,599,56],{"id":55},[28,601,602],{},[31,603,604,605],{},"Vídeo: ",[46,606,609],{"href":607,"rel":608},"https://www.palabrasbinarias.com/articles/2022-10-20-palabras-ortograficas-y-elementos-gramaticales",[50],"\"Palabras ortográficas y elementos gramaticales\"",[16,611,70],{"id":69},[21,613,614],{},"Bienvenidos y bienvenidas a una nueva entrega de Palabras binarias: Informática para lingüistas. Ya sabéis que aquí podéis estar informados sobre cuestiones relacionadas con la lingüística de corpus, la lingüística computacional, la inteligencia artificial y la informática en general.",[21,616,617],{},"En esta ocasión vamos a hablar de cómo funcionan las aplicaciones de consulta en corpus y, más concretamente, en cómo las particularidades técnicas de cada corpus o de cada aplicación de consulta puede afectar a los resultados que obtenemos. Este vídeo también se puede ver como una extensión de otro que tenemos llamado \"Palabras ortográficas y elementos gramaticales\", ya que vamos a tratar ese asunto con un poco más de profundidad. Bien, ¡vamos allá!",[21,619,620],{},"Vale, entonces, ¿cómo funcionan las aplicaciones de consulta en corpus? La manera más sencilla de consultar un corpus es a través de palabras ortográficas, ¿vale? Una búsqueda simple de palabras ortográficas, por ejemplo, tenemos ahí un texto \"la brisa nocturna arrastraba el aroma salobre del mar mientras Gabriel avanzaba por el estrecho sendero\", etcétera, etcétera. Y vemos, y en este texto queremos buscar \"brisa\", la palabra \"brisa\", veis que ahí en la segunda palabra aparece la palabra \"brisa\" y todos esperamos que cuando buscamos la palabra \"brisa\" en un sistema de consulta en corpus, pues nos devuelva ese resultado, ya sea a través de un resultado de conteo de frecuencias como a través de una concordancia, ¿no? Es esperable que si buscamos la palabra \"brisa\" nos devuelva ese resultado. Bien, ¿qué pasa si ahora queremos buscar la palabra \"la\"? Resalto ahí en el texto las secuencias de las letras \"l\" y \"a\" y vemos que aparece ahí \"La brisa\" pero con ese \"La\" con la \"L\" mayúscula, \"La luna\" con esa \"L\" mayúscula, aparecen \"las olas\", aparece \"la roca\" y \"la palma\". Bien, para empezar, si buscamos la palabra \"la\" en un sistema de consulta en corpus, creo que a todos más o menos nos parece razonable que la palabra \"las\" no salga, ¿vale? Normalmente no hacemos búsquedas de secuencia de letras. Si buscamos la palabra \"la\", queremos la palabra \"la\". Correcto, está ahí bien, por eso aparece en rojo \"las\". Pero, ¿qué ocurre con las variaciones de nuestras palabras, de nuestra palabra de búsqueda en cuanto a mayúsculas? Por ejemplo, ese \"La\" de \"La brisa\" y ese \"La\" de \"La luna\", que aparece la \"L\" en mayúscula, ¿va a salir en el resultado o no? Pues eso va a depender de lo que tenga configurado por defecto la aplicación de búsqueda que estamos usando, ¿vale? Esto es lo que se llama la sensibilidad a las mayúsculas. Algunas aplicaciones tienen la sensibilidad activada por defecto y otras no. Podemos ver aquí un ejemplo: en el sistema de búsquedas de CORPES XXI, veis ahí, en la palabra, donde pone \"sensibilidad\" a acentos y mayúsculas, veis que esos checks no están marcados. ¿Qué quiere decir? Que si buscamos la palabra \"la\", nos va a devolver los casos de los las escritos de cualquier manera, en minúsculas o en mayúsculas. Si vamos, por ejemplo, a este, que es el Corpus de Referencia del Gallego Actual, y vemos ahí a la izquierda que pone \"sensibilidade\", sensibilidad, vemos que esos checks aparecen marcados por defecto, con lo cual, en este corpus, si nosotros no tocamos la configuración o ese apartado de sensibilidad, nos va a devolver sólo los casos de las palabras, de la palabra \"la\", que estén en minúsculas y no todos. ¿De acuerdo? Entonces, dependiendo de la aplicación que estemos usando, la configuración por defecto de nuestras búsquedas va a ser una u otra y, por lo tanto, tenemos que tener cuidado de lo que estamos buscando. No vayamos a llegar a conclusiones de que la palabra \"la\", en este caso su ejemplo chorras, pero bueno, de que una palabra que estemos buscando aparezca x veces y a lo mejor hay muchos más casos de los que estamos obteniendo.",[21,622,623],{},"Bien, cosas más complicadas, que se van complicando un poco, son las secuencias, ¿vale? O sea, unas palabras seguidas de otras. Por ejemplo, ahí \"nubes rasgadas\", que aparece ahí, todos más o menos podemos llegar al consenso de que si buscamos \"nubes rasgadas\", pues tiene que salir ese caso, ¿no? \"un velo de nubes rasgadas, arrojaba\". ¿Pero qué pasa si ahora buscamos aquí \"rasgadas arrojaba\"? \"arrojaba\" aparece justo después de \"rasgadas\", pero hay una coma en medio. ¿Debe salir ese resultado? ¿Cuando buscamos \"rasgadas arrojaba\" nos tiene que decir que aparece? Bueno, pues lo habitual en los sistemas de consulta en corpus es que estos casos no salgan. Es decir, que las comas, las comillas también en muchos casos, los puntos, los signos de interrogación, etcétera, lo que hacen es lo que nosotros llamamos romper la secuencia. O sea, lo que hace es que rasgadas y arrojaba no se decida que estén juntas. Por lo tanto, si buscamos rasgadas arrojaba, no obtendríamos el resultado.",[21,625,626],{},"Bien, hasta aquí podemos, bueno, más o menos tenerlo claro. Pero, ¿qué pasa si estamos consultando un corpus que contiene transcripciones orales? Vale, tenemos ahí algún caso del corpus ESLORA, el Corpus para el estudio del español oral, que dice \"donde tú no te sientes\" y hay una pausa y está marcada en el corpus esa pausa, \"me siento yo\". \"Del tsunami\", \"pausa\", \"azul\". \"y entonces la traducción del castellano de repente era\", \"pausa\", \"en Es\", \"pausa\", \"es que España\", \"pausa\", \"va a tener un futuro negro\". Veis ahí que a veces las pausas rompen el contexto, o sea, el hablante lo que hace es, digamos, cambiar la sintaxis de lo que está haciendo para pasar a hablar de otra cosa y otras veces no, otras veces continúa. Vale, ¿qué podemos esperar de esto? Bueno, dependerá también del proyecto, ¿vale? Esto, dependiendo de la aplicación de consulta y de lo que ha decidido el equipo de desarrollo o de trabajo del corpus, se va a comportar de una manera o de otra. En el caso de ESLORA se ha decidido, por ejemplo, que las pausas sí rompan contexto, de tal manera que si buscamos \"te sientes me siento\", no aparecería el caso. Si buscamos \"tsunami azul\" tampoco y si buscamos \"era en\", esto es en el tercer ejemplo, pues no saldría. Esto es como lo tenemos configurado en el proyecto ESLORA. Las decisiones podrían ser otras, podría ser que nunca rompiera contexto o también se podría llegar a un intermedio de que cuando, cuando en unos casos se rompa el contexto y en otros no. Esta última decisión normalmente suele ser la más difícil de llevar a cabo porque, bueno, muchas veces vamos a tener problemas para ser coherentes a lo largo de todo el corpus de seguir siempre el mismo criterio y entonces las personas que van a consultar en corpus también van a tener más dudas de si está funcionando de una manera o de la otra, ¿vale? Entonces no suele ser habitual esta solución de compromiso donde en algunos casos se rompa la secuencia y en otros no.",[21,628,629,630,634,635,637],{},"Bien, más ejemplos de cómo, bueno, lo que hay debajo de lo que consultamos, la base de datos que está detrás de la aplicación de búsquedas, puede influir en, bueno, en cómo tenemos los resultados. Por ejemplo, este es un ejemplo de un, del corpus CODOLGA, Corpus del latín de Galicia, de la Gallaecia, y allí lo que hay son marcas de edición, ¿vale? Son esos corchetes que veis ahí en \"comi",[631,632,633],"span",{},"ta","tus\" que normalmente son, bueno, reconstrucciones del editor, cosas que no se veían en el documento original que el editor reconstruye. Bien, ¿qué pasa si en este corpus buscamos \"comitatus\". Lo habitual es que en este tipo de proyectos el equipo de trabajo quiera que tú puedas buscar \"comitatus\" sin tener que poner los corchetes? Porque tú no sabes dónde el editor va a poner reconstrucciones o no, tú quieres buscar la palabra \"comitatus\" y ver en qué documentos aparece. Entonces, se suele hacer así, se suele hacer así, o sea, que tú buscas \"comitatus\" y que salgan los resultados de \"comitatus\", pero ojo, que cuando queremos ver el resultado normalmente sí interesa que salgan los corchetes, y fijaos que aquí se empieza a distinguir cosas que se buscan con cosas que se muestran. Mostramos \"comi",[631,636,633],{},"tus\", pero buscamos \"comitatus\". Entonces, bueno, pensad que este tipo de decisiones también pueden despistar al usuario a la hora de buscar.",[21,639,640],{},"Bien, ¿qué otras cosas complican la interpretación de los resultados o pueden dificultar la obtención de resultados en un corpus? Pues, por ejemplo, fragmentos de texto que están en un idioma diferente de la lengua de estudio, por ejemplo, en el CORPES, estos son ejemplos del CORPES, \"y decía I love you en letras doradas\", tenéis ahí otro ejemplo más. ¿Qué se suele hacer con estos fragmentos que están en otra lengua? Bien, aquí hay varias estrategias según el proyecto, yo creo que la más mayoritaria es directamente no permitir búsquedas de esos fragmentos que están en otra lengua, para que los resultados de las búsquedas sean coherentes, a veces es más fácil no etiquetar esos textos, ¿vale? Hay muchos proyectos donde hacen eso. Otra justificación de por qué se suele hacer así es eso, porque mantener coherencia con los elementos gramaticales. Ahora estamos hablando de palabras ortográficas, pero luego vamos a ver cosas relacionadas también con los elementos gramaticales, y cuando estamos en elementos gramaticales, luego matizaré un poquito más esto, pero cuando estamos en elementos gramaticales no es tan fácil etiquetar un texto multilingüe, ¿vale? Hay que tener cuidado con esto, porque si estamos interesados, si sabemos que en un corpus se dice la palabra \"love\" y la buscamos y no sale, que sepáis que puede ser que no salga porque el sistema no permite buscar, no porque el corpus no tenga esa palabra. Bien, entonces en el corpus, si buscas \"you\", obtendrías las palabras, y en cambio en CORGA, por ejemplo, en el Corpus de referencia del gallego actual, no se permiten hacer estas búsquedas, ¿vale? Los textos que están en otras lenguas están excluidos de las búsquedas. Bien, esto en cuanto a palabras ortográficas, ¿vale? Que son las búsquedas más sencillas, estamos buscando palabras ortográficas y tenemos que ser conscientes de que hay estas dificultades.",[21,642,643],{},"¿Qué pasa con los elementos gramaticales? Bueno, como supongo que muchos y muchas de los que veis este vídeo ya sabéis, una palabra ortográfica muchas veces se corresponde con un elemento gramatical, pero no siempre, ¿vale? Podemos definir una palabra ortográfica como la secuencia de letras delimitada por espacios o signos de puntuación, ¿vale? Eso, palabras ortográficas. Y un elemento gramatical lo podemos definir como una unidad con una función específica de la gramática de la lengua. Entonces, ¿qué ocurre? Muchas veces una palabra ortográfica, como vemos ahí, \"perro\", es un elemento gramatical, el sustantivo \"perro\", ¿vale? Ahí hay tres elementos separados por barra, es la palabra ortográfica, la categoría gramatical y el lema, ¿vale? La entrada del diccionario. Bien, pero no siempre es así, como veis ahí hay una palabra ortográfica que es \"decírselo\", que en realidad está agrupando tres elementos gramaticales, un verbo, un pronombre y otro pronombre, ¿vale? Tiene dos pronombres. O la contracción \"del\", también es una palabra ortográfica que tiene dos elementos gramaticales, \"de\" y \"el\", la preposición y el artículo. Y después ocurre, a veces ocurre también, al contrario, que más de una palabra ortográfica dan lugar a un único elemento gramatical. Por ejemplo, \"Juan García\", escrito así con mayúsculas, en muchos sistemas de búsqueda y en muchos proyectos, lo que se trata es \"Juan García\" como un nombre propio, como un único elemento gramatical. También ocurre en algunos proyectos donde se tratan las locuciones, pues que \"sin embargo\", bueno, se etiqueta o se une en un único elemento gramatical que es locución. Y después también un caso particular es que puede haber elementos gramaticales que no vengan de palabras ortográficas, que son los signos de puntuación, ¿vale? Habitualmente los signos de puntuación no se consideran palabras ortográficas, pero sí se consideran elementos gramaticales, ¿vale? Por lo menos en este tipo de sistema de búsqueda, ¿vale? Tipo puntuación: el punto, la coma, las comillas dobles, etcétera. Bien, hasta aquí una explicación breve de qué son los elementos gramaticales y cómo se corresponden con las palabras ortográficas.",[21,645,646],{},"Bien, entonces, para poner un ejemplo, vamos a ver ahora en el corpus ESLORA un ejemplo de búsqueda, que si no tenemos en claro esta correspondencia, pues puede llevarnos a equívocos a la hora de hacer búsquedas, ¿vale? Vamos a ir ahora entonces al corpus ESLORA, ¿vale? Lo tenéis ahí, este es el formulario de búsqueda de ESLORA y vamos a ver, vamos a buscar justo el ejemplo que comentamos antes, \"decírselo\". Si yo busco aquí \"decírselo\", fijaos que estamos en tipo de búsqueda \"palabras ortográficas\", ¿vale? Aquí \"palabras ortográficas\" y \"elementos gramaticales\", nos vamos a centrar solo en eso. \"Decírselo\", \"palabras ortográficas\", bueno, aquí hay, puede ser \"frecuencia simple\" o \"concordancias\", da igual el tipo de resultado, aquí para este ejemplo nos da igual. \"Decírselo\", pues fijaos, aparece ocho veces, aparecen aquí los ejemplos. Supongamos que ahora quiero buscar en elementos gramaticales, \"decírselo\", escribo aquí \"decírselo\" y no aparece nada. Si no tenemos en mente lo que acabamos de explicar, ¿cómo es que no sale \"decírselo\"? Esta forma verbal con clíticos no aparece en el corpus, si vamos aquí directamente, bueno, tenemos que chequearlo, ¿vale? ¿Cómo podemos buscar como elementos gramaticales \"decírselo\"? Bueno, pues como sabemos que tiene tres elementos, podríamos buscarlo con \"decir\", \"se\" y \"lo\", ¿vale? Ahí tenéis los ocho casos, \"decírselo\", ¿vale? ¿Lo veis? Palabras ortográficas, elementos gramaticales. Tenemos que tener cuidado de dónde estamos buscando, porque si no podemos llegar a conclusiones de que no existe una palabra cuando sí, cuando sí existe en realidad.",[21,648,649],{},"Bien, vamos entonces a volver a la presentación y continuamos con más ejemplos de cómo, de más dificultades que pueden, digamos, nublar nuestro juicio o obtener resultados equivocados a la hora de hacer búsquedas. Bien, lo tenemos ahí. Simplemente matizar un poquito más lo que decíamos antes de otra lengua, ¿vale? Qué ocurre con los elementos que están en una lengua diferente del objeto del estudio cuando estamos hablando de elementos gramaticales. Pues suele haber tres opciones. Opción uno, no permitir las búsquedas, ¿vale? Es lo que ocurre, por ejemplo, con el CORGA. Opción dos, permitir búsquedas con etiquetación artificial, es decir, se ponen todas las palabras como extranjerismo, en realidad no estás haciendo etiquetación de la función que cumple ese elemento gramatical en la oración, sino que simplemente lo pones como una etiqueta especial, que es lo que hace el CORPES. Y la opción tres sería permitir búsquedas con etiquetación normal. Es un poco más complejo, donde, bueno, pues con técnicas tradicionales se haría cada fragmento, etiquetarlo con un etiquetador de esa lengua, y bueno, con técnicas de inteligencia artificial también se está experimentando un poco, que viene un poco a facilitar un poco esta tarea. En el caso de ESLORA, por ejemplo, el Corpus de español oral, en este momento se está pasando de la opción uno a la opción tres, ¿vale? En breve van a publicar, seguramente cuando se emita este vídeo ya estará funcionando la aplicación bajo la opción tres, ¿vale? Pero ha estado muchos años trabajando con la opción uno. Bien, propios y locuciones, acordaos que los propios y locuciones son casos donde se unen palabras ortográficas para generar un elemento gramatical, en algunos casos, y los propios y locuciones suelen tratarse de forma especial dependiendo del proyecto.",[21,651,652],{},"Vamos a ver un ejemplo ahora en CORPES para intentar localizar los casos de un topónimo, en este caso, que es Monforte de Lemos, vamos a intentar saber o averiguar cuántos casos hay en el CORPES de ese topónimo, Monforte de Lemos, ¿vale? Vamos a verlo. Bien, tenemos ahí el sistema de búsquedas del CORPES y vamos entonces a buscar Monforte. Primero, Monforte, ¿vale? Buscamos Monforte. Bueno, le he dado aquí a estadísticas, vamos a verlo mejor en concordancias, aquí, más sencillo. Bien, al buscar Monforte, una cosa que nos puede sorprender es que justamente no haya ningún Monforte de Lemos. Fijaos, \"Monforte murió\", \"depresión de Monforte\", \"con Monforte\", \"de Monforte\", ta, ta, ta, ta, ta. Fijaos, no aparece ningún caso aquí de Monforte de Lemos. Tendríamos que sorprendernos un poco, pero vamos a ver, ¿no hay casos de Monforte de Lemos? Claro, si nos acordamos de que Monforte de Lemos es un propio y no varios propios, no está por separado Monforte de y Lemos, a lo mejor es que hay, bueno, a quedaros con que aquí, en Monforte, lo voy a anotar, aparecen ¿cuántos casos? 140, ¿vale? 140 casos. Bien, vamos a buscar ahora Monforte de Lemos, aquí. Aquí lo tenemos, le damos a buscar y fijaos, sí que aparecen casos de Monforte de Lemos, en concreto aparecen 30, 30 casos, ¿vale? Entonces, ¿qué está ocurriendo en la primera consulta? Buscamos Monforte, pero no buscamos Monforte de Lemos, estamos buscando el propio Monforte. ¿Cómo podríamos agrupar las dos en una búsqueda para ver todos los propios de Monforte y Monforte de Lemos? Pues podemos hacer Monforte*, por ejemplo, ¿vale? Ese * dice propios, que empiezan por Monforte y siguen con cualquier otra cosa. Veis que la frecuencia son 177, ¿vale? Teníamos 140 con Monforte y 30 de Monforte de Lemos y resulta que 140 más 30 son 170, no 177, ¿vale? Diréis, pero entonces, ¿de dónde salen esos 7? Bueno, pues ese tipo de cosas las tenéis que hacer cuando estáis investigando sobre una palabra, tenéis que intentar cuadrar las cifras, sobre todo para asegurarnos de que estamos haciendo bien las cuentas, ¿vale? Ahí esos 7 si buscamos es porque salen algunos propios, aunque yo pensaba que, bueno, Monforte y Monforte de Lemos, el propio Monforte es raro que aparezca con otros antropónimos y topónimos, pues sí que hay casos, por ejemplo, a ver si sale por aquí, Monforte del Cid, por ejemplo, ¿veis? Hay algún caso de Monforte que no es Monforte de Lemos, incluso creo que hay alguno que es una errata, bueno, son nueve páginas, las podéis ver vosotros, ¿vale? Hay 7 casos de cosas que empiezan por Monforte que no son Monforte de Lemos y que no son Monforte a secas, ¿vale? Monforte de Cid y había había alguno otro, ¿vale? Pero debéis hacer esas cuentas para eso, insisto, para ver que estamos haciendo bien todos los cálculos, ¿veis?",[21,654,655],{},"Bien, volvemos a la presentación. Otro caso, quizás el más complejo con el que me he encontrado y que puede dar lugar a confusiones, sobre todo si estamos buscando propios, es cuando en un proyecto se anonimizan los propios, ¿vale? Os puedo hablar del caso de ESLORA, que me toca más de cerca porque he participado en el desarrollo de la aplicación de ESLORA, y aquí en ESLORA lo que se ha hecho es que cuando una persona está hablando y dice el nombre de otra persona, lo que se hace en la transcripción es sustituir ese nombre por otro, que puede ser que concuerde en género y número, pero que no sea un nombre real, ¿vale? De esta manera en las transcripciones no está el nombre real que está citando, puede ser un nombre de una persona, un nombre de un lugar, etcétera. ¿Y qué ocurre con esos, qué queremos que pase con esos nombres, con esos propios? Pues no se deben poder buscar por forma ni lema porque son palabras que no ha dicho la persona, son palabras que no están en el corpus, ¿vale? Si dice Luis Fernández y en la transcripción aparece Juan Rodríguez, ese Juan Rodríguez si buscamos Juan no tiene sentido que aparezca, ¿no? Entonces hay que, lo ideal es que esos propios no sean buscables porque son inventados por el transcriptor en este caso. Pero al mismo tiempo sí que deben ser buscables por etiqueta morfosintáctica porque ahí hay un propio. Si yo busco propios, dame un listado de los propios que hay, debería contarse ese propio, aunque sabemos que sea, que sea, digamos, inventado o falso, ¿vale?",[21,657,658],{},"Pues vamos a verlo con un ejemplo en ESLORA, a ver cómo quedaría esto. Vale, enviamos el formulario del caso de antes, entonces vamos a buscar en palabras ortográficas, vamos a buscar \"haciendo propaganda\" y veis que nos sale ahí un ejemplo único que dice \"o al Fogar do Pepe haciendo propaganda ahí o al fogar do Pepe o a los Manolos\". Bueno, ya veis, uno de los recursos que se ha utilizado aquí es pintar de amarillo propios inventados, los propios ficticios, dice, bueno, aparte de eso, dice \"ficticio\" aquí, ¿veis? Entre la información que da dice \"ficticio\". Eso es que es un nombre inventado. Por lo tanto, si yo busco ahora \"Fogar do Pepe\", ahí, perdón, \"Fogar de Pepe\", \"Fogar\", \"de\", \"Pepe\", veis que nos sale. Si no sabéis esto que os estoy contando y buscáis \"Fogar de Pepe\", pero vamos a ver, si dijo \"Fogar de Pepe\" y me salió ahí en ese ejemplo, ¿cómo es que no lo puedo buscar? No lo puedo buscar porque es un nombre propio ficticio. ¿Qué pasa si ahora nos vamos a elementos gramaticales? Pues en elementos gramaticales podemos buscar \"haciendo propaganda\" aquí, \"haciendo\", \"propaganda\", y debería salirnos el caso de antes, ¿vale? Bien, correcto, ¿no? Nos sale. Aquí podemos ver cómo está estructurada en elementos gramaticales esa oración, fijaos, \"Fogar de Pepe\", \"pausa\", \"haciendo propaganda\", veis que \"Fogar de Pepe\" es un único propio, sustantivo propio, y veis que pone ahí \"ficticio\", ¿vale? Y veis que tiene el fondo amarillo para indicarnos que, entre otras cosas, que es ficticio, ¿vale? Vamos a ver si ahora busco, por ejemplo: \"o\", \"a\", \"el\", \"Fogar*\", para ver si sale. Limpio ahí, \"o\", \"a\", \"el\", \"Fogar*\". No sale, ¿veis? No sale, porque Fogar no es un propio que se haya dicho, pero si yo pongo \"o\", \"a\", \"el\", y aquí nombre propio, voy a elegir aquí sustantivo propio, sustantivo propio, estas son las etiquetas morfosintácticas válidas para sustantivo propio, fijaos, \"o\", \"a\", \"el\", y sí que sale Fogar propio, hay cuatro estructuras gramaticales de \"o\" + \"a\" + \"el\" + propio, y aunque Fogar de Pepe está excluido de las búsquedas, fijaos que por etiqueta gramatical sí sale. ¿Veis? Si no sabemos cómo está funcionando esto, podemos llegar a conclusiones, pues desde que no hay tal palabra en un corpus hasta que hasta que el sistema de búsqueda no funciona, etcétera, etcétera, tenemos que ir un poquito más allá, tenemos que ir a investigar un poco cómo funciona cada, bueno, el sistema de búsquedas con el que estamos trabajando.",[21,660,661],{},"Bien, pues ya para concluir, podéis ver que las particularidades técnicas de las aplicaciones pueden afectar a los resultados de las búsquedas, ¿vale? Y es necesario indagar un poco para no llegar a interpretaciones erróneas. Estas particularidades técnicas a veces están en las guías de usuario, pero no siempre, no siempre, pues puede ser por despiste, puede ser porque es bastante complejo explicar esto, puede ser por múltiples causas.",[21,663,664],{},"Entonces, ¿qué os recomendaría yo? Bueno, primero leer las guías del usuario, porque a veces muchos casos de estos los podéis entender viendo las guías del usuario, ¿vale? En algunos casos hay guías de usuario bastante completas, pero no nos gusta leerlas. Siempre es muy, muy importante revisar las concordancias, o sea, cuando hacemos una búsqueda no quedarnos con el número que sale, sino revisar las concordancias para saber si lo que está saliendo allí se corresponde con lo que estamos buscando. No es la primera vez que buscas algo y sale otra cosa, porque no entendemos bien cómo funciona la aplicación. Lo que os comenté antes, contrastar las cifras, intentar hacer las sumas, las restas, ver de dónde salen los números, es importante para ganar en confiabilidad de lo que estamos obteniendo. Y por último, pues si no están en las guías, podéis preguntar a los equipos de trabajo, ¿vale? No soléis preguntar mucho y, bueno, por lo menos en los que nosotros participamos, intentamos contestar a los usuarios siempre en la medida de lo posible. Y bueno, y por supuesto, podéis seguir viendo palabrasbinarias.com, que aquí de vez en cuando tratamos asuntos que atañen a este tipo de búsquedas.",[21,666,667,668,671],{},"Y eso ha sido todo por hoy. Espero que os haya gustado. No os olvidéis de suscribiros a nuestro boletín informativo en la campanita que aparece en ",[46,669,167],{"href":167,"rel":670},[50]," Allí podéis estar pendientes de todo lo que hacemos e incluso recibir algún descuento para los cursos que hacemos. Venga, nos vemos, ¡hasta la próxima!",{"title":105,"searchDepth":106,"depth":106,"links":673},[674,675,676],{"id":18,"depth":106,"text":19},{"id":55,"depth":106,"text":56},{"id":69,"depth":106,"text":70},"¿Qué ocurre cuando hacemos búsquedas de palabras ortográficas y elementos gramaticales? ¿Las estamos haciendo bien? ¿Se nos está pasando algo? En este vídeo tratamos estas cuestiones y te damos algunos consejos prácticos para mejorar tus consultas y evitar errores.","/media/palabras_binarias_aplicaciones_busqueda_corpus.png",{},21,"/articles/2025-11-12-como-funcionan-las-aplicaciones-de-busqueda-en-corpus","2025-11-12T18:30:00.000Z",{"title":570,"description":677},"articles/2025-11-12-como-funcionan-las-aplicaciones-de-busqueda-en-corpus",[486,125,128,686,687,688,689,690,691,566],"Lingüística de corpus","Lingüística computacional","ESLORA","CORGA","CODOLGA","CORPES","YLZHf6aMmQBqHj-Via6k0dBGj9SwtLo5ZQFYr23FYHc",{"id":694,"title":695,"author":7,"body":696,"description":790,"entity":112,"extension":113,"image":791,"imageOnContent":115,"language":116,"meta":792,"navigation":118,"number":793,"path":794,"promoted":115,"published":795,"seo":796,"stem":797,"tags":798,"translation":130,"type":130,"__hash__":804},"articles/articles/2025-10-08-reconocimiento-de-escritura-con-chatgpt.md","Reconocimiento de escritura con ChatGPT: de PDF a imágenes",{"type":9,"value":697,"toc":785},[698,701,703,713,716,727,730,732,741,743,746,749,752,755,758,761,764,767,775,782],[12,699],{"url":700},"https://www.youtube.com/watch?v=GsmEJCasX6I",[16,702,19],{"id":18},[21,704,705,706,709,710,712],{},"¿Se puede usar ChatGPT para hacer reconocimiento de escritura manuscrita?",[707,708],"br",{},"\nLa respuesta corta: todavía no funciona con PDFs directamente.",[707,711],{},"\nLa buena noticia: sí puedes lograrlo convirtiendo tu PDF a imágenes, y en este vídeo te muestro cómo hacerlo paso a paso.",[21,714,715],{},"🎓 Aprenderás:",[28,717,718,721,724],{},[31,719,720],{},"Qué limitaciones tiene ChatGPT con los archivos PDF.",[31,722,723],{},"Cómo convertir un PDF con escritura manuscrita en imágenes.",[31,725,726],{},"Cómo usar esas imágenes con ChatGPT para obtener el texto digitalizado.",[21,728,729],{},"Este truco es útil para lingüistas, investigadores y cualquier persona que quiera analizar manuscritos con inteligencia artificial.",[16,731,56],{"id":55},[28,733,734],{},[31,735,736,737],{},"Aprendiendo a usar el Terminal: taller práctico para lingüistas: ",[46,738,739],{"href":739,"rel":740},"https://www.palabrasbinarias.com/workshops/2024-04-10-taller-online-aprendiendo-a-usar-el-terminal",[50],[16,742,70],{"id":69},[21,744,745],{},"¿Sabíais que se puede utilizar ChatGPT para hacer reconocimiento de escritura? ¿Lo que también se llama hacer OCR o Reconocimiento Óptico de Caracteres? Es decir, le podemos pasar un documento escaneado de algo escrito a mano y que él nos transcriba o nos digitalice el documento para que luego lo podamos editar en un editor de texto normal. En este vídeo no sólo vamos a ver cómo hacerlo, sino que además vamos a contar un pequeñito problema que tiene mucha gente cuando lo intenta. Vamos a verlo.",[21,747,748],{},"Bien, vamos a ver entonces cómo lo hacemos. Tengo aquí un fichero PDF, que se llama texto_manuscrito.pdf, veis, que es un escaneado de un documento escrito a mano. Pone: \"Nombre: Fernando González Rodríguez, Redacción, Esto es una prueba de texto manuscrito para ver si ChatGPT puede transcribir esto bien.\" Bien, entonces vamos a abrir ChatGPT.",[21,750,751],{},"Aquí tengo la versión de pago, ChatGPT 5, que acaba de salir hace unas pocas semanas, pero con la versión gratuita esto funcionaría. ¿Cuál es el problema? Que a la gratuita cuando le pasas varios ficheros ya te dice que sigas al día siguiente, o dentro de dos días, o lo que sea. ¿Vale? Pero funcionar funciona exactamente igual que como lo como lo vais a ver ahora, en la versión gratuita.",[21,753,754],{},"Y entonces lo que le vamos a decir es: \"Transcríbeme, transcribe el contenido del siguiente texto\". ¿Vale? Y le vamos a pasar este PDF, el texto manuscrito. Fijaos, no se ha podido extraer ningún texto de este archivo. Muchas personas llegan a este problema y dicen pues ChatGPT no puede hacer esto. Vale, lo curioso del tema, y si experimentáis un poco más, podréis ver que si yo ese archivo se lo paso en formato .jpg, veis que aquí tengo el mismo contenido, pero esto es una imagen, no es un PDF, es una imagen. Ahora le voy a pasar el .jpg. Veis que no da el error y vamos a ver si hace la tarea. Fijaos: \"Aquí tienes la transcripción del texto: Nombre Fernández González Rodríguez, redacción, Esto es una prueba de texto manuscrito para ver si ChatGPT puede transcribir esto bien\". ¿Veis? Le paso el pdf, no funciona. Le paso el .jpg, sí funciona.",[21,756,757],{},"¿Qué pasa? Que algunos PDFs, si no son manuscritos, por ejemplo, tengo aquí otro que es texto tecleado. Veis que es un texto que es texto digital, no está manuscrito. Si yo le digo la misma tarea, le digo: \"Hazme, haz lo mismo para este otro fichero\". Si yo le paso el texto tecleado, veis que lo hace. No dio el error al subirlo y nos hace la transcripción. ¿Vale? Lo hace bien también. Entonces, decir, \"Ah, es que con algunos funciona y con otros no\". No, el tema es, si queremos que nos haga reconocimiento de escritura, tenemos que pasarle .jpg, si es un documento que ha sido mecanografiado, es probable que funcione directamente, sin tener que pasarlo a imagen. ¿Vale? No sé por qué no acaban de hacer que pueda funcionar con PDF, desconozco el problema técnico, supongo que en algún momento lo acabarán solucionando. Pero por ahora, incluso en ChatGPT 5, tenéis este problema.",[21,759,760],{},"Bien, la calidad del reconocimiento puede variar. ¿Vale? A veces, bueno, inventa alguna cosa, algún signo de puntuación... Esa transcripción, según para qué lo queráis, pues puede ser, es necesaria una revisión. ¿Vale? No lo va a hacer perfecto al 100%.",[21,762,763],{},"Y algunos os preguntaréis, ¿vale, y si tengo un PDF manuscrito, entonces ahora cómo lo paso a .jpg? Bueno, la manera más sencilla que encontré yo de hacerlo en Windows es con el LibreOffice. ¿Vale? Instaláis LibreOffice, porque es que la versión de Acrobat, la versión gratuita, ahora ya no tiene esta opción de exportar. Necesitas la licencia de la Pro para poder exportar a imágenes. Si lo tenéis, perfecto, pero si no lo tenéis y no queréis pagar la licencia, con el LibreOffice, si tú, si nosotros abrimos aquí ahora, Abrir archivo, abrimos texto_manuscrito.pdf, veis aquí, tenemos el fichero y le podemos decir Archivo, Exportar y aquí seleccionamos .jpg o .png o alguno de imagen. Voy a poner .jpg aquí, .jpg, le digo Guardar. Espera, que no me lo reemplace, le voy a poner otro nombre para que veamos que, porque este ya lo tenía yo de antes, le voy a poner el 2. Nos pregunta si queremos modificar la resolución, aquí lo importante es que la calidad esté al 100%, la resolución supongo que os la pondrá bien, la calidad es bueno que esté a tope para que, para facilitar, para que no esté pixelado, facilitarle a ChatGPT que pueda reconocer bien la escritura. Bien, ves que lo ha exportado aquí a .jpg perfectamente.",[21,765,766],{},"¿Que tenéis un fichero con varias páginas? Pues tenéis que ir, perdón, si lo abrís con el LibreOffice, abrimos ahora este texto manuscrito con dos páginas, si queréis exportar la primera, la seleccionáis aquí y hacéis la exportación y vais exportando página a página. Yo no tengo un sistema aquí, una aplicación en Windows, no conozco una que nos lo puede hacer automáticamente.",[21,768,769,770,774],{},"Algunos me diréis, yo conozco un servicio online que me lo hace así, todo, todo, le paso los ficheros y me devuelven las imágenes. Sí, pero tenéis que tener cuidado porque estáis poniendo los ficheros en una plataforma online que no sabéis qué van a hacer con los ficheros. Si tenéis ahí datos de carácter personal, tened cuidado. Si queréis trabajar con muchos ficheros, hacer esto con muchos ficheros o con PDFs que tengan muchas páginas, os recomiendo que hagáis nuestro curso de ",[46,771,773],{"href":739,"rel":772},[50],"Aprendiendo a usar el Terminal",", que es un curso práctico para lingüistas donde aprendéis a manejar el Terminal, la pantallita negra esa, y con un comando, metéis todos los PDFs en una carpeta y ejecutáis un comando y os va generando todas las páginas de todos los PDFs simplemente de una tacada. Y allí tengo un ejemplo sobre cómo, en el taller, tenemos un ejemplo sobre cómo hacer esto, cómo hacerlo con un comando.",[21,776,777,778,781],{},"O sea, que si lo tenéis que hacer puntualmente para un fichero, lo podéis hacer así. Si lo queréis hacer con muchos ficheros de una tacada y no queréis utilizar un servicio online, os recomiendo ese curso donde lo podéis hacer de esta manera. El taller ",[46,779,773],{"href":739,"rel":780},[50]," lo tenéis disponible en la sección de talleres de palabrasbinarias.com. Y creo que estaría todo. Básicamente, veis que se puede hacer reconocimiento de escritura con ChatGPT y tened cuidado de no pasarle el PDF cuando es texto manuscrito, porque se lía. No sé muy bien por qué, pero se lía.",[21,783,784],{},"Vale, venga, chao.",{"title":105,"searchDepth":106,"depth":106,"links":786},[787,788,789],{"id":18,"depth":106,"text":19},{"id":55,"depth":106,"text":56},{"id":69,"depth":106,"text":70},"¿Se puede usar ChatGPT para hacer reconocimiento de escritura manuscrita? La respuesta corta: todavía no funciona con PDFs directamente. La buena noticia: sí puedes lograrlo convirtiendo tu PDF a imágenes, y en este vídeo os mostramos cómo hacerlo paso a paso.","/media/palabras_binarias_reconocimiento_de_escritura_con_chatgpt.png",{},20,"/articles/2025-10-08-reconocimiento-de-escritura-con-chatgpt","2025-10-08T17:00:00.000Z",{"title":695,"description":790},"articles/2025-10-08-reconocimiento-de-escritura-con-chatgpt",[125,128,566,799,800,801,802,803],"Inteligencia Artificial","IA","LibreOffice","ChatGPT","PDF","DGg_w2T-lO2pwqWPvv9eDC7YvG2969eMC7is6Dp9WoU",{"id":806,"title":807,"author":7,"body":808,"description":863,"entity":112,"extension":113,"image":864,"imageOnContent":115,"language":116,"meta":865,"navigation":118,"number":866,"path":867,"promoted":115,"published":868,"seo":869,"stem":870,"tags":871,"translation":130,"type":130,"__hash__":874},"articles/articles/2025-09-17-eliminar-informacion-confidencial-pdf-macos.md","Cómo eliminar información confidencial de un PDF en MacOS",{"type":9,"value":809,"toc":859},[810,813,815,818,836,838,840,848,851,854,857],[12,811],{"url":812},"https://www.youtube.com/watch?v=NSzzJyju-hc",[16,814,19],{"id":18},[21,816,817],{},"En este vídeo puedes ver cómo eliminar información confidencial de un PDF en MacOS en 5 sencillos pasos:",[819,820,821,824,827,830,833],"ol",{},[31,822,823],{},"Abrir el documento en Preview (Vista previa).",[31,825,826],{},"Pinchar en el \"lapicito\" (Barra de herramientas de marcación)",[31,828,829],{},"Pinchar en \"ocultar\".",[31,831,832],{},"Seleccionar la region a eliminar.",[31,834,835],{},"Guardar el documento.",[16,837,70],{"id":69},[21,839,614],{},[21,841,842,843,847],{},"Hoy vamos a ver ",[844,845,846],"strong",{},"cómo ocultar información dentro de un documento PDF utilizando la aplicación Preview (\"Vista Previa\") de MacOS",". En el último vídeo hemos visto cómo hacer esto con la versión gratuita de Acrobat Reader, que vale tanto para MacOS como para Windows, pero con la aplicación Preview que viene en MacOS por defecto es mucho más sencillo de hacer. Así que vamos a ver cómo se puede hacer de esta manera.",[21,849,850],{},"Bien, voy a abrir aquí un documento con la aplicación Preview, tenéis ahí, tengo un documento en el que quiero borrar, por ejemplo, estos apellidos, y aquí en el lapicito, aquí en el cuadrado que dice ocultar, fijaos que nos hace una advertencia: \"El contenido ocultado se eliminará y no podrás deshacer esta acción, todo el contenido que marques para ocultar se eliminará definitivamente cuando se cierre el documento\". Entonces si le damos aquí, generamos el cuadrado para ocultar, nos hace esto y le decimos Guardar. Y ya estaría.",[21,852,853],{},"Si ahora abrimos el documento vemos que nos sale así y esto no se puede, este apartado negro no se puede borrar. Si lo abrimos con el Acrobat, voy a intentar abrirlo con el Acrobat para comprobar lo mismo, veis que aquí, nada, me da opciones pero que no me deja borrar. ¿Veis?, es mucho más sencillo que el apaño este del Acrobat gratuito que vimos en el vídeo anterior. Los que tengáis MacOS es mejor que lo hagáis con Preview, ya veis que es mucho más intuitivo, los que tengáis Windows pues el último vídeo hemos visto cómo hacerlo con la versión gratuita de Acrobat. Si ya tenéis la versión de pago pues será igual de sencillo que el Preview y no necesitáis hacer esos dos pasos que comentamos en el otro vídeo.",[21,855,856],{},"Bueno, pues ya estaría, espero que os haya gustado el vídeo, recordad que tenéis una campanita en nuestra web, palabrasbinarias.com, en la que os podéis suscribir a nuestro boletín donde os avisamos cada vez que publicamos algo, organizamos algún curso e incluso también os mandamos algún código de descuento de vez en cuando para los cursos que vamos haciendo. Venga, nos vemos en el próximo vídeo.",[21,858,256],{},{"title":105,"searchDepth":106,"depth":106,"links":860},[861,862],{"id":18,"depth":106,"text":19},{"id":69,"depth":106,"text":70},"En este vídeo puedes ver cómo eliminar información confidencial de un fichero PDF en MacOS empleando la aplicación Preview (Vista Previa), la aplicación que ya viene preinstalada en el sistema operativo.","/media/palabras_binarias_eliminar_informacion_confidencial_pdf_macos.png",{},19,"/articles/2025-09-17-eliminar-informacion-confidencial-pdf-macos","2025-09-17T17:00:00.000Z",{"title":807,"description":863},"articles/2025-09-17-eliminar-informacion-confidencial-pdf-macos",[125,128,566,872,873,803],"Vista Previa","Preview","LjzBUziFK1t-0SVRNMVskpHk7YiK4Amv0_Y9pAhQHjo",{"id":876,"title":877,"author":7,"body":878,"description":924,"entity":112,"extension":113,"image":925,"imageOnContent":115,"language":116,"meta":926,"navigation":118,"number":927,"path":928,"promoted":115,"published":929,"seo":930,"stem":931,"tags":932,"translation":130,"type":130,"__hash__":934},"articles/articles/2025-09-02-como-ocultar-informacion-sensible-en-un-pdf-gratis-con-adobe-acrobat-reader.md","Cómo ocultar información sensible en un PDF gratis con Adobe Acrobat Reader",{"type":9,"value":879,"toc":920},[880,883,885,888,890,892,903,906,909,912,915,918],[12,881],{"url":882},"https://www.youtube.com/watch?v=cktEqagQwKI",[16,884,19],{"id":18},[21,886,887],{},"¿Cómo podemos hacer para anonimizar un PDF?, ¿se puede ocultar contenido de un PDF usando la versión gratuita de Adobe Acrobat Reader? Te contamos el truco para hacer todo esto en el vídeo.",[16,889,70],{"id":69},[21,891,614],{},[21,893,894,895,898,899,902],{},"En este vídeo lo que vamos a hacer es ver ",[844,896,897],{},"cómo eliminar información sensible de documentos PDF"," y vamos a utilizar para ello la ",[844,900,901],{},"versión gratuita de Adobe Acrobat Reader",". A menudo en algunos proyectos de construcción de corpus o de otro tipo de proyectos necesitamos eliminar información sensible de documentos PDF, como puede ser el nombre y apellidos de alguna persona, DNIs, etcétera. Entonces lo que vamos a hacer en este vídeo es cómo poder hacerlo con Acrobat Reader pero sin tener la versión de pago. De acuerdo, vamos a verlo con la versión gratuita. Venga, vamos allá.",[21,904,905],{},"Bien, vamos ahí. Acabo de abrir aquí un PDF con el Acrobat Reader. Aunque estoy en MacOS esto que voy a hacer funciona tanto en MacOS como como en Windows. Eso sí, en MacOS hay una manera mejor de hacerla, que lo vamos a ver en un próximo vídeo, pero por ahora para hacerlo con Acrobat Reader lo tenéis aquí. La opción natural de hacerlo en Acrobat Reader es con una opción que tienen por aquí que se llama \"Censurar un PDF\". De acuerdo, tenemos aquí censurar un PDF pero veis que nos pide el Acrobat Pro. Si tenéis el Acrobat Pro lo podéis hacer mucho más sencillo.",[21,907,908],{},"Pero lo que os quería contar aquí es un truquillo para hacerlo con la versión gratuita. Que es aquí en la opción de dibujar, que normalmente sale así, ponéis aquí un rectángulo y le decís aquí pues que tanto el relleno como el borde lo ponéis en negro, o bueno, el color que queráis hacer para tapar eso, yo lo voy a poner aquí en negro, opacidad al 100% y el borde también en negro, ¿de acuerdo? Esto nos va a permitir seleccionar un rectángulo que tape el nombre. Si ahora le damos a Guardar, y nos creemos que ya está hecho, la respuesta es que no. De acuerdo, esto lo que ha hecho es dibujar un rectángulo encima de lo que tenemos, pero está por encima, no es que sobreescribiera lo que tenemos. De acuerdo, si esto lo abrimos, yo lo voy a abrir aquí con otro programa, por ejemplo, voy a abrir este documento que acabo de editar, lo voy a abrir aquí con otro programa, ¿vale?, no es el Acrobat, es otro. Yo puedo elegir el rectángulo, borrarlo y tengo acceso al nombre. Entonces lo que queremos hacer es que esto no se pueda hacer, queremos que realmente se anonimize, se elimine la información sensible. De acuerdo, he visto en muchos sitios donde se intenta anonimizar y lo que se ha hecho es pintar un cuadrado delante y eso no elimina la información que está detrás.",[21,910,911],{},"Vale, entonces, ¿cómo tenemos que hacer esto? Pues una vez hemos guardado el documento, una vez que está aquí guardado, si lo muevo un poquito esto aquí, Archivo, Guardar, ¿vale?, guardamos el documento. Bien, ahora lo que tenemos que hacer es abrir el fichero que acabamos de guardar con el Google Chrome, ¿vale?, pues podéis abrir el Chrome y darle a abrir o podéis directamente pinchar con el botón derecho sobre el fichero y decirle que os lo abra en el Chrome, ¿vale?, lo tengo aquí abierto con el Chrome. Y aquí ahora le decimos Imprimir, y en Imprimir aquí me sale una opción que es guardar como PDF, ¿vale?, en Windows sale también Impresora Windows PDF o algo así, de acuerdo, entonces lo que hacemos es que la impresión sea sobre un fichero, que lo guarde en un fichero PDF, ¿vale?, ahora le decimos documento2.pdf por ejemplo, el otro se llamaba documento a secas, ¿vale?",[21,913,914],{},"Entonces, ¿qué diferencia hay entre el documento y documento 2? El documento es un PDF al que se le ha pintado un cuadrado por encima, el documento 2 es un documento PDF que ha reemplazado el contenido de lo que queremos anonimizar por un cuadrado negro, si ahora yo abro el documento 2.pdf con el otro programa que tenía aquí y clico en el cuadrado veis que no lo puedo elegir y borrar, ¿de acuerdo? Eso es porque está correctamente anonimizado. Si yo me voy al documento original y lo abro, al documento.pdf, yo sí que puedo elegir esto y borrarlo. Lo podéis hacer con el propio Acrobat, por ejemplo, al documento.pdf lo voy a abrir con el Acrobat, bueno, ya lo tengo aquí, pero lo voy a cerrar. Voy a abrir el primer documento con el Acrobat, lo tenemos aquí, ¿vale?, yo puedo clicar esto y hacerlo desaparecer, por lo tanto, la información sensible sigue estando ahí. Voy a abrir ahora en el Acrobat el documento que ha resultado de darle a Imprimir en un PDF, ¿vale?, es este otro, documento 2, elijo aquí, clico en el cuadrado y veis que no puedo seleccionar nada, como que quiere que escriba algo, lo que sea, pero no puedo elegir ese cuadrado, no lo puedo borrar, ¿de acuerdo? Esto es un truquillo para anonimizar el contenido de los PDFs sin utilizar la versión de pago, utilizando la versión gratuita de Acrobat Reader.",[21,916,917],{},"Bien, y ya estaría por hoy, espero que os haya gustado, en el próximo vídeo vamos a ver una forma de hacerlo en MacOS de una manera un poco más sencilla, ya que el programa Preview de MacOS ya permite hacer esto de una manera un poco más natural. Recordad que tenéis en nuestra web palabrasbinarias.com una campanita donde os podéis suscribir a nuestro boletín informativo donde os informamos de todas las cosas que estamos haciendo. Nos vemos en el próximo vídeo.",[21,919,256],{},{"title":105,"searchDepth":106,"depth":106,"links":921},[922,923],{"id":18,"depth":106,"text":19},{"id":69,"depth":106,"text":70},"¿Cómo podemos hacer para anonimizar un PDF? ¿Se puede ocultar contenido de un PDF usando la versión gratuita de Adobe Acrobat Reader? Te contamos el truco para hacer todo esto en el vídeo.","/media/palabras_binarias_como_ocultar_informacion_sensible_en_un_pdf_gratis_con_acrobat_reader.png",{},18,"/articles/2025-09-02-como-ocultar-informacion-sensible-en-un-pdf-gratis-con-adobe-acrobat-reader","2025-09-03T17:00:00.000Z",{"title":877,"description":924},"articles/2025-09-02-como-ocultar-informacion-sensible-en-un-pdf-gratis-con-adobe-acrobat-reader",[125,128,566,933,803],"Acrobat Reader","UXYWx6ai1_Sd6cSdnPeTQsPTEs9cWLQbiSWImiFROvI",{"id":936,"title":937,"author":7,"body":938,"description":947,"entity":112,"extension":113,"image":1008,"imageOnContent":115,"language":116,"meta":1009,"navigation":118,"number":1010,"path":1011,"promoted":115,"published":1012,"seo":1013,"stem":1014,"tags":1015,"translation":130,"type":130,"__hash__":1016},"articles/articles/2025-06-25-extraer-paginas-pdf-sin-acrobat-reader.md","Cómo extraer las páginas de un PDF sin usar Acrobat Reader",{"type":9,"value":939,"toc":1003},[940,943,945,948,950,957,959,962,965,968,971,974,977,980,983,986,989,992,995,998,1001],[12,941],{"url":942},"https://www.youtube.com/watch?v=cgKr0FoKSBE",[16,944,19],{"id":18},[21,946,947],{},"En este vídeo te enseñamos a extraer cada una de las páginas de un fichero PDF a un fichero independiente, tanto en MacOS como en Windows, sin necesidad de pagar licencias adicionales.",[16,949,56],{"id":55},[28,951,952],{},[31,953,736,954],{},[46,955,739],{"href":739,"rel":956},[50],[16,958,70],{"id":69},[21,960,961],{},"Bienvenidos y bienvenidas a una nueva entrega de Palabras Binarias: Informática para lingüistas. Ya sabéis que aquí os podéis informar sobre cuestiones relacionadas con la lingüística de corpus, la lingüística computacional, la inteligencia artificial y la informática\nen general.",[21,963,964],{},"Hoy os traemos una cuestión que nos ha surgido en varios proyectos en los que estamos trabajando, que consiste en ver cómo extraer las\npáginas de un PDF sin utilizar Acrobat Reader. No es que le tengamos manía al Acrobat Reader, pero es que la versión gratuita de este programa ya no permite realizar esta tarea. Entonces, lo que hemos estado buscando son maneras alternativas de hacerlo sin tener que pagar una licencia para hacerlo.",[21,966,967],{},"Así que vamos a verlo primero en MacOS y segundo en Windows. ¿Cómo podemos hacer esto? Insisto, se trata de extraer página a página, cada una de las páginas a un fichero independiente, de un fichero PDF que tiene varias páginas.",[21,969,970],{},"Bien, vemos ahí que tenemos un fichero PDF, que voy a abrir simplemente haciendo doble clic en MacOS, y simplemente esto lo que hace es abrir el programa Preview de MacOS. Tenemos aquí, vamos a ponerlo así un poco grande, ahí vamos, tenemos aquí tres páginas, página 1, página 2 y página 3. Bien, lo voy a poner un poco más pequeño y voy a dejar aquí a la vista el, bueno, el Finder, el sistema de\nnavegación de ficheros de MacOS.",[21,972,973],{},"Tenemos aquí el PDF que ha abierto con Preview. Bien, pues aquí le decimos que nos muestre en miniatura a la izquierda, en Visualización, Miniaturas, si activamos esto y nos salen cada una de las páginas a la izquierda, lo veis ahí, pues simplemente es muy sencillito, con hacer esto, coger una página y arrastrar, lo que nos hace es generar un pdf con esa página, otra página y arrastrar. Tres páginas, página 3, arrastrar. Veis que hay tres PDFs, la primera tiene, lo vamos a ver ahora, la primera página, la segunda tiene, debería tener la segunda página, y la tercera tiene la tercera página. Incluso en este caso también es flexible, si queremos exportar la primera y la segunda a un fichero nuevo, podemos elegir con... bueno, utilizando o la tecla de comando o la tecla de mayúsculas, podemos coger varias páginas juntas y arrastrándolas, pues también nos crea un PDF con dos páginas, vamos a ver si lo hace bien, efectivamente, fijaos, un PDF con dos páginas, ¿de acuerdo?",[21,975,976],{},"Bueno, veis que en MacOS esta operación es muy sencillita, es abrir el PDF, activar las miniaturas y arrastrar. En Windows la cosa se ha complicado porque el programa que solemos utilizar para esto es el de Acrobat Reader, para este tipo de cosas de PDFs, y vamos a ver ahora un momentito cómo esta operación no se puede hacer allí y simplemente te dicen que pagues la versión de pago, que pagues la licencia. Entonces vamos a ver si hay alguna manera en que lo podamos hacer sin tener que pagar la licencia del Acrobat, ¿de acuerdo?\nVenga, pues vamos ahora con la segunda parte.",[21,978,979],{},"Bien, vamos a ver ahora entonces en Windows cómo podemos hacer esto. Vemos que tenemos aquí el mismo fichero y si yo lo abro y tengo el Acrobat, el Adobe Acrobat instalado, probablemente me lo abra con él, ¿de acuerdo? Entonces, la manera que tiene Acrobat de hacer lo mismo que hemos hecho con el Preview de MacOS es aquí en Organizar páginas, ¿veis? En esta parte, si tenéis la versión de pago, es muy fácil, tenéis varios vídeos en internet donde os explican fácilmente cómo se seleccionan las páginas y las podéis exportar de una manera muy parecida, no es arrastrando, pero al seleccionar las páginas os sale un botoncito de convertir, perdón, de exportar las páginas y ya estaría.",[21,981,982],{},"Pero, ¿qué pasa si no queremos o no podemos pagar el Acrobat Pro? Pues, lo que se nos ha ocurrido, en primer lugar, es que ahora Windows trae una impresora que es impresora PDF, entonces lo que podemos hacer es... Lo que hace esa impresora es que cuando mandamos algo a esa impresora ficticia, lo que hace es generar un PDF con lo que queremos imprimir. Entonces, lo que podemos hacer es ir aquí a Imprimir y le decimos, elegimos la impresora de Microsoft Print to PDF, ¿vale? Elegimos la página, página 1, imprimir y ahora nos preguntará el fichero, ¿vale? Pues pongo aquí página 1. Bien, ahora, Imprimir, Print to PDF, páginas, página 2, ¿vale? Y vamos así imprimiendo cada una de las páginas. Y voy con la última, página 3. Vale, y ahora tenemos aquí página 3, vamos a comprobar que lo ha hecho bien, cerramos aquí, las tengo aquí en el escritorio, página 1, vamos a ver si tiene la página 1, sí, perfecto, página 2, también, y página 3, la tercera página, ¿vale?",[21,984,985],{},"Veis que lo hemos hecho con el Acrobat, pero con la impresora de Windows. He visto algunos ordenadores donde el propio Acrobat no te deja elegir, al darle a imprimir no te deja elegir esa impresora PDF de Windows. De ahí viene el título del vídeo, cómo hacerlo sin el Acrobat, pero lo que se puede hacer en esos casos, si veis que en la impresora no podéis elegir esa impresora de PDF de Windows, otra forma de hacerlo, de manera similar a como lo hemos hecho, es abrir el documento, en lugar de abrirlo con el Acrobat, lo vamos a abrir con el Chrome y hacemos la misma operación, veis, le damos a imprimir y aquí sí os debería aparecer siempre, bueno, Microsoft Print como PDF o directamente guardar como PDF, nos deja, cualquiera de las dos nos funcionaría en este caso, vale, página por hoja, páginas, pues la página 1, guardar, y aquí pues ponemos, estamos en Descargas, lo voy a poner en el escritorio, ponemos aquí, página 1b, con el Chrome, imprimir, volvemos a darle aquí, personalizado, la página 2, vale, y lo ponemos así, página 2b, ¿vale?",[21,987,988],{},"Veis que, bueno, sin el Acrobat lo podríamos hacer igual, con el Chrome abrimos el PDF y vamos imprimiendo cada una de las páginas en un fichero independiente. Estas maneras de extraer las diferentes páginas de un PDF están muy bien pero sigue siendo bastante manual el proceso, tanto en MacOS como en Windows es bastante manual. Está muy bien para extraer las páginas de un PDF que tenga pocas páginas o de unos poquitos PDFs que tengan pocas páginas, pero si queremos hacer esto sobre ficheros que tienen muchas páginas o sobre muchos ficheros, pues nos llevaría una eternidad.",[21,990,991],{},"Si lo queréis automatizar un poco, os recomiendo que hagáis nuestro taller titulado \"Aprendiendo a usar el Terminal\", donde hay una sección nueva allí, donde tenemos, bueno, \"Terminal para el día a día\", donde describimos unos comandos que nos permiten hacer esto automáticamente para un conjunto enorme de PDFs. Ponemos todos los PDFs en una carpeta, ejecutamos el comando y ya nos hace el comando todo el trabajo, no tenemos que estar nosotros haciéndolo uno por uno.",[21,993,994],{},"Y para los que estéis pensando que hay herramientas online que te hacen esto, simplemente tened en cuenta que si vuestro PDF no tiene datos de carácter personal no es un problema, pero pensad que si a lo mejor tenéis algún tipo de información sensible en esos PDFs, pues igual no es legal o recomendable subir los PDFs a una plataforma online, porque no sabemos muy bien qué va a hacer la empresa con esos datos, ya que nos está ofreciendo ese servicio gratuitamente Con esto que contamos en el Terminal, la operación se hace en nuestro ordenador, no la enviamos a ningún otro servicio.",[21,996,997],{},"Por lo tanto, bueno, os dejo ahí la recomendación de que le echéis un ojo al contenido del curso del Terminal y veréis que ahí hay una sección nueva donde, bueno, entre otras cosas hacemos esta exportación de las diferentes páginas de cualquier número de PDFs.",[21,999,1000],{},"Bueno y eso ha sido todo por hoy, espero que os haya gustado. Nos vemos en la próxima entrega.",[21,1002,256],{},{"title":105,"searchDepth":106,"depth":106,"links":1004},[1005,1006,1007],{"id":18,"depth":106,"text":19},{"id":55,"depth":106,"text":56},{"id":69,"depth":106,"text":70},"/media/extraer_paginas_pdf.png",{},17,"/articles/2025-06-25-extraer-paginas-pdf-sin-acrobat-reader","2025-06-25T10:30:00.000Z",{"title":937,"description":947},"articles/2025-06-25-extraer-paginas-pdf-sin-acrobat-reader",[125,128,566,933,803],"qZ2D2AluHTTcxRjsgH0YlrE2fQZUoU8y975ORKooWH4",{"id":1018,"title":1019,"author":7,"body":1020,"description":1428,"entity":112,"extension":113,"image":1429,"imageOnContent":118,"language":116,"meta":1430,"navigation":118,"number":1431,"path":1432,"promoted":115,"published":1433,"seo":1434,"stem":1435,"tags":1436,"translation":130,"type":130,"__hash__":1439},"articles/articles/2025-04-03-coapariciones_mi.md","Uso de la información mutua para detectar coapariciones",{"type":9,"value":1021,"toc":1421},[1022,1050,1063,1069,1080,1087,1090,1122,1128,1132,1135,1141,1143,1178,1187,1194,1205,1217,1223,1226,1232,1235,1247,1253,1259,1262,1268,1279,1283,1293,1299,1306,1309,1332,1338,1342,1352,1372,1376,1390,1392],[21,1023,1024,1025,1032,1033,1036,1037,1040,1041,1049],{},"Una ",[844,1026,1027],{},[46,1028,1031],{"href":1029,"rel":1030},"https://www.rae.es/gtg/coaparici%C3%B3n",[50],"coaparición"," (a menudo denominada también \"colocación\", de la adaptación del término inglés ",[443,1034,1035],{},"collocation",") es una ",[844,1038,1039],{},"combinación de palabras restringidas semánticamente que suelen coexistir en un idioma con una frecuencia mayor a lo que cabría esperar del puro azar"," y que, desde un punto de vista semántico, ",[844,1042,1043,1044],{},"expresan un significado ",[46,1045,1048],{"href":1046,"rel":1047},"https://www.rae.es/gtg/composicionalidad",[50],"composicional",". Estas combinaciones pueden ocurrir, por ejemplo, entre nombres y adjetivos (\"silencio incómodo\", \"dolor agudo\", \"viento frío\", \"mirada penetrante\"), entre verbos y adverbios (\"correr rápidamente\", \"esperar pacientemente\"), entre nombres y verbos (\"tomar medidas\", \"ganar tiempo\") o entre nombres (\"una taza de café\", \"un ramo de flores\").",[21,1051,1052,1053,1058,1059,1062],{},"Por otra parte, cuando trabajamos con ",[46,1054,1057],{"href":1055,"rel":1056},"https://www.palabrasbinarias.com/articles/2022-04-26-que-es-un-corpus",[50],"corpus lingüísticos",", una tarea que resulta de interés en investigación es tratar de ",[844,1060,1061],{},"identificar y estudiar estas coapariciones",". Esto nos ayuda a entender mejor cómo funciona realmente un idioma en situaciones auténticas y qué combinaciones de palabras son típicas o frecuentes.",[21,1064,1065,1066,253],{},"Existen varias maneras de detectar coapariciones en un corpus. Algunas se basan simplemente en contar cuántas veces dos palabras aparecen juntas. Sin embargo, este método tiene limitaciones: por ejemplo, combinaciones frecuentes de palabras como \"gato blanco\" o \"libro nuevo\" podrían aparecer con relativa frecuencia simplemente porque ambas palabras son comunes, pero esto no implica necesariamente que sean coapariciones auténticas o significativas en términos semánticos. Otros métodos utilizan cálculos más sofisticados que intentan medir no solo la frecuencia, sino también ",[844,1067,1068],{},"la fuerza de la asociación entre palabras",[21,1070,1071,1072,1075,1076,1079],{},"Uno de estos métodos consiste en calcular el ",[844,1073,1074],{},"punto de información mutua (Pointwise Mutual Information, o simplemente PMI)",". El PMI ",[844,1077,1078],{},"mide la asociación entre dos palabras comparando la probabilidad observada de aparición conjunta frente a la probabilidad esperada si fueran independientes",". Esta medida de asociación se calcula con la siguiente fórmula:",[21,1081,1082],{},[1083,1084],"img",{"alt":1085,"src":1086},"Fórmula del cálculo del PMI","media/pmi_formula.png",[21,1088,1089],{},"Donde:",[28,1091,1092,1106,1115],{},[31,1093,1094,1097,1098,1101,1102,1105],{},[443,1095,1096],{},"P(x,y)"," es la probabilidad de que las palabras ",[443,1099,1100],{},"x"," e ",[443,1103,1104],{},"y"," aparezcan juntas.",[31,1107,1108,1111,1112,1114],{},[443,1109,1110],{},"P(x)"," es la probabilidad de que la palabra ",[443,1113,1100],{}," aparezca individualmente.",[31,1116,1117,1111,1120,1114],{},[443,1118,1119],{},"P(y)",[443,1121,1104],{},[21,1123,1124,1125,253],{},"El valor del PMI puede ser positivo o negativo. ",[844,1126,1127],{},"Un valor positivo indica una asociación entre dos palabras más fuerte que lo que cabría esperar por el azar, mientras que un valor negativo indica una asociación más débil de lo esperado",[16,1129,1131],{"id":1130},"entendiendo-los-cálculos","Entendiendo los cálculos",[21,1133,1134],{},"Puede ser que hayamos entendido el concepto, pero aún así quedarnos con dudas sobre cómo se hacen los cálculos para obtener el PMI de una posible coaparición, así que vamos a intentar explicar esto. Para empezar, utilizando cálculos relativamente sencillos, la fórmula mostrada anteriormente se podría simplificar, dando lugar a la siguiente:",[21,1136,1137],{},[1083,1138],{"alt":1139,"src":1140},"Fórmula del cálculo del PMI usando frecuencias","media/pmi_formula_frecuencia.png",[21,1142,1089],{},[28,1144,1145,1156,1165,1172],{},[31,1146,1147,1150,1151,1101,1153,1155],{},[443,1148,1149],{},"f(x,y)"," es el número de veces (frecuencia absoluta) que aparecen las palabras ",[443,1152,1100],{},[443,1154,1104],{}," juntas en el corpus.",[31,1157,1158,1161,1162,1164],{},[443,1159,1160],{},"f(x)"," es el número de veces que aparece la palabra ",[443,1163,1100],{}," en el corpus.",[31,1166,1167,1161,1170,1164],{},[443,1168,1169],{},"f(y)",[443,1171,1104],{},[31,1173,1174,1177],{},[443,1175,1176],{},"N"," es el tamaño del corpus.",[1179,1180,1181],"blockquote",{},[21,1182,1183,1186],{},[844,1184,1185],{},"NOTA:"," Si te parece interesante que expliquemos los detalles sobre cómo se hace esta simplificación de la fórmula, pasando de probabilidades a frecuencias, escríbenos y lo haremos en otra entrada.",[21,1188,1189,1190,1193],{},"Pero para poder realizar este cálculo ",[844,1191,1192],{},"es importante definir qué queremos decir con que dos palabras aparecen juntas en el corpus",", ya que tanto en \"un silencio incómodo\" como en \"un silencio anormalmente incómodo\", las palabras \"silencio\" e \"incómodo\" deberían considerarse como que están \"juntas\" si estamos intentando hacer el cálculo del PMI para las coapariciones correspondientes a esas dos palabras.",[21,1195,1196,1197,1200,1201,1204],{},"Es por esto que, en la práctica, se debe definir el ",[844,1198,1199],{},"tamaño de la ventana de contexto",", utilizada en cada caso, para determinar si dos palabras aparecen \"juntas\", y podemos definirlo como el ",[844,1202,1203],{},"número de palabras a la izquierda y a la derecha de una palabra en la que otra palabra debe estar para que se considere que está junta a la primera más uno"," (ya que habría que contar también la propia palabra). Para hacer estos cálculos es habitual utilizar un tamaño de ventana de contexto de 5 (2 palabras a la izquierda y 2 a la derecha) 7 (3 palabras a la izquierda y 3 palabras a la derecha) o 9 (4 palabras a la izquierda y 4 palabras a la derecha). De este modo, en la frase \"Un silencio anormalmente incómodo llenó la habitación\", si trabajamos con una ventana de contexto de 5, las palabras que están en la misma ventana de contexto que \"incómodo\" serían \"silencio\", \"anormalmente\", \"llenó\" y \"la\".",[21,1206,1207,1208,1212,1213,1216],{},"Intentemos hacer estos cálculos con un ejemplo concreto de la aplicación de búsquedas del corpus ",[46,1209,691],{"href":1210,"rel":1211},"https://www.rae.es/corpes/",[50],". Lo que vamos a hacer es buscar las ",[844,1214,1215],{},"coapariciones de la forma \"silencio\"",":",[21,1218,1219],{},[1083,1220],{"alt":1221,"src":1222},"Formulario de búsqueda de CORPES buscando coapariciones de silencio","media/formulario_corpes_coapariciones_silencio.png",[21,1224,1225],{},"Y vemos que salen los siguientes resultados:",[21,1227,1228],{},[1083,1229],{"alt":1230,"src":1231},"Resultado de coapariciones para silencio","media/formulario_corpes_coapariciones_resultado.png",[21,1233,1234],{},"Como se puede apreciar, salen diferentes columnas de estadísticos, pero en este momento nos interesa únicamente la columna MI. Vemos que \"sepulcral\" es la palabra con un MI más alto para \"silencio\" y, aunque \"guardar\" tiene una frecuencia mucho más elevada, su MI es inferior al de \"sepulcral\". Es decir, que \"silencio\" y \"sepulcral\" tienen una fuerza de asociación, según el MI, mucho mayor que \"silencio\" y \"guardar\".",[21,1236,1237,1238,1240,1241,1243,1244,1246],{},"Intentemos ahora hacer los cálculos por nosotros/as mismos/as para calcular el PMI de \"silencio\" y \"sepulcral\". Tenemos que la frecuencia conjunta de \"silencio\" y \"sepulcral\", tal y como se puede observar en la captura anterior es de 293. Es decir, que ya tenemos el valor de ",[443,1239,1149],{}," en la segunda fórmula explicada anteriormente. ",[443,1242,1160],{}," sería la frecuencia de \"silencio\" en el corpus y ",[443,1245,1169],{}," sería la frecuencia de \"sepulcral\", lo que se puede obtener fácilmente haciendo una búsqueda por separado de ambas palabras, empleando, por ejemplo, el tipo de resultado \"Estadísticas\".",[21,1248,1249,1250,1252],{},"Si realizamos estas búsquedas podremos comprobar que \"silencio\" aparece 66.120 veces y \"sepulcral\" 395 veces. Por lo tanto, ya solo nos falta calcular ",[443,1251,1176],{},", el tamaño del corpus. Ya que en este caso estamos trabajando con búsquedas de elementos gramaticales, lo que debemos hacer es calcular el número de elementos gramaticales que tiene el corpus CORPES. Esto se puede hacer poniendo \"*\" en el campo forma de la búsqueda (lo que quiere decir, \"cualquier forma\") del siguiente modo:",[21,1254,1255],{},[1083,1256],{"alt":1257,"src":1258},"Número de elementos gramaticales del corpus CORPES","media/formulario_corpes_elementos_gramaticales.png",[21,1260,1261],{},"Podemos ver que salen 483.242.276 elementos gramaticales en el corpus. Por lo tanto, ya solo nos queda hacer el cálculo:",[21,1263,1264],{},[1083,1265],{"alt":1266,"src":1267},"Fórmula del PMI para \"silencio\" y \"sepulcral\"","media/pmi_formula_frecuencia_silencio_sepulcral.png",[21,1269,1270,1271,1274,1275,1278],{},"Si hacemos las cuentas nos sale un valor para el PMI de \"silencio\" y \"sepulcral\" de ",[443,1272,1273],{},"12,40",". De acuerdo, no nos ha salido el ",[443,1276,1277],{},"12,33"," que muestra la aplicación, pero sí un número muy aproximado. Esto puede deberse a que en el corpus se esté haciendo algún ajuste que desconozcamos, seguramente relacionado con el cálculo total del número de elementos gramaticales del corpus, pero en cualquier caso, esto no invalida la explicación.",[16,1280,1282],{"id":1281},"eliminando-valores-negativos","Eliminando valores negativos",[21,1284,1285,1288,1289,1292],{},[844,1286,1287],{},"El cálculo del PMI puede dar valores negativos",", a menudo difíciles de interpretar, por lo que, en la práctica, ",[844,1290,1291],{},"se suele utilizar el PPMI (Positive Pointwise Mutual Information)",", que es el que se utiliza en CORPES, ya que se puede comprobar que no aparecen nunca valores negativos. Por lo tanto, lo que hace el PPMI es simplemente poner a cero los resultados negativos del PMI. Matemáticamente esto se representa así:",[21,1294,1295],{},[1083,1296],{"alt":1297,"src":1298},"Fórmula del cálculo del PPMI","media/ppmi_formula.png",[21,1300,1301,1302,1305],{},"Interpretar el valor del PPMI es sencillo: ",[844,1303,1304],{},"cuanto mayor sea el número obtenido, más fuerte será la relación entre las palabras",". Un valor alto indica una coaparición fuerte, mientras que un valor cercano a cero significa que probablemente la aparición conjunta de esas palabras sea casual o poco significativa.",[21,1307,1308],{},"Por otra parte, aunque no existe una regla universal que indique exactamente a partir de qué valor un PPMI es alto, ya que esto depende del tamaño y tipo del corpus, y del análisis específico que se esté realizando, de manera orientativa se suele considerar que:",[28,1310,1311,1317,1323],{},[31,1312,1313,1314,253],{},"Un ",[844,1315,1316],{},"PPMI cercano a 0 indica que la asociación entre las palabras es prácticamente inexistente o casual",[31,1318,1319,1320,253],{},"Valores ",[844,1321,1322],{},"entre 1 y 3 suelen reflejar una asociación moderada",[31,1324,1325,1328,1329,253],{},[844,1326,1327],{},"Valores mayores de 3 ya sugieren una asociación fuerte",", con alta probabilidad de que exista una ",[844,1330,1331],{},"coaparición auténtica",[21,1333,1334,1335,253],{},"En investigaciones lingüísticas o análisis prácticos con corpus grandes, se suelen ",[844,1336,1337],{},"utilizar umbrales en torno a 2 o más como criterio inicial para identificar combinaciones significativas",[16,1339,1341],{"id":1340},"inconvenientes-del-empleo-de-la-información-mutua","Inconvenientes del empleo de la información mutua",[21,1343,1344,1345,1348,1349,1216],{},"Aunque el cálculo de la información mutua, en cualquier de sus variantes (PMI/PPMI), constituye una ",[844,1346,1347],{},"herramienta eficaz para identificar coapariciones",", presenta también algunos ",[844,1350,1351],{},"inconvenientes",[28,1353,1354,1360,1366],{},[31,1355,1356,1359],{},[844,1357,1358],{},"Sesgo hacia palabras poco frecuentes",": La información mutua tiende a sobrevalorar asociaciones entre palabras poco frecuentes. Esto ocurre porque cuando las frecuencias son bajas, pequeños aumentos en la coaparición pueden producir valores artificialmente altos, lo que podría llevar a conclusiones erróneas.",[31,1361,1362,1365],{},[844,1363,1364],{},"Ausencia de una escala claramente interpretable",": Aunque sabemos que valores altos indican relaciones fuertes, no podemos definir una escala absoluta universal. Los cálculos de la información mutua dependen del tamaño del corpus y su composición, por lo que un mismo valor puede no indicar la misma fuerza de asociación en corpus diferentes.",[31,1367,1368,1371],{},[844,1369,1370],{},"Sensibilidad al tamaño del corpus",": El cálculo de la información mutua es sensible al tamaño del corpus y, en corpus pequeños, se pueden producir muchas asociaciones espurias con valores elevados, lo que los hacen más indicados para corpus grandes.",[16,1373,1375],{"id":1374},"conclusiones","Conclusiones",[21,1377,1378,1379,1382,1383,1386,1387,253],{},"En este artículo ",[844,1380,1381],{},"hemos explicado qué son las coapariciones y cómo usar el cálculo del PMI para obtenerlas",". También ",[844,1384,1385],{},"hemos visto tanto su utilidad como sus debilidades"," y confiamos en que este artículo permita a estudiantes y lingüistas a ",[844,1388,1389],{},"entender e interpretar mejor los resultados en el intento de descubrir coapariciones relevantes y auténticas de un idioma",[16,1391,56],{"id":55},[28,1393,1394,1401,1408,1414],{},[31,1395,1396,1397],{},"Corpus CORPES XXI: ",[46,1398,1399],{"href":1399,"rel":1400},"https://www.rae.es/banco-de-datos/corpes-xxi",[50],[31,1402,1403,1404],{},"Coapariciones en el Glosario de términos gramaticales de la RAE: ",[46,1405,1407],{"href":1029,"rel":1406},[50],"https://www.rae.es/gtg/coaparición",[31,1409,1410,1411],{},"Palabras ortográficas y elementos gramaticales: ",[46,1412,607],{"href":607,"rel":1413},[50],[31,1415,1416,1417],{},"NLPgo Technologies, S.L.: ",[46,1418,1419],{"href":1419,"rel":1420},"http://www.nlpgo.com",[50],{"title":105,"searchDepth":106,"depth":106,"links":1422},[1423,1424,1425,1426,1427],{"id":1130,"depth":106,"text":1131},{"id":1281,"depth":106,"text":1282},{"id":1340,"depth":106,"text":1341},{"id":1374,"depth":106,"text":1375},{"id":55,"depth":106,"text":56},"Aprende a calcular e interpretar la información mutua (MI) en la detección de coapariciones y comprueba su funcionamiento con un ejemplo práctico extraido del corpus CORPES XXI.","/media/coapariciones_mi.png",{},16,"/articles/2025-04-03-coapariciones_mi","2025-04-03T09:00:00.000Z",{"title":1019,"description":1428},"articles/2025-04-03-coapariciones_mi",[486,1437,1438,566,686,691],"Estadística","Nivel medio","OeZ_PfFe5gcUyDAnGCIv_0hyUkkcWnl2dG_dZvhyyro",{"id":1441,"title":1442,"author":7,"body":1443,"description":1452,"entity":112,"extension":113,"image":1822,"imageOnContent":115,"language":116,"meta":1823,"navigation":118,"number":1824,"path":1825,"promoted":115,"published":1826,"seo":1827,"stem":1828,"tags":1829,"translation":130,"type":130,"__hash__":1831},"articles/articles/2025-03-14-informacion-pragmatica-corpus-eslora.md","Información pragmática en el corpus ESLORA, con María Sampedro Mella",{"type":9,"value":1444,"toc":1817},[1445,1448,1450,1453,1457,1492,1494,1499,1504,1509,1514,1520,1525,1530,1535,1540,1545,1550,1555,1560,1565,1570,1575,1580,1585,1590,1595,1600,1605,1610,1615,1620,1625,1630,1635,1639,1644,1649,1654,1659,1664,1669,1674,1679,1684,1689,1694,1699,1704,1709,1714,1719,1724,1729,1734,1747,1752,1757,1762,1767,1772,1777,1782,1787,1792,1797,1802,1807,1812],[12,1446],{"url":1447},"https://www.youtube.com/watch?v=4ApkXVoHfuA",[16,1449,19],{"id":18},[21,1451,1452],{},"Sin duda, una estupenda introducción práctica a las búsquedas de información pragmática ofrecidas por el corpus ESLORA, con María Sampedro Mella.",[16,1454,1456],{"id":1455},"enlaces-de-proyectos-mencionados","Enlaces de proyectos mencionados",[28,1458,1459,1466,1473,1480,1487],{},[31,1460,1461,1462],{},"Corpus ESLORA (Corpus para el estudio del español oral): ",[46,1463,1464],{"href":1464,"rel":1465},"http://eslora.usc.es",[50],[31,1467,1468,1469,253],{},"Corpus C-Or-DiAL (Corpus Oral Didáctico Anotado Lingüísticamente): ",[46,1470,1471],{"href":1471,"rel":1472},"http://lablita.it/app/cordial/",[50],[31,1474,1475,1476],{},"Corpus COR.E.M.A.H. (Corpus Español Multipodar de Actos de Habla): ",[46,1477,1478],{"href":1478,"rel":1479},"https://coremah.com",[50],[31,1481,1482,1483],{},"Corpus HumCor (Corpus oral multimodal de humor en español): ",[46,1484,1485],{"href":1485,"rel":1486},"https://humcor.snlt.es",[50],[31,1488,1416,1489],{},[46,1490,1419],{"href":1419,"rel":1491},[50],[16,1493,70],{"id":69},[21,1495,1496,1498],{},[337,1497,339],{}," Bienvenidos y bienvenidas a una nueva entrega de Palabras binarias, Informática para lingüistas. Ya sabéis que aquí podéis estar informados sobre cuestiones relacionadas con la lingüística de corpus, la lingüística computacional, la inteligencia artificial y la informática en general. En esta ocasión hemos tenido el placer de poder contar con María Sampedro Mella, que nos va a contar cómo podemos trabajar con una nueva funcionalidad que ha incorporado el sistema de búsquedas del corpus ESLORA.",[21,1500,1501,1503],{},[337,1502,339],{}," María es doctora en Lengua Española por la Universidad de Salamanca y ha trabajado en las Universidades de Salamanca, Lisboa, Sorbonne-Nouvelle y Santiago de Compostela. Recientemente se ha incorporado a la Universidad Católica de Lovaina como investigadora postdoctoral beneficiaria de una acción Marie Curie. Sus principales líneas de investigación son la pragmática intercultural, el español como lengua extranjera y la utilización de la lingüística de corpus en la enseñanza.",[21,1505,1506,1508],{},[337,1507,339],{}," Antes de dar paso a la entrevista simplemente os recuerdo que tenéis en nuestra web palabrasbinarias.com una campanita en la que os podéis suscribir a nuestro boletín informativo. Ahí os enviamos toda la información de los vídeos que vamos publicando, de los talleres que organizamos, etcétera, etcétera. Y sin más, os dejo con la entrevista.",[21,1510,1511,1513],{},[337,1512,339],{}," Hola María, muchas gracias por venir a Palabras binarias. Te agradezco muchísimo que estés aquí. Como sabes estamos haciendo unas grabaciones relacionadas con el proyecto ESLORA y hemos hecho una primera con Victoria en la que hemos visto cómo está organizado el corpus, criterios de clasificación, hemos hablado un poquito muy por encima del sistema de búsquedas. Después he hecho yo una grabación donde hice una demostración de las búsquedas más típicas de ESLORA, pero sin tocar esto que me parecía interesante traerte a ti aquí para que nos contaras un poco qué es esta novedad que tiene el nuevo sistema de búsquedas de ESLORA.",[21,1515,1516,1519],{},[337,1517,1518],{},"María:"," Muchas gracias a ti y a tu equipo por la invitación, es un placer poder participar, poder formar parte de esta iniciativa que tienes y, resumidamente, lo que hemos hecho con el corpus ESLORA es añadirle una nueva funcionalidad que consiste en un sistema de anotación pragmática de una selección de actos de habla en el subcorpus de entrevistas semidirigidas que permite recuperar de manera automática esa selección y hacer búsquedas de distinto tipo, como creo que veremos en un momento.",[21,1521,1522,1524],{},[337,1523,339],{}," Así es, veremos dentro de un ratito algunas búsquedas. Pero antes, como tenemos mucha variabilidad en las personas que nos ven, me gustaría que pudieras hacer una pequeña explicación de qué es esto de la etiquetación pragmática.",[21,1526,1527,1529],{},[337,1528,1518],{}," Pues así a grandes rasgos, la etiquetación pragmática consiste en identificar y marcar, anotar, distintos fenómenos vinculados al uso de la lengua y no al código, que sería en donde entraría la anotación morfosintáctica. Entonces, dentro de la anotación pragmática tienen cabida fenómenos muy diversos que van desde los rasgos típicos de la oralidad, interjecciones, reestructuraciones, falsos comienzos, por ejemplo, los marcadores del discurso y los distintos valores que pueden adoptar. Piensa, por ejemplo, en un \"bueno\" o en un \"pues\", cómo varían según el contexto, y hasta categorías mucho más abstractas puede ser objeto de este tipo de anotación, como por ejemplo las emociones de los hablantes, factores como el enfado, la ironía o el humor, las funciones de la entonación en determinadas situaciones o, bueno, en nuestro caso, en ESLORA hemos anotado actos de habla que son considerados las unidades mínimas de la comunicación lingüística que estudia la pragmática.",[21,1531,1532,1534],{},[337,1533,339],{}," Claro, claro, muy bien. Claro, interpreto yo entonces que para poder hacer búsquedas morfosintácticas en un corpus, ese corpus tiene que estar anotado morfosintáticamente, entonces para poder hacer búsquedas de actos de habla, vosotros o vosotras lo que habéis tenido que hacer es marcar esos actos de habla. Quizás con la particularidad de que hay maneras de hacer etiquetado morfosintático automáticamente, pero los actos de habla, bueno, yo por lo menos no conozco ningún sistema de anotación de actos de habla que lo pueda hacer automáticamente y me imagino que ha sido un trabajo manual en este caso.",[21,1536,1537,1539],{},[337,1538,1518],{}," Efectivamente, sí que he visto alguna iniciativa que todavía no se ha consolidado de automatización de este proceso, pero no en datos naturales, como pueden ser conversaciones espontáneas o en nuestro caso entrevistas semidirigidas, sino que lo he visto más en cuestionarios, en datos de cuestionarios, entonces sí, ha sido un proceso exclusivamente manual con todos los inconvenientes que eso conlleva.",[21,1541,1542,1544],{},[337,1543,339],{}," Vale, pues si te parece, voy a compartir aquí la pantalla y vamos a echar un vistazo, o vamos a usar un poquito el buscador con estas nuevas búsquedas. Está disponible, ya lo hemos visto en el otro vídeo, pero está disponible en eslora.usc.es, y no sé si quieres dar antes de empezar con las búsquedas alguna pincelada, o un poquito más de detalle, de qué actos de habla están incorporados ahí en el sistema.",[21,1546,1547,1549],{},[337,1548,1518],{}," Sí, gracias. Como acabas de hacer, la búsqueda de estos actos de habla se hace clicando sobre la pestaña \"intervenciones\", se abre ese desplegable y los actos que se han marcado, la selección que se ha hecho, es \"saludo-presentación\", \"acto directivo\", \"ofrecimiento\", \"cita\" y \"pregunta\", el de \"cita\" ya existía, simplemente lo hemos incorporado en esta categoría. Se puede buscar tanto el acto de habla completo, compuesto por el turno iniciativo, digamos, el ofrecimiento y la respuesta a ese ofrecimiento como cada parte por separado y, por ejemplo, en el caso de las preguntas, hicimos una subclasificación entre interrogativas totales, parciales, disyuntivas, de eco e inconclusas y enunciativas con confirmación. Se puede buscar un único tipo, se pueden buscar varios, se pueden combinar las mezclas de distintas maneras.",[21,1551,1552,1554],{},[337,1553,339],{}," Muy bien, pues ¿qué te parece si empezamos haciendo alguna búsqueda de estas, de este tipo?",[21,1556,1557,1559],{},[337,1558,1518],{}," Perfecto, ya que estás con las preguntas, podemos buscar todas las intervenciones que tengan alguna pregunta, pero solo la parte iniciativa, sin las respuestas.",[21,1561,1562,1564],{},[337,1563,339],{}," Lo voy a repetir por si no queda claro. Vamos aquí a intervenciones, y en tipo de intervención vamos aquí, bajamos, y le decimos aquí \"pregunta\", este \"pregunta\" ya engloba todas estas que acabas de comentar tú. Muy bien, pues buscamos en las intervenciones y aquí nos sale \"cualquiera\", \"de ahora mismo\", \"que estás\"... Bueno, todas las preguntas. No recuerdo si comentaste que lo que estaba anotado es la parte de las entrevistas, bueno, si no lo comentamos después, lo comentamos después, perdona. Eso, tenemos aquí las preguntas, así lo primero que me viene a la cabeza es que, viendo esto, supongo que será interesante para un investigador o investigadora estudiar las diferentes fórmulas que existen para preguntar o que se usan a la hora de preguntar o, como hemos visto también en el anterior vídeo, como podemos escuchar los fragmentos, pues también se podría trabajar el tema de la entonación, ¿no?, de ver cómo se entonan esas preguntas para según qué tipo es de hablante, etcétera, etcétera.",[21,1566,1567,1569],{},[337,1568,1518],{}," Sí, efectivamente, va un poco en esa línea. Por un lado, una búsqueda de estas características puede resultar de interés para analizar la formulación de las interrogativas en español de cualquier tipo o de un único tipo, en este contexto, en la entrevista semidirigida. Y, por otro lado, como el corpus cuenta con los audios y además es un corpus alineado, podemos escuchar cada ejemplo de manera individual, pues una búsqueda de estas características también puede resultar de utilidad para llevar a cabo estudios fonéticos sobre los patrones melódicos de las interrogativas en español, con la particularidad además de que este es un corpus de español de Galicia, que tiene una prosodia particular, diferente de otras variedades del español.",[21,1571,1572,1574],{},[337,1573,339],{}," Muy bien. ¿Y qué otras preguntas, perdón, qué otras consultas se te ocurre que podamos hacer para mostrar un poquito más las posibilidades del sistema?",[21,1576,1577,1579],{},[337,1578,1518],{}," Bueno, hemos hecho una búsqueda general de todas las categorías, todos los casos que están asociados a una determinada categoría, en este caso la de las preguntas. Podríamos buscar todos los casos de saludos y presentaciones, que normalmente aparecen conjuntos, o de ofrecimientos o de los restantes, pero el corpus incorpora un segundo tipo de búsquedas que permite combinar estos actos de habla con los filtros generales del corpus y con las cuestiones que aparecen en la anotación morfosintáctica. Entonces, podemos, si limpias la pantalla, podemos buscar, por ejemplo, interrogativas que se combinen con la partícula \"verdad\", que en este caso...",[21,1581,1582,1584],{},[337,1583,339],{}," Vale, esto sería, en lugar de ir aquí a \"intervenciones\", como lo que queremos es que la palabra \"verdad\" esté dentro de una pregunta, que es el segundo tipo de búsquedas del que hablabas tú, es aquí en \"buscar en\". En \"buscar en\" le podemos decir que podemos buscar cualquier palabra o elemento gramatical dentro de un acto de habla de estos que están marcados. Bien, pues podríamos entonces poner aquí en \"preguntas\", como teníamos antes, pregunta y buscar la palabra \"verdad\". Y ahí tenemos las preguntas con la palabra \"verdad\".",[21,1586,1587,1589],{},[337,1588,1518],{}," Podemos ver que funciona, sobre todo en estos casos, como marcador confirmativo, y que es bastante frecuente en la lengua oral. También, por ejemplo, en vez de una palabra ortográfica, podemos coger un lema y buscar, por ejemplo, \"saludos\", cambiando los filtros del corpus...",[21,1591,1592,1594],{},[337,1593,339],{}," Perdona que te interrumpa, María, para coger \"lema\" tenemos que ir a la búsqueda de elementos gramaticales. Entonces, ¿quieres buscar en preguntas también o en saludos?",[21,1596,1597,1599],{},[337,1598,1518],{}," No. Podemos, por ejemplo, con los saludos...",[21,1601,1602,1604],{},[337,1603,339],{}," Entonces, ponemos aquí \"saludo\"...",[21,1606,1607,1609],{},[337,1608,1518],{}," Así, sí, exacto, el saludo completo, y vamos a buscar el lema \"bueno\".",[21,1611,1612,1614],{},[337,1613,339],{}," Al buscar el lema \"bueno\", estaríamos buscando ahí, \"bueno\", \"buena\", \"buenos\", \"buenas\", o sea que incorporaría cosas como \"buenos días\" o como \"buenas\", ¿no? \"Hola buenas\" o...",[21,1616,1617,1619],{},[337,1618,1518],{}," Exacto. O buen día o...",[21,1621,1622,1624],{},[337,1623,339],{}," Muy bien. Ahí los tenemos. Fantástico.",[21,1626,1627,1629],{},[337,1628,1518],{}," Vemos que hay bastante variedad y que incluso los saludos, es interesante que aparecen combinados. \"Hola, buenas\". \"Hola, buenos días\". También, por ejemplo, podemos probar a buscar la parte iniciativa de los ofrecimientos con imperativos.",[21,1631,1632,1634],{},[337,1633,339],{}," Vale. Entonces, vamos, bueno, voy a limpiar por si acaso, mejor.",[21,1636,1637,421],{},[337,1638,1518],{},[21,1640,1641,1643],{},[337,1642,339],{}," Vamos a elementos gramaticales, y entonces queremos buscar dentro de ofrecimientos solo la iniciativa.",[21,1645,1646,1648],{},[337,1647,1518],{}," En la primera parte del ofrecimiento.",[21,1650,1651,1653],{},[337,1652,339],{}," Ofrecimiento inicio, buscar imperativos, dijiste. Vale.",[21,1655,1656,1658],{},[337,1657,1518],{}," Imperativos, exacto.",[21,1660,1661,1663],{},[337,1662,339],{}," Pues aquí en etiqueta...  En etiqueta ponemos verbo y imperativo. Muy bien. Vamos a buscar. Vale.",[21,1665,1666,1668],{},[337,1667,1518],{}," Bueno. Aquí nos saldrían resultados del tipo, \"cuéntame\", no, \"cuéntame\" no, perdón. \"Pasa\", \"siéntate\", \"toma\".",[21,1670,1671,1673],{},[337,1672,339],{}," Ajá. \"Siéntate\", aquí está, sí.",[21,1675,1676,1678],{},[337,1677,1518],{}," Los digo un poco de memoria.",[21,1680,1681,1683],{},[337,1682,339],{}," Sí, sí. Bueno, está bien, está bien, están ahí, muy bien, perfecto. ¿Alguna otra cosa más?",[21,1685,1686,1688],{},[337,1687,1518],{}," Sí, yo puedo seguir aquí todo el día.",[21,1690,1691,1693],{},[337,1692,339],{}," Tenía yo aquí anotada, que cuando hablamos antes de la entrevista, tenía aquí anotada la de los ofrecimientos con verbos de segunda persona.",[21,1695,1696,1698],{},[337,1697,1518],{}," Exacto.",[21,1700,1701,1703],{},[337,1702,339],{}," Verbos en segunda persona, o sea que aquí seguimos dentro de ofrecimiento. Aquí no sé si era solo ofrecimiento inicio también o todo el ofrecimiento.",[21,1705,1706,1708],{},[337,1707,1518],{}," Sí. Solo ofrecimiento incicio.",[21,1710,1711,1713],{},[337,1712,339],{}," Vale. Vale. Y aquí...",[21,1715,1716,1718],{},[337,1717,1518],{}," Porque, bueno, lo interesante de esta búsqueda sería contrastar aquellos ofrecimientos con un imperativo del tipo \"pasa\", \"siéntate\", con ofrecimientos con verbos en segunda persona, verbos volitivos generalmente, del tipo \"quieres\", \"te apetece...",[21,1720,1721,1723],{},[337,1722,339],{}," Sí, bueno, aquí salen bastantes cosas, pero si también queremos, si tenemos una idea de lo que queremos, podemos buscar aquí el lema \"querer\" o el lema \"necesitar\" o el lema \"preferir\". A ver, podríamos hacer la búsqueda completa, pero igual genera un poco de ruido. Vamos a echar un vistazo a ver si esto nos devuelve algo. Aquí, pues aquí tenemos todos los de \"necesitar\", \"querer\" y, bueno, igual \"preferir\" no aparece, pero aquí salen, efectivamente. Sí, \"preferir\" no está, pero muy bien. O sea que podemos combinar búsquedas de elementos morfosintácticos dentro de secciones marcadas con las marcas de oral. Pues me parece que con esto ha quedado claro, bastante claro, lo que se pretende con esta funcionalidad. Voy un momentito a parar la presentación porque creo que no la vamos a necesitar por ahora, pero sí que me gustaría preguntarte alguna cosilla más. Bueno, primero, ¿cómo surge la iniciativa?, ¿cómo te da por decir vamos a hacer esto?",[21,1725,1726,1728],{},[337,1727,1518],{}," Pues mira, surge de la necesidad, de una, llamémoslo así, necesidad común que yo me encuentro tanto dando clase como investigando, que es la falta de muestras de este tipo. Entonces, por un lado, como profesora de español, de diversas materias de español como lengua extranjera, una de las dificultades que encuentro es la falta de ejemplos genuinos de español para ilustrar determinadas funciones comunicativas del tipo \"pedir algo\", \"saludar a alguien\", \"ofrecer\", etcétera, en español. En estos casos, generalmente acudimos a los libros de texto, pero los ejemplos que contienen son casi siempre inventados, no son ejemplos reales y en muchos casos son ejemplos artificiales, poco realistas que no acaban de convencerme. Entonces, ¿cómo consigues estos datos? Bueno, pues acabas recurriendo a vídeos, a películas, a cortos, a lo que se te ocurre, vas improvisando como como buenamente puedes. Y después, por otra parte, como investigadora, una de las dificultades en las que también me enfrento es la falta de este tipo de datos para el estudio empírico. Yo estuve trabajando en un proyecto sobre la petición y el ofrecimiento, y de dónde sacas muestras orales de peticiones y de ofrecimientos. Entonces, cuando vas a los corpus, estas categorías no están marcadas, entonces te toca leer los corpus enteros, revisarlos completos, revisar las transcripciones. Y puedo asegurar que leer un corpus no es leer la prensa, no es una novela, es un trabajo muy costoso y muy laborioso. Entonces, a partir de esta necesidad común y de todas mis quejas al respecto, pues surge la posibilidad de añadirle esta funcionalidad al corpus ESLORA. Y bueno, gracias al apoyo inestimable de Victoria Vázquez Rozas, a la que ya entrevistaste, como dijiste, que es la IP del grupo de investigación, y gracias a un proyecto financiado por la Xunta de Galicia, bueno, pues fue posible crear un pequeño equipo de trabajo, contratar a dos investigadoras con formación de máster, Ana Rodríguez Domínguez, que se ocupó fundamentalmente de la anotación del corpus, hizo un trabajo excelente, y Nuria García García, que se incorporó al final del proyecto y se ocupó sobre todo de la parte de revisión y de pruebas de la aplicación.",[21,1730,1731,1733],{},[337,1732,339],{}," ¿Y entonces no hay muchos corpus que incluyan este tipo de información en su marcado?",[21,1735,1736,1738,1739,1742,1743,1746],{},[337,1737,1518],{}," No muchos. Habelos hainos, como solemos decir, pero no es un marcado muy habitual en los corpus, ni en los corpus de español, ni en los de otras lenguas, como el inglés, por ejemplo, que suele ir un paso por delante en lo que se refiere a la lingüística computacional. Pues está, por ejemplo, el corpus oral, el corpus oral didáctico anotado lingüísticamente, de Carlota Nicolás, que es un corpus diseñado con fines pedagógicos para la enseñanza del español como lengua extranjera, y dispone de una selección de funciones comunicativas organizadas tal y como aparecen en el plan curricular del Instituto Cervantes. Y este corpus además tiene la ventaja de que permite filtrar las muestras según el nivel de dominio de los aprendices a los que va dirigido. Son corpus, es un corpus relativamente pequeño, pero que incluye una amplia gama de funciones comunicativas muy diversas, tomadas de conversaciones coloquiales. Después también está el corpus COREMAH de Marta Vacas, que es el corpus español multimodal de actos de habla. Es un corpus multimodal, ya lo dice su propio nombre, dispone de audio y de vídeo, que creo que es una dirección hacia la que van los nuevos corpus que se están diseñando. Y bueno, en este caso el corpus se creó en torno a tres actos de habla, que eran los rechazos, cumplidos y disculpas, si no me equivoco, e incluye muestras de hablantes nativos y de no nativos, con lo cual permite hacer comparaciones entre las dos muestras, estudios contrastivos y tal. Y además incluye un sistema de anotación pragmática que por ejemplo incorpora los gestos. Tiene la desventaja, a mi juicio, de que es un corpus basado en ",[443,1740,1741],{},"role plays",", en juegos de ",[443,1744,1745],{},"role",", con lo cual las muestras no siempre son completamente naturales. Y el último, no doy más la lata, es uno que he conocido recientemente, que es el HumCor, corpus oral multimodal de humor en español, de Doina Repede. Es un corpus todavía en construcción de chistes, que, bueno, bromear no deja de ser un acto de habla también. Y, bueno, recoge chistes de diferentes variedades del español de las últimas décadas e incluye además de un buscador general, por palabras, pues un buscador por temas y también ha anotado la parte de los gestos. Entonces, bueno, pues así a grandes rasgos mencionaría estos, aunque hay otros por supuesto.",[21,1748,1749,1751],{},[337,1750,339],{}," Sí, bueno, pero como comentabas, claramente insuficientes para el tipo de cosas que necesitáis. Ya hemos visto anteriormente, yo creo que en el formulario de búsquedas queda claro las ventajas de este tipo de búsquedas que se pueden hacer en un corpus. Pero me gustaría que me contaras también si se te ocurre algún tipo de limitación o dificultad a la hora de hacer este tipo de marcado en un corpus.",[21,1753,1754,1756],{},[337,1755,1518],{}," Muchas, muchas. Bueno, en el caso de ESLORA, la primera limitación que tenemos, ya lo dijiste antes, es que sólo hemos etiquetado el subcorpus de entrevistas semidirigidas, no hemos anotado el de conversaciones espontáneas. La razón se debe a que el subcorpus de entrevistas semidirigidas es un corpus cerrado, no se prevé que haya más, mientras que el corpus de conversaciones está en permanente construcción y crecimiento. Entonces, como el proyecto tenía una duración limitada de dos años, se buscaba dejar el sistema acabado, aunque esté en permanente revisión, pero lo más acabado posible. Y bueno, al etiquetar entrevistas semidirigidas y no conversaciones espontáneas, ahí hay una limitación de base y es que, aunque las entrevistas de ESLORA sean entrevistas libres, no dejan de ser entrevistas que están bastante estructuradas y no aparecen tantos actos de habla como podrían aparecer en una conversación espontánea. Pero haciendo de la necesidad virtud, este corpus, la anotación en estos datos, nos permitió hacer una selección muy amplia de preguntas, de distinguir muchas categorías y recopilar un número considerable. Después, otra limitación común no solo a ESLORA, sino a cualquier corpus que pretenda llevar a cabo una anotación de estas características, es la interpretación. Yo sé que la interpretación forma parte de cualquier proceso de anotación manual, pero en el caso de la anotación pragmática es mucho mayor, porque un enunciado no siempre tiene un significado único, un significado claro. Entonces, si piensas, por ejemplo, en un imperativo como \"siéntate\", ese \"siéntate\" puede ser un ofrecimiento si yo te invito a sentarte, pero también puede ser una obligación o una petición según el contexto, ya no digamos un \"te sientas\". Un \"te sientas\" puede ser una pregunta, si lleva una entonación interrogativa, puede ser una orden, puede ser una invitación. En fin, no siempre es fácil distinguirlo y ahí Ana y yo hemos tenido muchos quebraderos de cabeza.",[21,1758,1759,1761],{},[337,1760,339],{}," Sí, me lo imagino, me lo imagino. Bueno, o sea que estamos, un poco resumiendo, tenemos que las conversaciones no son espontáneas, en el caso de este de ESLORA, que la interpretación, pero me imagino que habrá alguno más, así a la mente me viene algo de la complejidad para marcar este tipo de cosas, tiene que ser un trabajo titánico. ¿Qué más me puedes contar de esto?",[21,1763,1764,1766],{},[337,1765,1518],{}," Bueno, yo diría que en cada fase del proceso surgen unas dificultades específicas. La primera es ¿qué vas a marcar? Cuando ya decides que vas a llevar a cabo una notación específica, en este caso de actos de habla, ¿qué actos de habla vas a marcar? Entonces puedes tener una idea muy clara de lo que quieres hacer, pero a lo mejor en cuanto empiezas a investigar, a revisar el corpus, te das cuenta de que no aparecen los actos de habla que tú esperabas. Entonces, antes de llevar a cabo el proceso, tienes que hacer una revisión considerable de datos. Y ya, una vez que empiezas y que ya tienes una idea, más o menos clara, de lo que vas a hacer, pues surgen otras dificultades. Entonces, por ejemplo, en nuestro caso nosotros estructuramos estos actos de habla en torno a \"saludo- respuesta al saludo\", \"ofrecimiento-respuesta al ofrecimiento\", \"pregunta-respuesta\", etc. ¿Qué ocurrió? que en muchos casos no se responde, por ejemplo, no hay respuesta. En otros casos, por ejemplo, en las preguntas comprobamos que en muchos casos se responde con otra pregunta, a lo mejor porque es un corpus hecho en Galicia. Entonces, tenemos una pregunta y una segunda pregunta que es la respuesta a la primera, pero esa segunda pregunta casi siempre se contesta. Entonces, ¿cuál es la respuesta? Es la pregunta, es la respuesta, es todo. ¿Qué haces con esa segunda pregunta que también se responde? ¿Lo marcas también? Entonces, ya estás creando distintos niveles. ¿Los ofrecimientos? Bueno, pues los ofrecimientos no son \"¿quieres tomar algo?\", \"sí, gracias\", \"no, gracias\", sino que son muy insistentes. \"¿Quieres un café?\", \"No, gracias\", \"¿Y agua?\", \"No, no\". \"¿Quieres comer algo?\". Entonces, ¿es todo un ofrecimiento?, ¿son distintos ofrecimientos dentro de uno mayor?, ¿cómo marcas esto? Bueno, pues esto te obliga a renunciar a anotar todo, porque no es posible, y a tener muchas conversaciones con el equipo informático, tomar muchas decisiones sobre qué haces con los casos no prototípicos, porque la lengua oral, aunque sean datos de entrevistas, es muy variable y el sistema de anotación que se ha diseñado no tiene ese grado de variabilidad. Aquí eres tú el que lo puede comentar mejor.",[21,1768,1769,1771],{},[337,1770,339],{}," Sí, sí, la verdad es que la complejidad de tratar todos esos fenómenos ha sido un reto importante y claro, siempre que hay un sistema muy flexible de representación, al final tiene que entrar en algún sistema que no es tan flexible, el informático, aunque le intentamos dar la flexibilidad máxima, siempre te topas con algún límite. Y sí que ha sido complejo. Bueno, ha habido dos variantes. Uno es la casuística, que a veces la realidad supera todo lo que tú tenías en mente, y el otro el intentar también facilitaros un poco a vosotros el trabajo. Dentro de lo tedioso y de lo difícil que es marcar, pues eso, llegar a algún tipo de... Bueno, hemos tenido que llegar a algún tipo de acuerdo para que vosotras no tuvierais que marcar ciertas cosas, por ejemplo, que fueran ya un poco más automáticas, etcétera, y un poco la mezcla de eso sí que ha sido complejo de resolver, pero bueno, así es la vida del informático que trabaja en los sistemas lingüísticos.",[21,1773,1774,1776],{},[337,1775,1518],{}," Y la vida del anotador de corpus.",[21,1778,1779,1781],{},[337,1780,339],{}," Bueno, pues en cualquier caso te veo con ganas de seguir trabajando en esta línea, me imagino.",[21,1783,1784,1786],{},[337,1785,1518],{}," Sí, sí, sin duda. Yo, a pesar de estas dificultades y a pensar de estas concesiones que ha hecho el equipo informático y el equipo lingüístico que, bueno, nos ha tocado ponernos de acuerdo.",[21,1788,1789,1791],{},[337,1790,339],{}," Hay que llegar a un equilibrio siempre, siempre hay que intentar llegar a un equilibrio, está claro.",[21,1793,1794,1796],{},[337,1795,1518],{}," Efectivamente, yo creo que sí, sí se ha conseguido. Y yo, bueno, a pesar de estas dificultades, animo a todo el mundo, a los creadores de corpus, a implementar sistemas de estas características en los nuevos corpus, porque la anotación gramatical ya no es suficiente del todo para cubrir las necesidades de investigación y de enseñanza.",[21,1798,1799,1801],{},[337,1800,339],{}," Claro. Jobá, pues me parece muy interesante todo esto que nos has contado. Yo creo que ha quedado más o menos claro y, simplemente ya para ir finalizando, ¿qué público destinatario entonces crees que tiene este corpus en particular o este tipo de mercado?",[21,1803,1804,1806],{},[337,1805,1518],{},"  Pues yo diría principalmente que investigadores y profesores interesados en cuestiones del discurso. También, por supuesto, estudiantes, estudiantes de español como lengua extranjera, pero en este caso sí que sería aconsejable que accedieran al corpus con la mediación del docente, porque, bueno, pues no es un corpus que se haya diseñado con fines didácticos. Entonces puede haber muestras que sobrepasen el umbral de conocimientos de un aprendiz extranjero. También animaría y mucho a los editores y creadores de libros de texto de español como lengua extranjera a perder el miedo a los corpus y consultarlos para la creación de diálogos y de muestras lingüísticas con las que ilustrar determinadas explicaciones, porque aunque no se seleccionen tal cual los ejemplos del corpus cuando se crea un material didáctico, sí que pueden ser útiles para ilustrar determinados usos y adaptar esos datos a las posibles explicaciones. Y bueno, ya por último, pues a cualquier persona en general que tenga interés. Este es un recurso gratuito y de libre acceso, como también lo es el corpus, por tanto cualquier persona puede acceder a ello. Creo que la complejidad técnica que implica su uso no es muy amplia, no es muy grande, entonces creo que cualquiera con unos conocimientos mínimos podría acceder a estos datos. Muy bien, pues muchas gracias María por venir aquí, yo creo que con esto tenemos suficiente, otra vez agradecerte que dedicaras este tiempo a estar con nosotros aquí en Palabras binarias, felicitaros a todas por el trabajo, a Ana Rodríguez, a Nuria García, a Victoria Vázquez y a ti, María San Pedro, por este trabajo y, bueno, mis mejores deseos para todo lo que hagáis a partir de ahora. La verdad es que yo agradecido de que os hayáis prestado a hablar del corpus ESLORA, yo creo que la gente, después de estos tres vídeos, va a tener un poco más claro qué es lo que puede buscar y para qué sirve y nada, animaros a seguir trabajando en esta línea.",[21,1808,1809,1811],{},[337,1810,1518],{}," Muchas gracias a ti, Mario, por darnos este espacio y dejarnos, permitirnos, hablar de estas funcionalidades, de lo que se puede hacer con estos recursos que hemos creado.",[21,1813,1814,1816],{},[337,1815,339],{}," Muy bien, pues muchas gracias María, venga, hasta luego.",{"title":105,"searchDepth":106,"depth":106,"links":1818},[1819,1820,1821],{"id":18,"depth":106,"text":19},{"id":1455,"depth":106,"text":1456},{"id":69,"depth":106,"text":70},"/media/eslora_pragmatica.png",{},15,"/articles/2025-03-14-informacion-pragmatica-corpus-eslora","2025-03-13T11:00:00.000Z",{"title":1442,"description":1452},"articles/2025-03-14-informacion-pragmatica-corpus-eslora",[486,128,566,686,688,1830],"Pragmática","lgjeVSHzRAbB6JzA-42Ue07c4NiVkPrud1n7yV2pyiQ",{"id":1833,"title":1834,"author":7,"body":1835,"description":1974,"entity":112,"extension":113,"image":1975,"imageOnContent":115,"language":116,"meta":1976,"navigation":118,"number":1977,"path":1978,"promoted":115,"published":1979,"seo":1980,"stem":1981,"tags":1982,"translation":130,"type":130,"__hash__":1983},"articles/articles/2025-02-13-demostracion-uso-corpus-eslora.md","Demostración de uso de la aplicación de búsquedas del corpus ESLORA",{"type":9,"value":1836,"toc":1970},[1837,1840,1844,1872,1874,1877,1880,1883,1886,1889,1892,1895,1898,1901,1904,1907,1910,1913,1916,1919,1922,1925,1928,1931,1934,1937,1940,1943,1946,1949,1952,1955,1958,1961,1964,1967],[12,1838],{"url":1839},"https://www.youtube.com/watch?v=vz4lJKnnOlo",[16,1841,1843],{"id":1842},"enlaces","Enlaces",[28,1845,1846,1852,1860,1867],{},[31,1847,1848,1849],{},"Corpus ESLORA: ",[46,1850,1464],{"href":1464,"rel":1851},[50],[31,1853,1854,1855,1859],{},"Vídeo \"",[46,1856,1858],{"href":607,"rel":1857},[50],"Palabras ortográficas y elementos gramaticales","\"",[31,1861,1862,1863],{},"Grupo de Gramática del Español: ",[46,1864,1865],{"href":1865,"rel":1866},"http://gramatica.usc.es",[50],[31,1868,1416,1869],{},[46,1870,1419],{"href":1419,"rel":1871},[50],[16,1873,70],{"id":69},[21,1875,1876],{},"Bienvenidos y bienvenidas a una nueva entrega de Palabras binarias: Informática para lingüistas. Recordad que aquí podéis estar informados sobre cuestiones relacionadas con la lingüística de corpus, la lingüística computacional, la inteligencia artificial y la informática en general. En nuestro último vídeo hablamos con Victoria Vázquez sobre el corpus ESLORA, el corpus para el estudio del español oral. Lo que vamos a hacer en este vídeo es una demostración del sistema de búsquedas de ese corpus para ver las búsquedas más típicas que se pueden hacer en un corpus de ese tipo. Vamos a verlo.",[21,1878,1879],{},"Bien, vamos entonces a jugar un poco con la aplicación de búsquedas del corpus ESLORA, haciendo algunas consultas que pueden ser interesantes. La aplicación está en la dirección eslora.usc.es, ¿vale? https o http. Y para ir a la zona de búsquedas, tenéis que pinchar aquí en búsquedas. Veis aquí el formulario de búsquedas. En este formulario podéis ver 5 zonas. La zona de búsqueda, la zona de resultado, la zona de sensibilidad, la de filtros y finalmente aquí la de palabras ortográficas que a veces cambia cuando hacemos búsquedas de elementos gramaticales. Lo comentaremos en un momentito.",[21,1881,1882],{},"Veis que en búsqueda tenemos el subcorpus en el que podemos buscar, el de conversaciones o el de entrevistas o cualquiera. Nosotros esto no lo vamos a tocar. En los ejemplos que vamos a hacer no vamos a elegir un subcorpus. El tipo de búsqueda que queremos hacer, si son palabras ortográficas o elementos gramaticales.",[21,1884,1885],{},"Os recuerdo que tenemos un vídeo en palabrasbinarias.com, el número 5, donde explicamos la diferencia entre palabras ortográficas y elementos gramaticales en el contexto de este tipo de sistemas de búsqueda. Luego haré un pequeño ejemplito para que lo entendáis. A grandes rasgos la palabra \"dárselo\", por ejemplo, es una palabra ortográfica, pero en realidad son tres elementos elementos gramaticales. Es el verbo \"dar\", el pronombre \"se\" y el pronombre \"lo\". Esto es un resumen rápido. Si queréis más detalles sobre esto, ya os digo, el vídeo número 5, donde hablamos de palabras ortográficas y elementos gramaticales, lo explicamos con un poco más de detalle.",[21,1887,1888],{},"Podemos hacer búsquedas por palabras ortográficas o elementos gramaticales y luego en los dos primeros sistemas de búsqueda puedes buscar secuencias de palabras ortográficas o elementos gramaticales que están uno a continuación del otro. Los elementos gramaticales o las palabras ortográficas, pero si queremos que pueda haber distancia entre ellas, pues están los otros elementos. Palabras ortográficas próximas y elementos gramaticales próximos. Creo que tengo un ejemplito pequeño preparado con una de estas dos.",[21,1890,1891],{},"Tipo de resultado, pues frecuencia simple, que es el número de veces que aparece en nuestra búsqueda, la frecuencia completa. Lo vamos a ver, vamos a verlo en los ejemplos. La frecuencia completa que desglosa estas coincidencias en cada uno de los metadatos que considera la aplicación. Lo vamos a ver también. Las concordancias, que es la búsqueda, la coincidencia en el contexto. La palabra... keyword in context es concordancias del inglés, la palabra clave que coincide en su contexto. Los inventarios, que lo vamos a ver mejor en un ejemplo que podemos hacer y las intervenciones, que este este punto no lo vamos a tratar aquí, lo vamos a tratar en una sesión posterior con María Sampedro, que es la ideóloga de esta funcionalidad y lo vamos a hablar con ella.",[21,1893,1894],{},"Veremos sobre todo los cuatro primeros tipos de resultado. Aquí hay criterios de ordenación, el tamaño de páginas de resultados y luego los filtros de alto nivel que llamamos, que son los valores de los metadatos que considera el corpus. Tenemos el rango de edad, si queremos filtrar más para una edad concreta podemos especificarlo ahí, el papel que desempeña en la entrevista, el nivel de estudios, universitarios, medios y primarios, el género de la persona, hombre o mujer y también se puede llegar a filtrar por hablantes, hablantes concretos que están codificados y también hay una parte de que se puede limitar las búsquedas a ciertos fragmentos que están marcados con algún tipo de información oral y esta parte también la vamos a ver con María.",[21,1896,1897],{},"Vamos entonces a empezar con la palabra \"rollo\" que comentaba Victoria en la entrevista que hemos hecho con ella y, simplemente, una búsqueda simple de palabra ortográfica. Aunque el resultado por defecto que hay es concordancias, y tiene su sentido que eso sea así, lo comentaremos después, vamos a ir viendo primero el resultado de frecuencia simple, sin más. Veis que aparecen 181 resultados de 754.689. 181 es el número de veces que aparece la palabra rollo en todo el corpus y 754.689 es el número de palabras del corpus. Fijaos que luego aquí aparece lo que se llama la frecuencia relativa, que quiere decir que el corpus tiene 754.000 palabras buscables, pero si tuviera un millón de palabras, lo que dice aquí 240 por millón es, si el corpus tuviera un millón de palabras aparecería 240 veces. Entonces esta es la frecuencia relativa. ¿Qué es este 754.000? Si, por ejemplo, yo le digo aquí que me devuelva solo los casos del rango de edad 19-34, veis que cambia el número de coincidencias, ahora hay menos, hay 116, pero que también cambia el referente 287.000. ¿Por qué? ¿Qué es este 287.000? Es el número de palabras que hay en ESLORA asociados a hablantes con un rango de edad entre 19 y 34 años. Veis que también la frecuencia relativa cambia. Si queréis saber más sobre frecuencia absoluta y frecuencia relativa recordad que tenemos en palabrasbinarias.com, en la sección de talleres hay un taller que se llama taller de conceptos estadísticos aplicados a la lingüística de corpus. Es un taller introductorio de dos horas cuarenta minutos aproximadamente, no es muy extenso, donde, entre otras cosas, explicamos bien esto de la frecuencia absoluta, frecuencia relativa y alguna otra cosa más que os comentaré dentro de un momentito.",[21,1899,1900],{},"Bien, vamos a dejarlo como estaba, vamos a poner aquí \"cualquiera\". Ahora nos vamos a la frecuencia completa. La frecuencia completa es igual que la frecuencia simple, pero los datos aparecen desglosados por cada uno de los metadatos que hay asociados a los hablantes del corpus ESLORA. Por ejemplo, aquí vemos que hay, bueno, en realidad en ESLORA no hay textos, casi no hay texto de hablantes de menores de 19 años, de acuerdo, es alguna audiencia fortuita que ha aparecido en alguna conversación o en alguna entrevista, pero en realidad los rangos de años que se suelen manejar en ESLORA son estos tres, 19-34, 35-54 y mayores de 54.",[21,1902,1903],{},"Bien, pues vemos los valores desglosados, vemos que hay 116, los que salían antes cuando poníamos el filtro, 116 casos entre 19 y 34 años, 29 casos entre 35 y 54 y 36 en mayores de 54. Aunque es útil ver el número de casos, podemos luego ver los ejemplos o lo que sea, más interesante si cabe que la frecuencia absoluta es la frecuencia relativa, podemos ver aquí que entre 19-34 años hay 404 casos por millón, en 35-54 hay 126 por millón y en mayores de 54 hay 152 por millón. Veis que creo que es a lo que se refería Victoria en la entrevista, veis que en la zona de 19-34 hay muchos más casos, hay una ocurrencia de la palabra \"rollo\" en muchos más casos entre la gente joven más que en la gente no tan joven. Podemos ver aquí en entrevistador/informante, veis que una proporción mucho más alta la hay más entre los informantes que en los entrevistadores, quizás los entrevistadores están un poco con la alerta y son más cuidadosos con el vocabulario que están utilizando, no lo sé, estudios universitarios medios y primarios, fijaos que aquí hay una frecuencia más alta en las personas con estudios universitarios y entre conversaciones y entrevistas, fijaos igual en la línea de lo que estaba diciendo antes, se usa mucho más la palabra \"rollo\" en conversaciones que en entrevistas. Veis que aunque la frecuencia absoluta es menor aquí en conversaciones, hay 49 casos y en entrevistas hay 132, en cambio la frecuencia relativa es mucho mayor en conversaciones porque el subcorpus de conversaciones es mucho más pequeño. Al ser también bastante pequeño hay que tener un poco de cuidado al manejar estas cifras.",[21,1905,1906],{},"Se pueden ver ahí tendencias del uso de la palabra \"rollo\", bien por estudios, bien por edad, bien por el tipo de conversación o entrevista que se está teniendo. Aquí al ver la frecuencia normalizada podemos llegar a ver que es más frecuente en este corpus, es más frecuente una opción que otra, pero para llegar a la conclusión de que un fenómeno es más frecuente en un cierto tipo de población que en otro, aparte de que habría que comparar también con otros corpus para tener información diversificada, también sería necesario aplicar algún criterio o algún método de significancia estadística, como puede ser el ji-cuadrado que es de los más sencillos que se pueden calcular, que también explicamos un poco cómo usar el ji-cuadrado en estos contextos en ese taller de conceptos estadísticos aplicados a la lingüística de corpus, por si queréis cursarlo. Es un taller pequeñito introductorio, pero que tiene cositas interesantes que os pueden ayudar a concluir mejor o a interpretar mejor los resultados que vemos ahí, porque puede ser que una frecuencia relativa sea más grande que otra, pero que luego veamos que estadísticamente eso no... podría haber sido fruto de la casualidad. Es un poco lo que hace el ji-cuadrado, determinar si los datos que vemos ahí son productos de la casualidad o si realmente hay una diferencia en ellos. Cuando vemos un valor tan grande de diferencia, como puede ser aquí 404 por millón o incluso aquí que es el doble, es muy probable que el cálculo del ji-cuadrado nos refrende que hay alguna diferencia, que efectivamente. la palabra \"rollo\" se utiliza más en conversaciones espontáneas que en entrevistas, y que probablemente la gente joven emplee más esas palabras que la gente no tan joven. Es también lo que nos dice la lógica.",[21,1908,1909],{},"Aparte de esto, podemos ir ahora, y siempre es recomendable cuando estamos haciendo una búsqueda de este tipo, ir a las concordancias. No vaya a ser que el sistema esté haciendo algo raro o que las búsquedas estén obteniendo valores que no son los que... En este caso es una búsqueda muy sencillita que es la palabra \"rollo\". Pero cuando hay una búsqueda un poco más compleja, a lo mejor no estamos buscando lo que queremos. ¿Cómo sabemos si estamos buscando lo que queremos? Si en las concordancias obtenemos fenómenos de los que estamos buscando. Podéis ver ahí los casos de \"rollo\": \"era un rollo\", \"buen rollo\", \"no sé era rollo\", \"y yo ya rollo\". Lo tenéis ahí. Vamos a ir a ver el ejemplo número 15. Veis que aquí hay un triangulito. Podemos escuchar al hablante decir la palabra \"rollo\". Vamos a ponerla para escuchar ¿Qué es lo que dicen? \"pero mientras tengo pocas clases podías venir, ¿no? en plan buen rollo\". ¿Veis? Aquí se puede escuchar y si pincháis en el numerito también podéis ver más contexto de la conversación. Veis un poco las intervenciones anteriores y posteriores. Podéis ver aquí y podéis ir dándole al play a las anteriores y posteriores, e incluso podéis expandir más el contexto. Bien, esto sobre la palabra \"rollo\".",[21,1911,1912],{},"Vamos a volver. Bueno, vamos a limpiar directamente el formulario. Lo que os decía antes de palabras ortográficas y elementos gramaticales, como normalmente las búsquedas más útiles son sobre elementos gramaticales, tengo aquí un ejemplo un poco chorras, pero para que veáis, cuando vais a buscar elementos gramaticales, hay que saber qué es lo que hay debajo. Por ejemplo, tenemos la palabra \"decírselo\". Tenemos ahí, buscamos \"decírselo\" y vemos que hay ocho casos de \"decírselo\". Ahora vamos a hacer una búsqueda de elementos gramaticales y voy a buscar \"decírselo\". Le damos a buscar y no sale nada. ¿Por qué no sale nada? Lo explicamos antes. Lo que en las palabras ortográficas es una palabra, es \"decírselo\", en elementos gramaticales son tres elementos gramaticales, \"decir\", \"se\" y \"lo\". Entonces lo que habría que buscar es \"decir\" seguido de, al darle al más, cuando estamos en elementos gramaticales, aquí al darle al más, es seguido de. \"Decir\", \"se\" y \"lo\". Aquí están los ejemplos de antes, ¿de acuerdo? Lo que en palabras ortográficas es una palabra ortográfica son tres elementos gramaticales. Si vamos a buscar la palabra ortográfica y esa palabra ortográfica tiene varios elementos gramaticales, no va a aparecer. Tendríamos que buscar los elementos gramaticales individualmente, ¿vale?",[21,1914,1915],{},"Entonces vamos a hacer un ejemplo de búsqueda de elementos gramaticales y vamos a empezar por uno muy típico del español de Galicia, que es el empleo de la estructura ir + infinitivo. Por influencia del gallego, pues hay, cuando hablamos español, muchos gallegos, no es raro que digamos voy comer un bocadillo, en vez de voy a comer un bocadillo, por ir ver una pelicula haría lo que fuera, en vez de por ir a ver una película, o íbamos comer allí todas las tardes, íbamos a comer allí todas las tardes. Como la estructura sintáctica de ese tipo en gallego no lleva el \"a\", pues cuando hablamos castellano, muchas veces se nos, bueno, lo pronunciamos así, utilizamos esa estructura. Vale, vamos a ver si hay casos entonces en ESLORA. Vamos a hacer una búsqueda por elementos gramaticales y queremos buscar \"ir\" + infinitivo. ¿Qué pasa? Que son, como visteis en los ejemplos, puede ser cualquier forma del verbo \"ir\", no es el \"ir\" en infinitivo. \"Voy comer\", \"iba ir\", lo que fuera. Vale, entonces lo que vamos a hacer es buscar el lema \"ir\", para que nos busque todas las variantes del verbo \"ir\". \"Ir\" seguido de infinitivo. Infinitivo es la etiqueta, la etiqueta morfosintáctica, le vamos a decir aquí, verbo y modo infinitivo. Ahí está. Vale, fijaos que cuando yo pongo aquí la etiqueta, al pinchar aquí en el interrogante, veis el código de la etiqueta que realmente se está usando en la aplicación. Esto no lo vamos a usar ahora, pero lo vamos a usar después en otro ejemplo. VNP sería la etiqueta que está poniendo ahí. O sea que si yo escribo aquí VNP sería lo mismo que haber hecho que esto que acabamos de hacer con el menú más amigable.",[21,1917,1918],{},"Bueno, le damos a buscar, nos está yendo a concordancias. \"Que fuéramos jugar al fútbol\", \"que fueron acompañar al hermano\", \"no fuese pasar\". A ver, vamos a buscar alguno así más... \"Ibas a salir el sábado\", en vez de \"ibas a salir el sábado\", \"iban hacer\", etcétera. Veis que hay un montón de casos. Ojo, hay también cosas que no son las que estamos buscando. Como puede ser este \"ir, ir, ella sola\". Esto es que ha habido una repetición. Está el verbo \"ir\" y el verbo \"ir\", pero es una repetición de la persona. Aquí hay \"ir, ir\", \"ir, ir\". Pero veis que la mayoría sí encajan. \"Ir jugar\", \"sí podía ir jugar al fútbol\", \"ir lavar al río\"... Veis que hay bastantes casos. Hay 112 casos de la estructura \"ir\" más infinitivo.",[21,1920,1921],{},"Podemos ir aquí a la frecuencia completa. Nos salen aquí los casos. Podemos intentar ver si hay algún patrón por aquí. Fijaos, 195, 137 y 112 por millón. No veo aquí grandes diferencias como se veía en el caso anterior. Aquí, bueno, sí, entrevistador, informante, audiencia, pues sí que lo usa más la audiencia. Pero bueno, hay que tener cuidado con esto porque es un resultado. Recordad que audiencia es personas, que aparecen a veces en una entrevista de manera espontánea, que no son el objeto de la entrevista. Entonces, tened cuidado con esto porque sólo es un ejemplo el que sale aquí. Hay 110 en informante y uno aquí. Sí, nos da una frecuencia por millón muy elevada, pero sabemos que es testimonial lo que pasa ahí. No podemos fiarnos de este valor. 189 frente a 126, 132, 161, 178 y aquí 259 por 132. Aquí igual habría algo que investigar. Si también en un entorno de conversación espontánea esas fórmulas se utilizan más que cuando hay una entrevista, que a lo mejor controlamos un poco más el tipo de expresión que decimos, etcétera, sería algo a investigar.",[21,1923,1924],{},"Bien, y tenemos la concordancia, que es donde estábamos antes. También, bueno, si no me creéis de que decimos esto, podéis darle al play. Vamos a darle aquí al caso número 21. \"Sí, sí, cada fin de mes hacemos cuentas. Y, nada, voy comer a casa, prefiero ir comer a casa. Tengo la posibilidad de comer aquí en el colegio, pero prefiero ir a... prefiero ir a casa, aunque no tenga mucho tiempo, porque a las cuatro tengo que estar aquí\". Veis que lo dice varias veces: \"voy comer a casa\", \"prefiero ir comer a casa\". Veis que aparecen, ¿no?, no me lo estoy inventando, ni el sistema se lo está inventando.",[21,1926,1927],{},"Bien, entonces, ahora vamos a ver la parte de inventarios. Esta misma búsqueda, en las concordancias las vemos todas, pero ¿cómo podemos hacer para saber, por ejemplo, si es más habitual con un tipo de verbo? ¿Depende del verbo que hay después del \"ir\"?. O sea, ¿se utiliza solo con algunos verbos después del \"ir\" o se utiliza con cualquier verbo después de \"ir\"? ¿Qué verbos aparecen más frecuentes en esta estructura de \"ir\" + infinitivo? Pues eso lo podemos hacer con los inventarios. Si repetimos la búsqueda en inventarios, fijaos, nos salen aquí. \"Voy ir\", \"ir ver\", \"ir ir\", \"voy pasar\", \"voy poner\", \"iba trabajar\". Veis que \"voy ir\" aparece cinco veces. ¿Qué pasa aquí? Que está cogiendo. Fijaos que aquí, cuando vas a inventarios, aparece un nuevo campo que es agrupar, que es cómo queremos que se agrupen los casos. Aquí se están agrupando por elemento gramatical, pero fijaos que \"voy ir\", \"ir ir\" o, a ver, esperad que busco aquí uno, \"ir comer\", por ejemplo, \"ir comer\" y hay otro aquí abajo que es \"iba comer\". Veis, \"ir comer\" e \"iba comer\".",[21,1929,1930],{},"Como estamos agrupando por la forma concreta del elemento gramatical, pues los está desglosando, pero sería muy interesante poder tener el resultado agrupado por el lema, de tal manera que \"voy comer\" y \"ir comer\" se agruparan dentro de ir a comer, que estuvieran sumadas todas ahí. ¿Cómo podemos hacer eso? Pues aquí en la agrupación, en lugar de elemento gramatical, vamos a agrupar por lema y al agrupar por lema, fijaos, en \"ir comer\" ya están sumadas las de un lado con las del otro. Entonces tenemos \"ir ir\", acordaos que aquí hay algunas que son erróneas. Está \"voy ir\", \"ir ir\" y \"va ir\". Fijaos que al darle allí, lo voy a hacer otra vez, aquí si le doy ahora a los lemas, al pinchar aquí, me dice qué elementos gramaticales hay incluidos dentro de esos lemas. Está la fórmula \"voy ir\", la fórmula \"ir ir\" y \"va ir\". Estos de aquí, estos tres sabemos que no son casos correctos. Aún así, pues bueno, podemos ver que con \"ir\", aunque saquemos tres, quedaría nueve, ocho, siete, seis. Quedaría seis. Con \"ir\", con \"ver\", con \"hacer\", con \"comer\", con \"trabajar\", aparecen mucho más, bueno, mucho más. Aparecen más veces que pues con \"ayudar\", con \"ser\", con \"cerrar\", que aparece una vez. Puede ser por el contexto de, bueno, porque además suelen ser verbos más frecuentes o podría haber alguna otra explicación que se nos escape, ¿vale?, es un objeto interesante de estudio.",[21,1932,1933],{},"Vale, bueno, hemos visto ya un ejemplo de búsqueda de elementos gramaticales. Vais viendo un poco el potencial de la herramienta. Vamos a hacer otro ejemplo ahora, también con elementos gramaticales, pero vamos a intentar usar comodines y operadores booleanos que también tiene la aplicación. Vamos a, por ejemplo, a ver, palabras con el prefijo \"super\", ¿vale? ¿Qué podemos hacer con las palabras con el prefijo \"super\"? Vamos a ver qué palabras hay con el prefijo \"super\". Entonces, podemos buscar en palabras ortográficas las palabras que empiezan por \"super\". Las palabras que empiezan por \"super\" es \"super\" asterisco. Ese asterisco dice que puede venir después de \"super\" lo que sea. Si le damos a buscar en concordancias, fijaos que \"supera\" no es una palabra con prefijo \"super\", es una palabra que empieza por \"super\". Sí que hay algunas ahí como \"superarregladas\", \"superbien\", hay, bueno, bastantes, pero hay otras que no, como \"supera\", \"superábamos\", etcétera. Por eso se utilizan más las búsquedas de elementos gramaticales, porque podemos afinar esto un poquito más. ¿Cómo lo podemos afinar? Pues podemos afinarlo poniendo búsqueda de elementos gramaticales, vamos a ver, aquí, y le vamos a decir que queremos que aparezca \"super\", perdón, \"super\" asterisco, pero, por ejemplo, que me limite las búsquedas a adjetivos. Vamos a buscar y ahí pues vemos \"superabierta\", \"superagobiante\", \"superagradable\", ¿vale?, veis que \"supercaro\", que, bueno, el resultado es más lo que buscamos, pero, bueno, ¿solo los adjetivos tienen prefijo \"super\"? No, bueno, también los adverbios. Vale, vamos a cambiar aquí adjetivo por adverbio. Buscar, pues también tenemos aquí \"superpronto\", \"superguay\", \"superbien\".",[21,1935,1936],{},"Vale, con el menú amigable solo podemos poner una categoría ahí. Si vemos un poquito mejor cómo está estructurado el corpus, tenéis en la guía unos documentos estupendos en los que, bueno, os describe todo el sistema, hay una parte de las etiquetas morfosintácticas, hay otra donde describen más ejemplos de los que estamos viendo aquí. Tenéis ejemplos de este tipo también en la guía. Si lo veis allí un poquito, os daréis cuenta de que, bueno, en etiqueta hasta ahora usamos el menú amigable. Si yo ahora quiero aquí que ponga adjetivo o adverbio, que los trate conjuntamente, tengo que cubrir algo en etiqueta. Podemos verlo aquí en el interrogante. La etiqueta W es la etiqueta adverbio. Si yo le digo que me ponga la de adjetivo, fijaos que ahí me dice 12 etiquetas seleccionadas. Veis que, bueno, empiezan por A y luego hay 12 etiquetas diferentes que empiezan por A. Bueno, de aquí podéis deducir algo del estilo que yo no quiero eso, yo lo que quiero es W o A asterisco. Fijaos que me da 13, las 12 del adjetivo y la del adverbio. ¿Qué puse aquí? Una barra vertical. Ese \"o\" que dije es una barra vertical. La barra vertical es un \"o\" que se puede usar tanto en el elemento gramatical como en la etiqueta o el lema. Quiero que me busques las palabras que empiezan por \"super\", que además sean o adverbios o adjetivos.",[21,1938,1939],{},"Si le damos aquí, pues deberían salirnos. Tenéis ahí \"superagobiada\", \"superancho\", \"superbonita\", \"superchunga\", \"superguay\". Vamos a ver en la segunda página. Fijaos, en la segunda página aparece \"superior\", que es un adjetivo que empieza por \"super\", pero no estamos interesados. ¿Podríamos eliminar del resultado eso? Pues sí, le podríamos decir aquí. Si le ponemos admiración, admiración es \"not\". Es el operador \"not\". Le decimos que sean las palabras con prefijos, o sea que empiezan por \"super\", pero que no sea \"superior\". Por si aparece \"superior\" o algo así, le voy a poner también asterisco. ¿De acuerdo? Entonces, esto nos debería eliminar \"superior\" de ahí. Vamos a verlo. \"superguay\", segunda página, \"superinteresante\", \"superior\". Salía aquí después. Ya no sale. Entonces la admiración es el \"not\", la barra vertical, el \"or\". Podemos decir esto o lo otro, o esto y no, pero no lo otro. Se podría poner aquí más \"not\" a continuación. ¿De acuerdo? Bueno, vamos a echar un ojo también aquí. Más que nada, por curiosidad, vamos a poner aquí en frecuencia completa, palabras con prefijo \"super\", frecuencia completa. Fijaos, aquí podemos ver que la franja ahora, perdón, la franja de edad en la que más se utiliza, hay bastante diferencia con respecto al resto, es del 19 al 34. Las personas más jóvenes, que bueno, puede tener sentido. Los informantes más que los entrevistadores y también en las conversaciones más que en las entrevistas. También puede llegar a ser interesante.",[21,1941,1942],{},"Bien, vamos a ver entonces ahora otro ejemplo y vamos a ver, a trabajar con el sufijo, el uso del sufijo \"ísimo\", \"ísima\", \"ísimos\", \"ísimas\". ¿Cómo podemos buscar aquí? Vamos a trabajar con elementos gramaticales y vamos a ver cómo podemos buscar las palabras o las formas, en este caso, que acaban en \"ísimo\", \"ísima\", \"ísimos\", \"ísimas\", ¿vale? Entonces podemos ver, podemos hacer uso de los comodines otra vez, el asterisco ahora lo ponemos al principio, entonces podemos poner asterisco \"ísimo\", pero nosotros queremos \"ísimo\", \"ísima\"... \"ísimos\", \"ísimas\" lo podemos hacer con un interrogante, el interrogante es una letra cualquiera, vale, \"ísimo\", \"ísima\", \"ísime\", si existiera, \"ísimi\", lo que fuera. Vale, entonces con esto tenemos \"ísimo\" e \"ísima\", pero podemos decirle también que nos coja \"ísim\", \"ísim\", interrogante \"s\", vale, de esta manera, con esta expresión, tenemos \"ísimo\", \"ísima\", \"ísimos\" e \"ísimas\", ¿de acuerdo?",[21,1944,1945],{},"Bien, pues si le damos a buscar, vemos ahí pues \"abriguísimo\", \"aburridísimo\", \"adelantadísimo\", \"agobiadísimo\", \"altísima\", vale, podemos ceñirlo, bueno, ese \"abriguísimo\", es un sustantivo, el resto son adjetivos, \"borrachísima\", podemos, digamos, delimitar la búsqueda a adjetivos también si queremos, ¿vale?, aquí tenemos los ejemplos, también podemos ver los inventarios para ver qué formas en \"ísimo\" se están usando, vamos a dejar agrupación por elemento gramatical, \"buenísimo\", \"buenísima\", \"carísimo\", \"riquísimo\", \"buenísimos\", tenemos aquí pues las que más se utilizan y podríamos comparar esto con la forma \"muy\" adjetivo, ¿sí?, podemos comparar el uso, podríamos comparar el uso de las formas en \"ísimo\", \"ísima\" con el uso de las formas en \"muy\" + adjetivo, ¿cómo podemos buscar aquí? En este caso tendríamos que hacer dos búsquedas separadas, primero en \"ísimo\", esto lo podríamos descargar, lo podéis descargar en CSV o en Excel y luego cargarlo en el Excel o lo que sea, le dais aquí pues podéis descargar la página o descargar todo el resultado, y por otro lado pues podemos buscar \"muy\", \"muy\" + adjetivo, por ejemplo, \"muy abierta\", \"muy activo\", \"muy adecuado\", etcétera, podemos ir aquí también a los inventarios etcétera, podemos descargar este resultado y compararlo.",[21,1947,1948],{},"También lo podríamos... en el de \"ísimo\", voy a volver a hacer el de \"ísimo\" en la frecuencia completa, elementos gramaticales, vamos a buscar \"ísimo\", \"ísima\", \"ísimos\" e \"ísimas\", y le decimos adjetivos. Primero voy a las concordancias, voy a las concordancias para confirmar que lo que estoy buscando es lo que quiero buscar, fijaos me ha dicho que no, o sea que he escrito algo mal, a ver lo voy a escribir otra vez que no veo bien aquí, ah me falta el asterisco, claro, me falta el asterisco, palabras que empiezan por cualquier cosa y continúan con \"ísimo\", \"ísimas\", ahora que veo que me da bien el resultado voy a la frecuencia completa y podemos echar un ojo allí también, aquí no veo grandes diferencias en la frecuencia en la frecuencia relativa, lo siguen diciendo más los informantes que los entrevistados, aquí, bueno, hombre mujer no sé si hay bastante diferencia y bastantes casos en ambos casos, no sé si... estaría bien aplicar aquí algún estadístico que nos diga si esto es estadísticamente significativo, si, por ejemplo, las mujeres tienden a utilizar más las formas en \"ísimo\" que los hombres, estaría bien para investigarlo.",[21,1950,1951],{},"Aquí, bueno, aquí también pasa algo raro, bueno algo raro, se ve que en los universitarios parece que lo dicen más, que los que tienen estudios medios sobre todo y en los primarios pues también hay un repunte, estaría bien ver si esto es estadísticamente significativo o no y aquí fijaos también en conversaciones pues mucho más que en entrevistas. Hemos visto en los ejemplos que apunta a que, bueno, en las entrevistas, como es lógico también, a lo mejor la gente, las personas que se entrevistan, aunque es una entrevista bastante informal de temas bastante informales, igual la gente controla un poco más el vocabulario que si hay una conversación de varias personas sobre cualquier tema, eso es lo que a lo que apuntan las cosas que estamos viendo, algunos de estos ejemplos.",[21,1953,1954],{},"Bien y, bueno, un último ejemplo que podemos ver sería, por ejemplo, ver el verbo \"quedar\" + preposición, vamos a ver el uso del verbo, qué usos hay del verbo \"quedar\" + preposición, elementos gramaticales, \"quedar\" en lema, para que me coja cualquier forma del verbo \"quedar\", \"quedar\" + y aquí preposición pues aquí tenemos \"queda como\", \"quedar como\", \"queda como Barcelona\", \"quedar con\", \"queda con\", \"queda de\", \"queda dentro de\", \"queda en\", \"queda entre\", etcétera, ¿vale?, vale, lo que decíamos antes, en las concordancias vemos los ejemplos pero vamos a las, vamos a los inventarios, vale aquí tenemos quedar con, aquí sí que vuelve a ser interesante para que nos agrupe todo esto, \"quedó con\", \"quedar con\", \"quedo con\", \"queda en\", para que nos agrupe los mismos elementos por lema, vamos a ponerle aquí agrupación por lema porque yo creo que va a ser más interesante lo que vamos a ver ahí porque bueno veis que sólo hay 12 resultados, hay mucha variabilidad y 71 casos de \"quedar con\", 68 de \"quedar en\", \"quedar a\", \"quedar sin\", \"quedar de\", \"quedar por\", \"quedar para\", \"quedar hasta\", \"quedar como\", \"quedar entre\", \"quedar dentro de\" y \"quedar en vez de\". ¿Veis?, aquí en los inventarios sí que se obtienen cosas interesantes.",[21,1956,1957],{},"Aquí en estos parámetros que tenéis aquí cuando vais al inventario podéis desglosar por ejemplo, grupo de edad, pues podéis desglosar en qué grupo de edad se utiliza más estas... cada una de las expresiones, ¿vale? tenéis el desglose. Puede ser por grupo de edad, o si no queremos grupo de edad, nivel de estudios, por ejemplo, podéis poner todos, ¿eh?, podéis poner también grupo de edad, lo que pasa que cada vez ocupa más, ¿vale?. Bueno, un tema interesante aquí, bueno, aquí aparecen 12 casos, un tema interesante aquí es si a lo mejor aparece... imaginaos que alguien dice \"quedar eee con\", por ejemplo, y aparece \"quedar\" y \"con\" pero hay alguna interjeción en el medio, o una pausa, o una repetición o lo que sea, pues para esos casos resulta interesante los elementos gramaticales próximos, ¿vale?, y aquí lo que vamos a hacer es: ponemos \"quedar\" en el primer caso y preposición, perdón, en el primer elemento gramatical, y preposición en el segundo. Esta búsqueda es la misma que la de antes, si yo le doy a buscar... porque aquí pone distancia 1, o sea, es quedar y después preposición. Bueno, aquí lo pinta de otra manera, pero es lo mismo. Vamos a ponerle aquí lema, al final es lo mismo, ¿veis?, los mismos 12 casos, pero vamos a ponerle aquí que la distancia sea menor igual que 3, es decir, que el \"quedar\" y la preposición pueden aparecer a una distancia mayor a uno, no justo a continuación, por lo que sea, bien porque haya algún tipo de estructura sintáctica que puede meter cosas en el medio, bien porque en estructuras propias del habla pues cortamos la narración o el discurso de alguna manera.",[21,1959,1960],{},"Aparece un caso más, que no sé cuál es, \"a cargo de\", \"quedar a cargo de\", vamos a ver al anterior, fijaos, el \"a cargo de\" no estaba, sale uno más, ¿veis?, a ver, esperad que... menor igual que 3. El \"a cargo de\", \"quedar a cargo de\", no estaba. Si lo vamos a ver, fijaos, vamos a ver el ejemplo, aquí, nos dice \"y quedamos eeh a cargo de\", mira, justo el caso que estaba comentando \"y quedamos eeh a cargo de\", fijaos, pues con elementos gramaticales próximos, al trabajar con la distancia, podemos paliar un poco los efectos de... pues, bueno, o no paliar, simplemente que a veces en la manera de hablar las estructuras no son rígidas en el sentido de, bueno, primero \"quedar\" y después la preposición. Pueden aparecer cosas en el medio, en este caso es una interjeción, pero a veces hay estructuras que permiten meter sintácticamente, incluso es correcto, meter cosas en el medio, o hacer incisos o lo que sea.",[21,1962,1963],{},"Podríamos jugar también aquí con distancias más grandes, pero a medida que metamos distancias más grandes, tened en cuenta que sería conveniente ir a concordancias porque igual ya son preposiciones que van más bien con cosas que vienen después. Si aquí le metemos una distancia muy grande empieza a haber mucho ruido, ¿vale? tenemos que ir con cuidado con esto. Vamos otra vez a los inventarios y agrupar por lema. Seguro que en siete, bueno, estaba..., es que vine de un resultado... déjame volver hacia atrás. \"A cargo de\" no, estábamos viendo un ejemplo y entonces había aquí cosas cubiertas. Aquí, estábamos con menor o igual que tres, entonces vamos a ponerle menor o igual que siete ahora. Buscar. Bueno, veis que aparecen más cosas, \"quedar cara\", por ejemplo, vamos a ver este ejemplo, bueno, lo podemos ver ya desde allí directamente, \"quedar cara\", \"ya que te quedaba con esa cara y ya estaba\", bueno, aquí no sé por qué esto está como preposición, recordad que el ESLORA está etiquetado automáticamente y a veces comete algunos errores de etiquetación, por eso también conviene ver las concordancias, pero bueno, en cualquier caso, aunque esto fuera una preposición, veis que ya tiene que ver con la estructura siguiente, entonces, bueno, hay que tener cuidado cuando jugamos con las distancias de no pasarnos, porque sino vamos a meter mucho ruido en los resultados, ¿vale?",[21,1965,1966],{},"Bueno, yo creo que con esto queda más o menos visto lo más importante de la aplicación, vamos a ver con María, en un próximo vídeo, o próximamente, con María Sampedro, vamos a ver el tema de las intervenciones, ¿vale?, este marcado que se ha hecho y creo que más o menos le hemos dado un repaso a la aplicación. Tenéis en la guía cosas muy interesantes, ¿vale?, tenéis en la descripción general hay algunos ejemplos de este tipo que os acabo de contar, ¿vale?, tenéis ahí más ejemplos, si queréis aprender a manejar bien la aplicación, en las novedades de las versiones 2 también se hablan de los operadores booleanos y los inventarios y, bueno, tenéis ahí también la parte del etiquetario morfosintáctico, por si queréis, bueno, hacer búsquedas más sofisticadas que a lo mejor el entorno amigable no os lo permite, pero sí que se pueden hacer sabiendo cómo se construyen las etiquetas, y nada más. Espero que os haya gustado, hasta luego.",[21,1968,1969],{},"Y eso ha sido todo por hoy. Espero que os haya gustado el vídeo si queréis estar al tanto de todo lo que hacemos podéis suscribiros en la campanita que aparece en nuestra web palabrasbinarias.com a nuestro boletín informativo. En ese boletín os informamos de todo lo que hacemos, los cursos que organizamos, etcétera, etcétera. Venga! Nos vemos en la próxima entrega!",{"title":105,"searchDepth":106,"depth":106,"links":1971},[1972,1973],{"id":1842,"depth":106,"text":1843},{"id":69,"depth":106,"text":70},"En este vídeo hacemos unha demostración práctica mostrando los diferentes modos de consulta de la aplicación de búsquedas del corpus ESLORA: frecuencia simple, frecuencia completa, concordancias (kwic) e inventarios.","/media/eslora_demostracion.png",{},14,"/articles/2025-02-13-demostracion-uso-corpus-eslora","2025-02-13T10:00:00.000Z",{"title":1834,"description":1974},"articles/2025-02-13-demostracion-uso-corpus-eslora",[486,128,566,686,688],"uOc3FuO7wN0542FkTvGIzVwBm-wBLjlDti--8xWULEE",{"id":1985,"title":1986,"author":7,"body":1987,"description":2403,"entity":112,"extension":113,"image":2404,"imageOnContent":115,"language":116,"meta":2405,"navigation":118,"number":2406,"path":2407,"promoted":115,"published":2408,"seo":2409,"stem":2410,"tags":2411,"translation":130,"type":130,"__hash__":2413},"articles/articles/2025-01-03-el-corpus-eslora-entrevista-con-victoria-vazquez.md","El corpus ESLORA: Entrevista con Victoria Vázquez Rozas",{"type":9,"value":1988,"toc":2399},[1989,1992,1994,2016,2018,2023,2028,2034,2039,2044,2049,2054,2059,2064,2069,2074,2079,2084,2089,2094,2099,2104,2109,2114,2119,2124,2129,2134,2139,2144,2149,2154,2159,2164,2169,2174,2179,2184,2189,2194,2199,2204,2209,2214,2219,2224,2229,2234,2239,2244,2249,2254,2259,2264,2269,2274,2279,2284,2289,2294,2299,2304,2309,2314,2319,2324,2329,2334,2339,2344,2349,2354,2359,2364,2369,2374,2379,2384,2389,2394],[12,1990],{"url":1991},"https://www.youtube.com/watch?v=hFzP3N9epbQ",[16,1993,1843],{"id":1842},[28,1995,1996,2001,2006,2011],{},[31,1997,1848,1998],{},[46,1999,1464],{"href":1464,"rel":2000},[50],[31,2002,1854,2003,1859],{},[46,2004,1858],{"href":607,"rel":2005},[50],[31,2007,1862,2008],{},[46,2009,1865],{"href":1865,"rel":2010},[50],[31,2012,1416,2013],{},[46,2014,1419],{"href":1419,"rel":2015},[50],[16,2017,70],{"id":69},[21,2019,2020,2022],{},[337,2021,339],{},"Bienvenidos y bienvenidas a una nueva entrega de Palabras binarias, Informática para lingüistas. En esta ocasión hemos tenido el privilegio de poder hablar con Victoria Vázquez Rozas, profesora titular de Lengua Española en la Universidad de Santiago de Compostela, que cuenta con numerosas investigaciones y artículos relacionados con la estructura y funcionamiento de la cláusula en español, la sintaxis y el discurso y los métodos de construcción de corpus orales.\nEn esta charla vamos a hablar sobre el corpus ESLORA, el corpus para el estudio del español oral, del que ella es la investigadora principal. Vamos a verlo.",[21,2024,2025,2027],{},[337,2026,339],{}," Bueno Victoria, pues muchas gracias, en primer lugar, por venir aquí a Palabras binarias, a esta charla, entrevista. Te agradezco que hayas venido y, sobre todo, bueno, queríamos hablar contigo, sobre todo aprovechando que acabáis de publicar la versión 2.3 de ESLORA, nos parecía interesante que vinieras aquí a contarnos un poco cosas así generales de qué es ESLORA, qué es el corpus ESLORA, y también pues de esta versión en particular, que nos puedas dar alguna pincelada también.",[21,2029,2030,2033],{},[337,2031,2032],{},"Victoria:"," Bueno, pues muchas gracias Mario, por la invitación a Palabras binarias. Es un placer estar aquí contigo. Y bueno, quizá podamos empezar por cómo surgió el proyecto. El proyecto del corpus ESLORA surgió como una propuesta de Guillermo Rojo que nos hizo en el grupo de Gramática del Español de la Universidad de Santiago para recopilar materiales orales del español hablado en Galicia.",[21,2035,2036,2038],{},[337,2037,2032],{}," La idea inicial era participar o integrar esos materiales en un macro corpus, en un macro proyecto que se llama PRESEEA, que es un proyecto para el estudio sociolingüístico del español de España y América, en el que se reúnen materiales, hay materiales orales de unas cincuenta ciudades de realmente todos los países de habla hispana. Entonces el proyecto nació en ese momento como una parte de PRESEEA, pero bueno, luego también tuvo su vida propia, tuvo sus desarrollos particulares. No sé si quieres que comentemos algo sobre la constitución, la composición del corpus.",[21,2040,2041,2043],{},[337,2042,339],{}," Antes de ir a esa parte, me gustaría también comentar un poquito cuál es la inquietud o el interés que mueve el conocer el empleo del español en Galicia.",[21,2045,2046,2048],{},[337,2047,2032],{}," Bueno, pues sí, claro. El objetivo, nuestro objetivo, es y era y sigue siendo documentar la forma de hablar el español en Galicia. Es un objetivo que en realidad forma parte de un interés por conocer la variación de las lenguas, porque las lenguas varían, los hablantes hablan de maneras parcialmente parecidas, semejantes y parcialmente diferentes, y eso ocurre con cualquier lengua, ocurre con el gallego, ocurre con el inglés, ocurre con el chino y ocurre, por supuesto, con el español.",[21,2050,2051,2053],{},[337,2052,2032],{}," En el caso del español de Galicia, bueno, es cierto que partimos de una situación de mayor desconocimiento que el que tenemos de otras variedades. Esto es así porque la lengua tradicional propia de Galicia es el gallego, pero en las últimas décadas, sobre todo a partir de mediados del siglo XX, el uso del español fue creciendo hasta llegar a un punto en que aproximadamente un 70% de los habitantes de Galicia utiliza el español al menos en algunos contextos. Hay como un 25% de personas, de gallegos, que hablan solo español o habitualmente español y luego un 45% de hablantes que alternan el español y el gallego. O sea que realmente el gallego, el español, es una lengua que se utiliza en Galicia, pero no sabemos apenas nada de sus características, de sus condiciones de uso y también de la valoración sociolingüística que los hablantes tienen de este uso. Y, bueno, por eso necesitábamos reunir materiales que reflejaran el uso lo más natural posible que los hablantes hacen de la lengua.",[21,2055,2056,2058],{},[337,2057,2032],{}," Eso no es fácil, evidentemente, pero, bueno, en todo caso es la lengua oral la que nos puede dar pautas e información sobre la variación.",[21,2060,2061,2063],{},[337,2062,339],{}," Claro, muy interesante este asunto. Bueno, pues si quieres ahora podemos ver un poquito cómo está compuesto el ESLORA. Lo podemos ver aquí en la pantalla.",[21,2065,2066,2068],{},[337,2067,2032],{}," Comento un poco la composición. El corpus no es un corpus muy amplio, realmente tiene en este momento, en esta versión 2.3, lo veis 768.000 palabras ortográficas y está compuesto por entrevistas semidirigidas y conversaciones. Realmente la parte de las entrevistas semidirigidas, que son unas entrevistas informales, podemos decir, es una parte común a PRESEEA. Las conversaciones es un desarrollo propio de nuestro corpus y se grabaron, por supuesto, con todas las condiciones para respetar la privacidad de las personas, permisos previos, permisos posteriores, y nos dan un material muy rico para conocer el uso del español en Galicia.",[21,2070,2071,2073],{},[337,2072,2032],{}," Luego tenemos también cuestionarios sociolingüísticos y un test de inseguridad lingüística que nos sirven para recoger el discurso metalingüístico, o sea, lo que los hablantes opinan del uso del español, también del gallego y de algunas características que identifican en el español de Galicia. Eso también nos resulta útil.\nPorque, bueno, no lo comenté antes, pero evidentemente un corpus oral como este tiene además el interés añadido de que documenta el español en una comunidad bilingüe. O sea, documenta el español en contacto con el gallego y en los estudios de contacto que hoy en día cada vez tienen más interés porque, bueno, ahora somos conscientes de que casi el estado natural de los usos lingüísticos es un estado de bilingüismo, multilingüismo, contacto de lenguas, mucho más generalizado de lo que se creía hasta ahora. Entonces, también, de esta manera, sabemos un poquito más o tenemos algunos datos sobre cómo los gallegos alternamos a veces el uso del español y del gallego, que eso también está registrado en el corpus, es una parte muy importante.",[21,2075,2076,2078],{},[337,2077,339],{}," Yo lo registro en mi día a día.",[21,2080,2081,2083],{},[337,2082,2032],{}," Yo creo que todos, ¿no?. Y, bueno, sobre la estructuración del corpus, cómo está diseñado, que es la parte que aparece ahí en la tabla, seguimos los parámetros que más o menos se aplican en los estudios de sociolingüística variacionista, que son también los que se han usado en PRESEEA y por eso nuestro corpus está integrado en ese macro corpus y nos permite hacer estudios comparativos con el español de otras zonas. Y el corpus está estructurado, organizado según la edad de los hablantes, hacemos como tres grupos para la edad, lo que llamamos grupos etarios. Tenemos también tres grupos para nivel de estudios, distinguimos personas o hablantes de estudios primarios, de estudios secundarios y de estudios universitarios y también tenemos el corpus, la representación equilibrada de hombres y mujeres. Bueno, esa es la estructura general. Esto nos permite luego también hacer búsquedas particularizadas y de subcorpus que puedan interesar más en un momento dado.",[21,2085,2086,2088],{},[337,2087,339],{}," Después vemos muy poquito porque ya lo comentamos. Esto es un poco la, creo que es también la distribución de los datos en función de los criterios de los metadatos de alto nivel que hay asociados a los a los hablantes.",[21,2090,2091,2093],{},[337,2092,2032],{}," Es lo mismo, bueno, ahí también se ve que el corpus, el subcorpus de la parte inferior izquierda, el subcorpus de entrevistas es bastante más amplio, más grande que el de conversaciones. La verdad es que las conversaciones exigen mucho más trabajo, suelen ser conversaciones cortas, también la transcripción y todo el tratamiento es mucho más laborioso. Bueno, ahora a ver si aumentamos un poquito la parte de conversaciones y en algún momento se puede equilibrar un poco.",[21,2095,2096,2098],{},[337,2097,339],{}," Bueno, pues aprovechando que nosotros hemos trabajado en el desarrollo de buena parte de alguna de las cosas que están, aunque no hemos estado desde el principio, si te parece, explico yo un poquito cómo es o cómo ha sido o cómo más o menos cómo concebimos nosotros la manera de trabajar en el corpus. Dejadme poner aquí para que lo veáis mejor, así un poquito más grande.",[21,2100,2101,2103],{},[337,2102,339],{}," Tenemos dividido las etapas de trabajo, las tenemos divididas en el proyecto en varias etapas y la primera es la adquisición que es la de donde conseguimos las grabaciones de los informantes, que en esta yo no he estado, no he vivido esta etapa, no vamos a entrar mucho en detalle, pero bueno, yo creo que cada una de estas etapas daría para un capítulo independiente, de Palabras binarias, daría seguro, porque yo me he enterado después de cosas que me comentabais, de cómo no influir al hablante, cómo hacer para que sea lo más natural posible y tal, todas esas cosas son complicadas.",[21,2105,2106,2108],{},[337,2107,339],{}," Después de la adquisición viene la transcripción y el alineamiento, que bueno, tirando de auriculares, prestando mucha atención, hacer el alineamiento del audio y el texto que en ESLORA se hace a nivel de oración, no lo hemos hecho a nivel de palabra y yo creo que ha sido un acierto, luego comentaré esto, creo que ha sido un acierto para poder avanzar, porque yo creo que muchos de los que nos ven saben lo duro que es poder alinear a nivel de palabra. Está bien, está bien también, pero te quedas muchos meses o años incluso ahí estancado en ese tema, nosotros lo tenemos a nivel de, no sé si he dicho de oración, a nivel de intervención, intervención o fragmento.",[21,2110,2111,2113],{},[337,2112,2032],{}," Fragmento marcado por pausas",[21,2115,2116,2118],{},[337,2117,339],{}," Sí, marcado por pausas, tampoco nos hemos puesto muy exquisitos con ese asunto. Bien, y luego bueno, como el proyecto ha durado bastantes años, hemos pasado por varias herramientas de transcripción, algunas han desaparecido, otras no tenían mantenimiento, por eso veis ahí que hay dos herramientas de transcripción, Transcriber, que fue la que se ha usado en las primeras etapas, después nos hemos pasado al ELAN y luego a nivel de cabeceras, de los metadatos, pues hemos un poco tirado por el camino de en medio, una vía práctica, porque en el ELAN, por lo menos en aquel momento, nos ha parecido un poco complicado manejar las cabeceras, dijimos mira, montamos un XML nuestro, lo hacemos igual ya para Transcriber y ELAN, y hemos ahí en la fase de estructuración, lo que hemos hecho, que hemos llamado ahí estructuración, lo que hemos hecho es intentar unificar en algún momento las dos vías que teníamos arriba de Transcriber y de ELAN, había que unificarlas en algún punto, y hemos hecho un XML conjunto, donde llegan por un lado, por los dos flujos de información y los unificamos en un XML conjunto, Que pasan a la fase de validación.",[21,2120,2121,2123],{},[337,2122,339],{},"¿Qué es esto de la validación? Bueno, pues que las herramientas que tenemos, los editores XML, ELAN, el Transcriber, a veces no son capaces de detectar un montón de errores de marcado, de detección, etcétera, lo tenemos ahí con algunos scripts que hacen, detectan esos errores y hacen que volvamos atrás, otra vez hablar con el equipo de lingüistas, hay que corregir estas cosas, volvemos, bueno, eso es un paso que de la validación volvemos a pasar a la estructuración varias veces, incluso la transcripción arriba, varias veces hacemos varios ciclos de prueba y seguimos haciendo varios ciclos de prueba, que esta es la rueda de que nunca para, que nunca para.",[21,2125,2126,2128],{},[337,2127,339],{},"Y luego en la etiquetación, que es totalmente automática, es importante señalar que la etiquetación de ESLORA no está revisada manualmente, es una etiquetación totalmente automática, pero sí que se ha trabajado mucho en que ese etiquetador automático lo haga lo mejor posible y entonces pues se ha hecho un corpus de entrenamiento específico para el etiquetador, que etiquete oral, oral español, que no hay mucho por ahí, la verdad, es bastante original en ese aspecto y por último creamos los datos, bueno, me he saltado ahí la parte de anonimización también, porque hay datos sensibles, nombres, lugares, etcétera, hay que ponerles el típico pitido para que no salgan a la luz cosas que no es prudente que salgan y finalmente hay una carga en la aplicación de búsquedas, que es lo que ve el usuario al final y que vamos a ver dentro de un momentito nada, una pinceladita nada más de cómo es este sistema de búsquedas. Y bueno, a raíz de ver este flujo, no sé si puedes contarnos algunas, dos, tres cuestiones claves, perdón, antes de las cuestiones clave, algunas dificultades que nos puedas contar a lo largo del desarrollo del proyecto, si te viene a la mente alguna dificultad de algunas de las tareas que vemos aquí en el flujo.",[21,2130,2131,2133],{},[337,2132,2032],{}," Bueno, sí, dificultades, claro, el trabajo es lento, es lento porque hay que volver a revisar a veces partes de transcripciones, hay esto que comentabas de las etiquetas, que hay un error, que el cierre, que se solapan, la transcripción en sí misma es muy laboriosa, sobre todo, más la transcripción de conversación que de entrevista, porque las conversaciones hay más de dos hablantes, las entrevistas normalmente son de dos, aunque a veces tenemos alguna otra persona por el medio, y eso claro, nos llevó mucho tiempo, nos lleva todavía mucho tiempo, los ruidos de fondo que no siempre se pueden minimizar, el solapamiento de los hablantes, incluso la identificación de hablantes, los cambios de intensidad, de velocidad con las que hablamos.",[21,2135,2136,2138],{},[337,2137,339],{}," Se me ocurre a mí, en este caso, desde el desconocimiento, el conseguir hablantes, que se presten.",[21,2140,2141,2143],{},[337,2142,2032],{}," Bueno, curiosamente sí, pero quizá sí, las entrevistas, pero también porque la estructuración que tenemos de las entrevistas, que viene un poco forzada por nuestra pertenencia a PRESEEA, establece unos grupos de hablantes que no siempre son fáciles de conseguir. Por ejemplo, hablantes del primer grupo de edad, que en el momento en que hicimos las grabaciones, eran hablantes que tenían, en ese momento, entre 20 y 34 años, con estudios primarios, con solo estudios primarios. De hecho, nuestro corpus debería tener 54 entrevistas, tiene 53, porque teníamos alguna que ya estaba transcrita, pero cuando nos dimos cuenta esa persona tenía estudios secundarios, estudios medios. A veces las dificultades vienen de ahí. Y conseguir hablantes en las conversaciones quizá menos, porque son conversaciones cortas, porque contamos con la colaboración de bastantes estudiantes y exalumnos que también trabajaron como, bueno, participaron en el proyecto como, a veces, becarios de colaboración. Y bueno, nosotros mismos, los miembros del proyecto, también hicimos las...",[21,2145,2146,2148],{},[337,2147,339],{}," También estáis por ahí.",[21,2150,2151,2153],{},[337,2152,2032],{}," Estamos por ahí en alguna también, porque a veces es inevitable. Luego hay otra parte sobre dificultades que tú también conoces bien, que es la coexistencia de español y gallego en las conversaciones y en las entrevistas también. Que puede verse como un inconveniente si pensamos que las lenguas son, eso, compartimentos estancos, y no lo son, sino que ponemos en juego cuando nos comunicamos todas nuestras destrezas comunicativas y nuestros conocimientos. Y la alternancia con el gallego, que es algo que se refleja en el corpus y que además muestra la naturalidad del corpus. Pues eso sí nos plantea problemas y bueno, estamos también ahora trabajando en alguna solución, incluso de etiquetación. Pero planteó problemas también para la anotación, ¿no? No sé si vamos a hablar un poquito de la anotación.",[21,2155,2156,2158],{},[337,2157,339],{}," Bueno, si quieres podemos comentarlo.",[21,2160,2161,2163],{},[337,2162,2032],{}," Sí, la anotación. O sea, cómo se delimitan en un corpus en español los fragmentos que están...",[21,2165,2166,2168],{},[337,2167,339],{}," Sí, recuerdo varias reuniones sobre esto, de qué debe marcarse como gallego o no, porque a veces no es fácil.",[21,2170,2171,2173],{},[337,2172,2032],{}," Claro",[21,2175,2176,2178],{},[337,2177,339],{}," Es difícil distinguir si alguien está hablando gallego o no, porque está cruzando entre lengua o está usando adaptaciones al gallego de las palabras en español. A veces no está nitida esa palabra. Sí que me acuerdo de algunas de esas cosas bastante interesantes, sí, sí.",[21,2180,2181,2183],{},[337,2182,339],{},"Bueno, en cualquier caso, decías que el corpus es pequeño, pero yo me atrevería a decir que es un proyecto exitoso por varios motivos. Primero, porque hay un... Bueno, son muchos años e incluso hablo por propia experiencia en los proyectos que son así a lo largo de los años, es fácil entrar en ratoneras, en bucles, en decisiones que no se acaban de tomar. Cuesta mucho, y lo entiendo, cuesta mucho a veces sacrificar algo para avanzar. Este tema de la alineación de las palabras yo no he estado, pero estoy seguro que habéis vivido eso en las primeras fases del proyecto. Nos metemos en esa ratonera o avanzamos hacia adelante. Entonces, cada proyecto tiene unas prioridades y tiene que ir decidiendo. Pero no sólo eso, sino también muchos de los que nos ven, las mareas de financiación, ahora hay, ahora hay la mitad, ahora no hay. Habéis sabido lidiar con eso. También ha generado recursos colateralmente. Este corpus de entrenamiento, que aún se conoce poco, pero bueno, es algo que está ahí y que no hay muchos en español, en ningún sitio, español oral, que se pueda entrenar un etiquetador para etiquetar español oral. No es fácil y se ha generado eso. Y luego que sabemos que está habiendo estudios que usan el ESLORA, que supongo que será para vosotros mucha satisfacción ver que no sois vosotros los que hacéis los estudios, que eso pasa siempre cuando un grupo de investigación desarrolla un corpus, los primeros son ellos en hacer esos estudios. Pero supongo que será muy satisfactorio ver cómo otra gente que no sabes quiénes son, piden información y están haciendo publicaciones basadas en vuestro corpus.",[21,2185,2186,2188],{},[337,2187,2032],{}," Pues sí, sí, sí. Bueno, no sé si puedo comentar algo sobre lo que decías al principio. Es verdad que el corpus es pequeño, pero también es cierto que es un corpus oral. Y los corpus del español más conocidos y más usados, como el CORPES, o el Corpus del Español de Mark Davies, o incluso corpus que se recopilan, se compilan a partir de, bueno, automáticamente a partir de textos de internet como Web/Dialects, o el esTenTen de Sketch Engine, que está en Sketch Engine.",[21,2190,2191,2193],{},[337,2192,2032],{}," Son corpus muy grandes, de millones de palabras, pero son corpus básicamente escritos. En el CORPES hay una mínima parte oral, donde por cierto también están materiales de ESLORA. Y claro, no es lo mismo recopilar, diseñar y construir un corpus escrito que un corpus oral. Entonces no se puede poner en la balanza porque son elementos muy distintos.",[21,2195,2196,2198],{},[337,2197,2032],{}," Y con respecto a cómo progresó el proyecto desde la idea inicial de esa propuesta inicial de Guillermo Rojo, pues es verdad que tuvimos suerte, bueno, supongo que porque también trabajamos y tuvimos una financiación suficiente como para, a veces un poco justita, algún año con problemas, pero para mantener un flujo de trabajo continuo. También es cierto que contamos con el apoyo económico, y no solo económico, claro, del Grupo de Gramática del Español, que también ha conseguido cierta financiación que redunda en sus proyectos, en los proyectos del grupo. Pero sobre todo yo creo que el éxito, si se puede decir, del proyecto de ESLORA, que hayamos llegado hasta aquí y que tengamos y que sigamos con idea de mejorar, progresar y ampliar, viene de las personas, del equipo, que es un equipo dedicado, interesado, creativo, con buena comunicación interna. Somos pocos, pero bien avenidos, y además con conocimientos en parte comunes y en parte complementarios. Y eso ayuda también a que el corpus se vaya desarrollando, aunque sea despacito, en diferentes áreas, tanto de anotación como del propio crecimiento del corpus y lo que se pueda hacer con él.",[21,2200,2201,2203],{},[337,2202,339],{}," Sí, sí, hay mucha proactividad también. No es, sale de todos un poco, a veces no al mismo tiempo, pero de repente empuja uno por un lado, empuja otro por otro. Hay iniciativas.",[21,2205,2206,2208],{},[337,2207,2032],{}," Hay iniciativas, y todos yo creo que acogemos muy positivamente las iniciativas de los otros y bueno eso también da fuerza y da ganas de seguir.",[21,2210,2211,2213],{},[337,2212,339],{}," Se siente, eso se siente. Bueno, pues si te parece podemos ver un poquito, nada, muy por encima, un segundito, aquí. Bueno, antes de que nos hables de esto, después de esta transparencia vamos a ver un poquito el formulario de búsqueda, sin hacer una búsqueda, porque voy a hacer yo una sesión de demostración en otro vídeo, entonces lo vamos a dejar para ahí, y nada, daremos simplemente unas pinceladitas en lo que hay en los menús, y nada más, si te parece bien. Pero antes creo que querías comentar algo sobre la codificación.",[21,2215,2216,2218],{},[337,2217,2032],{}," Bueno, por dar alguna información, un poco más específica sobre qué se puede encontrar en el corpus, porque como antes veíamos lo que llamamos metadatos, esa asignación o indicación sobre la edad, el nivel de estudios y algunas otras informaciones que luego nos permiten recuperar la información, recuperar los datos. También, claro, la codificación de las transcripciones es fundamental para poder aprovechar bien el material que hay ahí.",[21,2220,2221,2223],{},[337,2222,2032],{}," En general se suele distinguir una codificación no lingüística de la codificación lingüística. Bueno, a lo mejor, en algún sentido lo que llamamos no lingüístico también es un poco lingüístico, pero bueno, es un poquito técnico cómo lo ponemos ahí. Pero empezando con la codificación no lingüística, ahí entran los metadatos que estaba comentando, que todos los archivos del corpus tienen su indicación de si es una entrevista o una conversación, en qué fecha se realizó, en qué lugar, las condiciones o las características de los hablantes que ya comentamos.",[21,2225,2226,2228],{},[337,2227,2032],{}," Y luego hay una codificación no lingüística intratextual que es muy relevante en los corpus orales porque porque da información relevante sobre cómo se desarrolla la interacción. El hecho de que marquemos pausas y silencios, no usamos signos de puntuación, que son signos pensados para la lengua escrita. Tenemos que marcar los solapamientos, es decir, la coincidencia en el habla de dos o más hablantes, los cambios de lengua, a los que también ya aludimos, las risas, las citas, algunos otros ruidos vocales que marcamos también, las palabras cortadas, vacilaciones, etcétera. Eso se marca, son marcas de oral que después nos resultan a nosotros y a otros investigadores muy útiles también para hacer estudios sobre lengua hablada. Y en la parte de la anotación lingüística, codificación lingüística que suele recibir el nombre de anotación, ya lo dijo antes Mario, nuestra transcripción es una transcripción ortográfica, bueno no sé si lo dijiste o no, pero bueno, lo asumimos.",[21,2230,2231,2233],{},[337,2232,339],{}," Creo que no.",[21,2235,2236,2238],{},[337,2237,2032],{}," La transcripción es ortográfica, seguimos las pautas de la ortografía del español, el estándar, excepto en lo que se refiere a la puntuación y al uso de mayúsculas derivado de la puntuación, eso no lo seguimos. Pero luego, gracias al etiquetador morfosintáctico XIADA, del que sí ya habló Mario, podemos asignar, asignamos a cada una de las palabras, cada una de las formas realmente, el lema, es decir, desambiguamos, porque no es lo mismo, por ejemplo, \"cuento\" es una palabra fonéticamente, pero puede responder a una forma del verbo \"contar\" o al sustantivo \"cuento\", \"para\" puede ser una preposición o puede ser el verbo \"parar\". Bueno, pues la asignación del lema es fundamental porque si estamos estudiando las preposiciones no queremos que aparezca por el medio la forma del verbo \"parar\".",[21,2240,2241,2243],{},[337,2242,2032],{}," Luego, dentro de otras especificaciones que marcamos gracias a la etiquetación morfosintáctica son las clases de palabras, sustantivo, verbo, interjección, etcétera. Las categorías gramaticales, esto también es muy relevante, porque muchos de nuestros estudios también se refieren a la estructura gramatical del español, es decir, el hecho de que un sustantivo sea masculino, femenino, singular, plural y el verbo sea subjuntivo, pasado, lo que sea. Últimamente, gracias también a un proyecto y a la iniciativa de María Sampedro, una colaboradora del grupo, se marcaron los actos de habla, en parte los actos de habla, que es la diferencia que hay, por ejemplo, entre pregunta y respuesta, entre invitación y aceptación y también las unidades conversacionales. De hecho, las unidades conversacionales, de alguna manera, también ya están marcadas en los turnos, los turnos los distinguimos y algunos otros detalles. Todo esto, una vez codificado, permite que se pueda recuperar en la aplicación de consulta, a través de la aplicación de consulta.",[21,2245,2246,2248],{},[337,2247,339],{}," Voy a poner ahí en pantalla, un segundito, vamos a poner ahí simplemente el formulario, como comentaba, no vamos a hacer hoy ninguna búsqueda, simplemente ver un poquito por encima qué permite obtener cada cosa y así dedicamos otro vídeo. Haré una pequeña demostración y ya que aprovecho para decir lo de María Sampedro, que también la he convencido para hacer algo, no sé si algo así o algo diferente, pero para que la parte de intervenciones que veis ahí, esas búsquedas y demás, que ella nos cuente un poco cómo sacarle partido a esa parte. Esa es la idea de... ha aceptado y estoy encantado para completar ahí el círculo que estamos haciendo con ESLORA en estas ediciones. Muy bien, no sé si quieres comentar túa así por encima.",[21,2250,2251,2253],{},[337,2252,2032],{}," Sí, claro, por supuesto. En la parte de la pantalla se divide en una parte de búsquedas que ya de alguna manera resumimos al hablar del tipo de corpus, luego comentaremos algo sobre búsquedas gramaticales.",[21,2255,2256,2258],{},[337,2257,339],{}," Podemos verlo aquí, simplemente ver que se pueden hacer búsquedas por palabras ortográficas o por elementos gramaticales. Y aprovecho para decir que tenemos el vídeo número 5 de Palabras binarias, va sobre palabras ortográficas y elementos gramaticales, y nos está sorprendiendo que es el vídeo más visto de nuestro canal. Y allí, si alguien tiene dudas de qué es cada una de las cosas, pueden verlo en ese vídeo.",[21,2260,2261,2263],{},[337,2262,2032],{}," Sí, sí, porque claro, esos conceptos hay que tenerlos claros, para explotar...",[21,2265,2266,2268],{},[337,2267,339],{}," Para luego ver la demostración, para no contar siempre, aunque siempre se menciona un poquito, allí lo ven más en detalle el ejemplo de la diferencia entre palabras ortográficas y elementos gramaticales, que también ha quedado patente en tu explicación. Tenemos por un lado las palabras ortográficas, pero luego teníamos el lema, la categoría gramatical, que eso tiene que ver con los elementos gramaticales.",[21,2270,2271,2273],{},[337,2272,2032],{}," Efectivamente. Luego, en la parte de resultados, que es donde lo que acabas de abrir tú ahora, ahí tenemos varias opciones. Podemos obtener la frecuencia simple o la frecuencia completa de cualquier fenómeno, de cualquier elemento de búsqueda bastante compleja que podamos hacer combinando varios elementos gramaticales. Podemos obtener la frecuencia completa, nos da la distribución por grupos de edad, por hombre/mujer, por conversación frente a entrevista. Eso también nos da una panorámica, nos ofrece una panorámica de cómo se distribuyen ciertos usos. Por ejemplo, el uso de la palabra \"rollo\". Se ve como aparece sobre todo en hablantes jóvenes. Luego tenemos las concordancias, que es lo que está marcado. Las concordancias son la palabra en su contexto, una línea de transcripción en la que aparece el elemento que hemos buscado, sea palabra ortográfica, sea elemento gramatical.",[21,2275,2276,2278],{},[337,2277,339],{}," Ejemplos de uso. Al final, también son los ejemplos de uso. Es una palabra en contexto que son ejemplos.",[21,2280,2281,2283],{},[337,2282,2032],{}," Exactamente, son ejemplos. Aunque nosotros en corpus tendemos a hablar más de ocurrencias o casos. Un ejemplo es la selección que hacemos de algunos de ellos para mostrar un fenómeno. Pero la gran ventaja de un corpus es que nos lo da todo.",[21,2285,2286,2288],{},[337,2287,339],{}," Ocurrencias, sí, sí.",[21,2290,2291,2293],{},[337,2292,2032],{}," Evitamos ciertos sesgos que a veces en las descripciones surgen precisamente por seleccionar los ejemplos a gusto del consumidor.",[21,2295,2296,2298],{},[337,2297,339],{}," Claro, claro, sí, sí. No pensaba yo en esa, sí sí, en ese matiz.",[21,2300,2301,2303],{},[337,2302,2032],{}," Pero bueno, esto yo creo que lo heredé de Guillermo, fíjate. Luego tenemos los inventarios, que es una opción de resultados muy interesante, porque sobre todo cuando hay muchos casos, nos interesa más ver qué tipo de elemento gramatical qué lema o si el masculino o el femenino funcionan con más o menos frecuencia.",[21,2305,2306,2308],{},[337,2307,339],{}," Esta es la novedad de la versión anterior, no de ésta, y está por descubrir. Yo digo que está por descubrir. Yo me lo imagino, y a mí me gusta mucho, porque me lo imagino que tú cuando vas a las concordancias me imagino un bosque que hay árboles de todo tipo y estás dentro del bosque y ves, mira, aquí hay un pino, mira, aquí hay un roble. Pero los inventarios te permiten ver el bosque desde arriba y dices, mira, allí hay una zona donde hay más robles, porque te dice cuánto de importante, o de frecuente, es un fenómeno gramatical y está muy bien, porque complementa muy bien la otra parte.",[21,2310,2311,2313],{},[337,2312,2032],{}," Sí, sí, cuando hagas la demostración intentaremos mostrar la gran ventaja de esos ejemplos. Porque realmente los inventarios te dan esa visión general, no sólo visión general realmente, esa cuantificación que permite muchas veces extraer generalizaciones y luego refinar las búsquedas. Las concordancias siempre hay que consultarlas, siempre hay que mirarlas porque, bueno, también es verdad, el etiquetador tiene también sus pocos, pero algún error.",[21,2315,2316,2318],{},[337,2317,339],{}," Tiene fallos. Siempre hay que esperar que estemos entre un 3 y un 5 por ciento de error, es habitual.",[21,2320,2321,2323],{},[337,2322,2032],{}," Exactamente, pero bueno, desde luego los inventarios son un punto y luego están las intervenciones que es la etiquetación pragmática de actos de habla que comentábamos y que ya veréis con detalle con",[21,2325,2326,2328],{},[337,2327,339],{}," María Sampedro y que permite hacer búsquedas relacionadas con los actos de habla. Bueno, pues estupendo, yo creo que ha quedado más o menos clara la idea general. Y ya para ir finalizando, ¿para qué tipo de estudios crees que ESLORA puede servir, o está más indicado?",[21,2330,2331,2333],{},[337,2332,2032],{}," Puedo comentar brevemente para qué se está usando y se ha usado. Y seguramente vendrán otras líneas más adELANte, pero bueno, fundamentalmente se está usando mucho, no sólo por nuestro grupo, sino por lingüistas, investigadores de otros lugares y de otros países para hacer descripción y análisis de fenómenos léxicos, de fenómenos gramaticales, sintácticos, morfológicos, relacionados con el español, con la variación del español. A veces son estudios centrados en la variedad del español de Galicia y en otros casos son estudios comparativos con otras variedades y esto es realmente interesante también.",[21,2335,2336,2338],{},[337,2337,2032],{}," Bueno, otra línea de trabajo que se está explotando bastante es la de, bueno, que se ha explotado, esto es quizá un poquito más anecdótico, para la lingüística forense. Este corpus lo han pedido para desarrollar investigaciones sobre el habla de nativos y hablantes de segunda lengua, español segunda lengua, para tener datos realmente naturales sobre distintas variedades del español y poder desarrollar recursos automáticos que identifiquen a los hablantes según su natividad o no. En Barcelona se hizo un estudio sobre esto.",[21,2340,2341,2343],{},[337,2342,2032],{}," Se ha utilizado también para el español, para estudios de español como segunda lengua porque no hay, como no hay muchos corpus, no hay apenas materiales de lengua oral, de lengua oral natural y actual, se necesita recurrir a registros de habla para poder entender, para poder explicar también cómo se usa el español oral, se llama ELE.",[21,2345,2346,2348],{},[337,2347,2032],{}," También, bueno, también para estudios que relacionan el español con el gallego, que comparan y ven qué influencias hay en el español aparte del gallego y también para ver cómo se distribuyen las dos lenguas en contextos en los que cambia el código. También se ha usado para y se sigue usando para estudios de tipo sociolingüístico, evidentemente sociolingüística variacionista, que es el marco de PRESEEA, pero no sólo porque para estudios de las ideologías lingüísticas, de los prejuicios lingüísticos, del discurso metalingüístico, porque ESLORA, como antes comentábamos, que tiene, aparte de los datos de uso en sí del habla, de las transcripciones, recogió información, recogimos información sobre las opiniones de los hablantes ante un cuestionario, ante distintos test que se grabaron y que ahora nos permiten contrastar el uso que se hace de la lengua con las actitudes que se tiene hacia la variedad y hacia algunos fenómenos. Esta parte también es interesante.",[21,2350,2351,2353],{},[337,2352,2032],{}," Y bueno, incluso el corpus se cita como una referencia para desarrollar nuevos corpus orales, por ejemplo el corpus CORMA del español de Madrid que desarrolla la profesora Renata Enghels de la Universidad de Gante, también usó nuestro corpus como modelo, pero sí referencia para desarrollar el suyo.",[21,2355,2356,2358],{},[337,2357,339],{}," Pues yo creo que ya pueden tener una idea más o menos, algunas pistas para qué es útil este corpus. Seguro que tiene muchos más usos que ahora no te vienen a la cabeza o lo que sea. Y bueno ya, para acabar, hablando un poco de futuro o bueno en este en este proyecto el futuro muchas veces es el presente porque cuando se publica una versión no es raro que estemos acabando la siguiente. Entonces, bueno, te pregunto por el futuro que tenéis en mente así a corto/medio plazo, en el futuro más inmediato y a lo mejor un poco más en líneas generales como ideas generales de futuro hacia donde queréis ir.",[21,2360,2361,2363],{},[337,2362,2032],{}," Bueno, pues bueno, yo creo que si contamos con la colaboración del equipo informático sin el cual nada de esto sería posible, es así, Mario, las cosas como son. Pues uno de los objetivos que ya vemos en el horizonte es la etiquetación conjunta de español y gallego porque en este momento el corpus permite recuperar la información referida al español pero no los fragmentos que están etiquetados como gallego.",[21,2365,2366,2368],{},[337,2367,339],{}," Eso está ahí, justamente estamos nosotros enfrascados en ese tema, esperemos que pronto ya podamos ver en pruebas por lo menos. Nosotros siempre tenemos la exclusiva, claro. Pero sí, la verdad es que yo no... sabes que no soy lingüista de formación pero incluso preparando ejemplos de ejemplos para hacer la demostración famosa digo es justo esto me venía bien que estuviera y esperemos que en la siguiente versión, que será pronto, será pronto, podamos ver eso de poder hacer búsquedas de la parte del gallego de la parte del español y que cada uno busque lo que le interese, pero porque ahora bueno igual no lo queda claro a los que nos están viendo, ahora mismo se puede buscar la parte que está en español la que está en gallego se ve acompañando pero no se puede buscar en ella. Primero porque quisimos que no influenciara la estadística de lo que es español, claramente español, vamos a dejarlo así, y nada entonces quedó excluido de todos los cálculos y , acompaña al contexto nada más y la idea es que se pueda usar esa parte y la verdad es que para ese uso que decías de bueno de la influencia entre lenguas todo lo que tiene que ver el cambio de código, para eso va a ser una pasada.",[21,2370,2371,2373],{},[337,2372,2032],{}," Sí, estamos deseando que se pueda usar porque además, incluso desde el punto de vista teórico, las lenguas próximas como es el caso del español y gallego son las menos estudiadas en el cambio de código, ¿no?, en el contacto de lenguas, y las condiciones que tienen lenguas próximas son muy diferentes a las que se dan entre lenguas muy distintas, ¿no?, por ejemplo cambio de código chino mandarín e inglés o ruso-español pues no plantea los mismos problemas. Entonces en ese aspecto creo que también va a ser un hallazgo desde vuestro punto de vista y desde para los lingüistas.",[21,2375,2376,2378],{},[337,2377,339],{}," Y no es fácil, tenemos que integrar hay cosas que están del gallego cosas que del español eso también daría para otro para otra charla cuando ya esté cuando esté nos volvemos a juntar.",[21,2380,2381,2383],{},[337,2382,2032],{}," Y luego, bueno, hay una segunda un objetivo en el que estamos también que es lo que comentamos ya antes de ampliar el subcorpus de conversaciones porque es quizá la parte donde hace falta más material en este momento. Parece mentira que la actividad lingüística más común a los seres humanos, ¿no?, en general, y a cada uno de nosotros en particular, que es conversar es hablar espontáneamente, sea tan difícil de documentar, ¿no? respetando la privacidad... y es realmente lo más natural que tenemos",[21,2385,2386,2388],{},[337,2387,339],{}," Sí, sí, bueno, pues yo creo que ha quedado muy bien, espero, espero que os guste, yo simplemente agradecerte nuevamente que hayas venido aquí, creo que es muy enriquecedor este tipo de charlas que nos salen en la tele y nada que os deseo lo mejor a ti y al grupo y todo y nos veremos aquí de nuevo más adELANte.",[21,2390,2391,2393],{},[337,2392,2032],{}," Bueno, pues nada, muchas gracias, Mario, por ofrecernos este espacio en ofrecerme y en realidad todo el equipo en Palabras binarias y ya sabes dónde estamos a tu disposición.",[21,2395,2396,2398],{},[337,2397,339],{}," Muy bien, muchas gracias. Bueno y a vosotros, no le he pedido permiso a Victoria, pero cuando publicamos esto estos vídeos normalmente si si vais a la página de Palabras binarias suele aparecer la y luego aparece allí un formulario de contacto. Si tenéis cualquier duda del corpus de lo que sea bueno aunque, aunque no lo hayamos pactado antes, yo me encargo de trasladar las dudas que tengáis al equipo, no hay ningún problema, podéis hacerlo allí, eso es privado, son correos que nos llegan a nosotros, si alguien quiere hacer algo más en público tenéis los comentarios de Youtube, donde también está el vídeo y podéis preguntarlo lo que queráis, que estaremos encantados de resolver las dudas que tengáis. Ya lo hacemos así, de hecho, a través del formulario de contacto de ESLORA, que nos llega a todos, y en función de la pregunta pues contestan unos otros. Pues nada más, espero que os haya gustado el vídeo y nos vemos en la próxima entrega. Hasta luego!",{"title":105,"searchDepth":106,"depth":106,"links":2400},[2401,2402],{"id":1842,"depth":106,"text":1843},{"id":69,"depth":106,"text":70},"En esta entrevista con Victoria Vázquez Rozas hablamos sobre diferentes cuestiones relacionadas con el corpus ESLORA: historia del proyecto, codificación, cuestiones clave relativas a su construcción, fases de procesamiento, etc.","/media/eslora_entrevista_victoria.png",{},13,"/articles/2025-01-03-el-corpus-eslora-entrevista-con-victoria-vazquez","2025-01-03T10:45:00.000Z",{"title":1986,"description":2403},"articles/2025-01-03-el-corpus-eslora-entrevista-con-victoria-vazquez",[486,128,566,2412,686,688],"Entrevista","_Ri4ZKztWQHYQc4o3sSbImuAEeDOJyvoiM2LYBXidt0",{"id":2415,"title":2416,"author":7,"body":2417,"description":2484,"entity":112,"extension":113,"image":2485,"imageOnContent":115,"language":116,"meta":2486,"navigation":118,"number":2487,"path":2488,"promoted":115,"published":2489,"seo":2490,"stem":2491,"tags":2492,"translation":130,"type":130,"__hash__":2497},"articles/articles/2024-11-09-obtener-lista-frecuencias-palabras-terminal.md","Cómo obtener la lista de frecuencias de las palabras de un conjunto de textos",{"type":9,"value":2418,"toc":2481},[2419,2422,2424,2427,2430,2433,2440,2443,2450,2453,2456,2459,2462,2465,2468,2471,2474],[12,2420],{"url":2421},"https://www.youtube.com/watch?v=tn4IknqCZHI",[16,2423,70],{"id":69},[21,2425,2426],{},"Bienvenidos y bienvenidas a Palabras binarias, informática para lingüistas. Aquí podéis informaros sobre cuestiones relacionadas con la lingüística de corpus, la lingüística computacional, la inteligencia artificial y la informática en general. Hoy os traemos un vídeo sobre cómo generar listas de frecuencias de palabras a partir de un texto o de un conjunto de textos. Es un vídeo un poco diferente a los que venimos haciendo ya que nos vamos a centrar un poco en el resultado, es decir, cómo utilizar los comandos del Terminal para generar una lista de frecuencias de las palabras de un conjunto de textos. Si queréis conocer los detalles de cómo es el procedimiento, os recuerdo que tenéis un curso en palabrasbinarias.com donde podéis aprender qué es lo que voy a hacer yo aquí. Insisto, en esta ocasión me voy a centrar en el resultado, en enseñaros qué se puede llegar a hacer desde el Terminal. Vamos a verlo.",[21,2428,2429],{},"Bien, en primer lugar vamos a ir al proyecto Gutenberg a descargar alguna de las obras que vamos a utilizar. Entonces, ahí en el proyecto Gutenberg primero vamos a buscar el Quijote. Es Gutenberg.org, como veis ahí. Y vamos a buscar aquí el Quijote. Por ejemplo, aquí. Y vamos a descargar el fichero de texto que es lo que pone aquí Plain Text UTF-8. Lo voy a descargar, y lo voy a mover a una carpeta taller donde estoy aquí yo trabajando.",[21,2431,2432],{},"Vale, lo he metido aquí en una carpeta taller y aquí estoy, o lo que os decía, estoy en el Terminal dentro de esa carpeta taller. Bueno, si hago este comando, ls, puedo ver el contenido de la carpeta taller que tiene pg2000.txt que es el fichero con el que me ha descargado. Lo podríamos renombrar al Quijote o lo que sea. Bien, voy a abrir el fichero entonces en el Visual Studio. Lo tengo aquí, que es un, bueno, lo podéis abrir con cualquier editor de texto. Y aquí lo que vemos es que, bueno, tiene un prólogo y incluso creo que recordar que también tiene aquí un epílogo en inglés sobre la licencia. Vamos a ver, ¿ves? Esto no es parte del Quijote, entonces simplemente, a mano, le voy a borrar las partes que sobran para nuestro objeto. En un lugar de la mancha. Vale, aquí empieza, en primera parte del ingenioso Hidalgo Don Quijote de la mancha. Le voy a borrar todo lo que tiene antes, y ahora me voy al final y voy a ver, perdón, voy a ver dónde empieza la parte en inglés. Aquí ya hay en inglés, estoy subiendo. Fin, aquí finaliza la obra, ¿vale? Vamos a eliminar la parte en inglés. Bien, guardo el fichero y entonces ahora ya tengo lo que es en el fichero pg2000.txt, tengo el texto del Quijote.",[21,2434,2435,2436,2439],{},"Vale, lo que vamos a hacer es obtener la lista de frecuencias de este documento, ¿vale? de este fichero. Bien, y para ello vamos a hacer uso de los comandos. Yo aquí simplemente voy a enumerar qué hace el comando en líneas generales. Si queréis saber exactamente cómo funcionan podéis investigarlo por vuestra cuenta o podéis hacer el curso que tenemos en nuestra página: ",[46,2437,2438],{"href":739},"Introducción al Terminal, un taller práctico para lingüistas",", donde contamos cada uno de estos comandos que voy a poner ahora, los detalles de cómo se usan, bueno, hacemos ejercicios, etcétera, ¿de acuerdo? Esto es para que veáis lo que podéis llegar a hacer.",[21,2441,2442],{},"Entonces lo que le vamos a decir es cógeme el fichero... Cuando hacemos una lista de frecuencias lo normal, lo habitual, es que queremos que nos fusione el conteo de las palabras que tienen mayúsculas con las que están en minúsculas. Si una palabra empieza a inicio de frase que aparece en mayúsculas, que la sume igual a la misma palabra cuando no aparece a inicio de frase. Entonces, lo que le estamos diciendo es, le vamos a decir aquí que me convierta las mayúsculas a minúsculas, o sea, conviérteme todo el texto de mayúsculas a minúsculas con el comando tr.",[21,2444,2445,2446,2449],{},"Vale, ahora, después de convertir todo el texto en mayúsculas, de mayúsculas a minúsculas, lo que tenemos que hacer es segmentar las oraciones ",[337,2447,2448],{},"[quiere decir palabras, no oraciones]",". Eso hay varias maneras de hacerlo, pero a mí me gusta hacerlo así. Hacemos un grep, -E, menos -o, y esta expresión regular que pone aquí me dice que haga coincidencia, que me extraiga las palabras del texto. Vale, el \\w indica cualquier letra que puede formar parte de las palabras y el más que es cualquier número de letras. Bueno, al final, lo que hace esta expresión regular es obtener las palabras de un texto, ¿vale?, con la opción -o. Bien, y las pone cada una en una línea. Como las pone cada una en una línea, ordenamos las líneas y usamos el comando uniq -c para contar. El sort y uniq -c lo que hace es contar de cada palabra cuántas tenemos. Luego podemos ordenarlo por orden inverso, perdón, por orden de frecuencia. Estamos con esto, con el sort -n -r ordenamos por frecuencia. Y después, si lo hacemos hasta aquí, podéis ver que nos saca ya una lista de palabras junto con su frecuencia, sale al principio la frecuencia y después la palabra. Pero esto no se puede cargar directamente en una hoja de cálculo, así que haciendo un par de conversiones más, le decimos que sustituya los espacios al principio de cada línea por, bueno, que los elimina más bien. Y por último, le decimos que los espacios que hay separando los campos, que los sustituya por tabuladores. Y con esto estamos generando un fichero CSV, que se llama, que son campos separados por tabuladores que se puede cargar en el Excel, en el Numbers, en el LibreOffice Calc, etcétera. Lo podéis cargar en cualquier hoja de cálculo.",[21,2451,2452],{},"Entonces ahora este resultado, le decimos que lo guarde como pg2000.csv, por ejemplo. Lo que está haciendo es meter eso que estábamos viendo por pantalla en el fichero CSV. Bien, aquí estoy con un Mac haciendo el ejercicio y lo que le voy a decir es que abra, voy a abrir aquí el fichero con el Numbers, simplemente haciendo doble clic. Nos abre aquí la hoja de cálculo con la lista de frecuencias, 20.000 veces aparece el que, 17.756 de, 17.000 veces y, tenemos una lista de frecuencias. Y las de frecuencia 1 están abajo de todo. Veis, con una secuencia de comandos en el Terminal podemos generar una lista de frecuencias de un texto.",[21,2454,2455],{},"Si no habéis cursado este taller es probable que no sepáis que hacen cada estos comandos, pero bueno, creo que este vídeo os puede servir para saber si os interesa el taller, ¿vale?, porque es uno de los ejercicios que hacemos al final del taller. Vamos viendo qué hace el cat, qué hace tr, qué hace grep, qué hace sort, qué hace uniq, cada comando por separado haciendo ejercicios más sencillos y al final pues estáis haciendo cosas de este estilo. Es una de las cosas que podéis hacer.",[21,2457,2458],{},"Bien, os preguntaréis, vale, pero esto son la lista de frecuencias de un texto. En general, cuando se trabaja con corpus se trabaja con muchos textos. ¿Podemos hacer una lista de frecuencias de muchos ficheros?, ¿de varios? Pues la respuesta es sí. Entonces lo que vamos a hacer es que en Gutenberg ahora, el proyecto Gutenberg, vamos a descargar el Lazarillo de Tormes, que también está allí, y vamos a sacar esta lista de frecuencias de los dos ficheros a la vez, del del Quijote y del Lazarillo. ¿De acuerdo?, Vamos a verlo.",[21,2460,2461],{},"Voy a cerrar esto. Esto lo voy a sacar de momento de aquí. Y esto también. Bien, entonces aquí, si lo doy para atrás, busco el Lazarillo de Tormes. Voy a poner el Lazarillo. Vale, creo que es este, Vida del Lazarillo de Tormes. Otra vez voy a descargar el fichero que está en UTF-8. Esto del UTF-8, la codificación de caracteres y demás, también lo explicamos en ese curso. Y ahora lo voy a guardar. Podría ponerle el texto. Podría poner aquí lazarillo.txt, pero bueno, lo vamos a dejar así, igual que en el otro lo hemos dejado. Lo guardo, pg320. Lo voy a traer para la carpeta taller. Vale. A ver, que no quiere. Ahí, no quería subirse.",[21,2463,2464],{},"Bien, ahí dentro de la carpeta taller, bueno, aquí estoy accediendo a través del Terminal, pero también lo tenemos aquí. Vale, lo que está en el Terminal también lo podemos ver desde fuera. También lo explicamos en el curso cómo hacer esto, que podamos trabajar indistintamente entre el Terminal y las carpetas habituales con las que estamos habituados a trabajar.",[21,2466,2467],{},"Bien, entonces con el mismo comando de antes, lo voy a recuperar, simplemente si yo le pongo aquí el fichero y la salida al pg320. Fijaos que ya no tengo ni que teclearlo. Generé ahí un pg320.csv que son, es la lista de frecuencias de las palabras del Lazarillo. Tenemos por un lado las del Quijote y por el otro las del Lazarillo. Pero qué pasa si queremos sumar todas juntas. Vale, hacerlo todo, de todos los ficheros que tengo aquí, generar la lista de frecuencias. Bueno, pues para eso podemos usar los comodines del comando cat y decirle, mira, quiero, no quiero el pg2000, no quiero el pg320. Lo que quiero es todos los ficheros txt que tenga aquí dentro de esta carpeta, me haces el procedimiento con todos ellos. Me generas las palabras, bueno, conviertes a minúsculas, me extraes las palabras, haces la ordenación y las cuentas todas juntas. Vale, pues entonces aquí le ponemos que el resultado es todo.csv, por ejemplo, que me meta el resultado en un fichero que se llama todo.csv.",[21,2469,2470],{},"Vale, lo tenemos ahí, lo podemos abrir con nuestra hoja de cálculo, en este caso Numbers. Si queréis abrirlo con Excel, es un poco rarito el procedimiento, pero tenéis un vídeo ahí en la parte pública de palabras binarias donde explico cómo hacerlo, cómo abrir un CSV desde el Excel. ¿Vale?, lo tenéis ahí. Y aquí tenéis, bueno, pues el que 21.000 veces, el de 18.000, la 10.000, no son los mismos valores que teníamos para el quijote, ni son los mismos del Lazarillo, sino que son los dos juntos.",[21,2472,2473],{},"Aquí igual no tiene mucho sentido mezclar el Quijote y el Lazarillo, es sólo un ejemplo. En general, cuando tenemos un proyecto de corpus y demás, tenemos muchos ficheros del mismo tipo. Podemos tener un montón de noticias de prensa o lo que sea, y si queremos generar una lista de frecuencias de un conjunto o de todas esas noticias o de un conjunto, las metemos en una carpeta, ejecutamos este comando y podemos ver la lista de frecuencias de las palabras de ese conjunto, ¿de acuerdo?",[21,2475,2476,2477,2480],{},"Bien, pues todo esto podéis aprenderlo en nuestro curso, ",[46,2478,2479],{"href":739},"Introducción al Terminal",", que lo tenéis en palabras binarias, y simplemente quería mostraros lo que se puede llegar a hacer con los comandos. También, si no sabéis cómo instalar el Terminal y demás, también lo explicamos allí. Bueno, espero que os sirviera de algo, siento que no pueda pararme a explicar todas las palabras, todos los comanditos que hemos usado, pero bueno, eso es el objeto del curso. Aquí es simplemente para que veáis el resultado de, si conocéis todos estos comandos, lo que se puede llegar a hacer desde el Terminal, que yo no conozco ninguna forma así muy sencilla de hacerlo de otra manera, ¿vale? El Terminal para mí es como una navaja suiza, con la que puedes hacer un montón de pequeñas cosas, que a veces es muy difícil hacerlo con aplicaciones gráficas y demás. ¿De acuerdo?.",{"title":105,"searchDepth":106,"depth":106,"links":2482},[2483],{"id":69,"depth":106,"text":70},"En esta demostración puedes ver cómo generar la lista de frecuencias de las palabras de un conjunto de textos empleando comandos del Terminal.","/media/frecuencias_palabras_terminal.png",{},12,"/articles/2024-11-09-obtener-lista-frecuencias-palabras-terminal","2024-11-29T12:40:05.150Z",{"title":2416,"description":2484},"articles/2024-11-09-obtener-lista-frecuencias-palabras-terminal",[125,486,2493,2494,2495,2496,686],"Nivel avanzado","2024","Terminal","Frecuencias","W2gXVs3E7cLTEGB1PPgWUobzQp66kwrFaGehIMVtS9g",{"id":2499,"title":2500,"author":7,"body":2501,"description":2508,"entity":112,"extension":113,"image":2509,"imageOnContent":115,"language":116,"meta":2510,"navigation":118,"number":2511,"path":2512,"promoted":115,"published":2513,"seo":2514,"stem":2515,"tags":2516,"translation":130,"type":130,"__hash__":2518},"articles/articles/2024-09-09-configuracion-basica-de-seguridad-en-windows.md","Configuración básica de seguridad en Windows",{"type":9,"value":2502,"toc":2506},[2503],[12,2504],{"url":2505},"https://www.youtube.com/watch?v=iMiGDeq2AU8",{"title":105,"searchDepth":106,"depth":106,"links":2507},[],"En este vídeo explicamos algunas recomendaciones básicas de seguridad y hacemos una demostración sobre cómo aplicarlas en Windows.","/media/recomendaciones_seguridad_windows.png",{},11,"/articles/2024-09-09-configuracion-basica-de-seguridad-en-windows","2024-09-09T12:20:05.150Z",{"title":2500,"description":2508},"articles/2024-09-09-configuracion-basica-de-seguridad-en-windows",[125,128,2494,2517],"Seguridad","NrYS5ByR8IyWbnLX785LAxQHfzi02mlpufuAOcdeRcM",{"id":2520,"title":2521,"author":7,"body":2522,"description":2529,"entity":112,"extension":113,"image":2530,"imageOnContent":115,"language":116,"meta":2531,"navigation":118,"number":2532,"path":2533,"promoted":115,"published":2534,"seo":2535,"stem":2536,"tags":2537,"translation":2539,"type":130,"__hash__":2540},"articles/articles/2024-05-27-como-abrir-un-fichero-csv-en-excel.md","Cómo abrir un fichero CSV en Excel",{"type":9,"value":2523,"toc":2527},[2524],[12,2525],{"url":2526},"https://www.youtube.com/watch?v=4BHwuTVVjb4",{"title":105,"searchDepth":106,"depth":106,"links":2528},[],"¿Tienes problemas para cargar un fichero CSV en Excel? En este vídeo te contamos cómo solucionarlos.","/media/excel.png",{},10,"/articles/2024-05-27-como-abrir-un-fichero-csv-en-excel","2024-05-27T11:44:05.150Z",{"title":2521,"description":2529},"articles/2024-05-27-como-abrir-un-fichero-csv-en-excel",[125,128,2494,2538],"Excel","2024-05-27-como-abrir-un-ficheiro-csv-en-excel","1JXiVSfaP7Ufp0l0oFslKwk8Czvps7R714k-x0HLFeE",{"id":2542,"title":2543,"author":7,"body":2544,"description":2551,"entity":112,"extension":113,"image":2552,"imageOnContent":115,"language":116,"meta":2553,"navigation":118,"number":2554,"path":2555,"promoted":115,"published":2556,"seo":2557,"stem":2558,"tags":2559,"translation":130,"type":130,"__hash__":2562},"articles/articles/2023-12-29-herramientas-de-transcripcion-automatica.md","Herramientas de transcripción automática",{"type":9,"value":2545,"toc":2549},[2546],[12,2547],{"url":2548},"https://www.youtube.com/watch?v=sKzLsP5XORU",{"title":105,"searchDepth":106,"depth":106,"links":2550},[],"En este vídeo evaluamos el resultado de diferentes herramientas de transcripción automática para español. Probamos Whisper, HappyScribe, Transkriptor y TurboScribe. ¿Cuál funcionará mejor? Veámoslo...","/media/microfono_descomponiendose_recortada.jpg",{},9,"/articles/2023-12-29-herramientas-de-transcripcion-automatica","2023-12-29T12:02:05.790Z",{"title":2543,"description":2551},"articles/2023-12-29-herramientas-de-transcripcion-automatica",[125,486,128,2560,70,2561,800],"2023","Inteligencia artificial","ZKIYm9PIqf13lDGidatwHvDoLuHLzmDajnjC9WjG6SI",{"id":2564,"title":2565,"author":7,"body":2566,"description":2643,"entity":112,"extension":113,"image":2644,"imageOnContent":115,"language":116,"meta":2645,"navigation":118,"number":2646,"path":2647,"promoted":115,"published":2648,"seo":2649,"stem":2650,"tags":2651,"translation":2652,"type":130,"__hash__":2653},"articles/articles/2023-10-31-como-compartir-ficheros-con-onedrive.md","Cómo compartir ficheros con OneDrive",{"type":9,"value":2567,"toc":2640},[2568,2571,2573,2576,2591,2594,2597,2600,2603,2606,2609,2612,2615,2618,2621,2637],[12,2569],{"url":2570},"https://www.youtube.com/watch?v=94KkbE2ZNE4",[16,2572,70],{"id":69},[21,2574,2575],{},"Buenas, bienvenidos a una nueva entrega de Palabras binarias, Informática para lingüistas. Aquí podéis estar informados de cuestiones relacionadas con la lingüística de corpus, la lingüística computacional, la inteligencia artificial y la informática general.",[21,2577,2578,2579,2584,2585,2590],{},"Hoy precisamente os traigo una cuestión básica de informática general. Vamos a ver cómo compartir ficheros con ",[46,2580,2583],{"href":2581,"rel":2582},"https://onedrive.live.com",[50],"OneDrive",", la plataforma de almacenamiento en la nube de ",[46,2586,2589],{"href":2587,"rel":2588},"https://www.microsoft.com",[50],"Microsoft",". Vamos a verlo.",[21,2592,2593],{},"Bien, para poder usar OneDrive, lo primero es tener una cuenta de Microsoft, vale?. Usar OneDrive es gratuito con ciertas limitaciones. Por defecto, Microsoft nos da cinco gigas que podemos utilizar para enviar o almacenar ficheros, para compartirlos. Para acceder a OneDrive, lo que tenemos que hacer es ir a la página de Microsoft, que es la que tenéis ahí. Pinchamos en “Microsoft 365” y aquí, en “Productos”, elegimos “OneDrive”. Si no tenemos cuenta, podemos crear una cuenta gratuita ahí, que tendríamos hasta cinco gigas de almacenamiento, como acabo de comentar. Y además, hay limitaciones que os contaré ahora a continuación sobre la cuenta gratuita y una vez creéis la cuenta, simplemente yendo a “iniciar sesión”, pues iniciáis sesión en OneDrive con vuestro usuario y vuestra contraseña. Vale? Lo voy a hacer aquí con mis credenciales.",[21,2595,2596],{},"Aquí, sobre mantener la sesión iniciada o no, si es vuestro ordenador, yo os diría que sí. Si estáis en un ordenador de otra persona, decidle que no. Es si queréis mantener la sesión iniciada y que no tengáis que meter una contraseña siempre que accedáis al servicio, de acuerdo? Yo le voy a decir que no por ahora. Bien, nos salen aquí todas las herramientas de Microsoft 365 y nosotros nos vamos a OneDrive.",[21,2598,2599],{},"Bien, una vez accedemos a OneDrive, vemos ahí el contenido de lo que tenemos en la nube. Por defecto nos pone ahí varias cosas, pero lo que vamos a hacer entonces es subir un fichero a OneDrive y compartirlo. Para subi o cargar un fichero a OneDrive, lo que hay que hacer es venir aquí a “cargar” “archivos”, nos vamos aquí a elegir el fichero que queremos cargar y nos aparece ahí ya, ya tenemos el fichero que queremos compartir. ¿Qué tenemos que hacer ahora para compartir? Bueno, si os fijáis, aquí, a la derecha del fichero aparece un simbolito que es el que representa “compartir”. Y para compartir, en general, hay dos opciones. Una es compartir con personas que ya tienen acceso a OneDrive y otra es compartir con personas que no tienen por qué tener acceso a OneDrive. A mí me gusta más la segunda porque no forzamos al destinatario a tener OneDrive, pero hay que distinguir un poco si lo que vamos a hacer es compartir un fichero con una persona puntualmente, que lo va a descargar y después lo vamos a borrar, con crear un grupo de trabajo donde varias personas quieren modificar los ficheros y demás, donde probablemente las personas de ese grupo tendrán cuenta en OneDrive si están trabajando con Microsoft, ¿de acuerdo?",[21,2601,2602],{},"Entonces, estos dos modos de compartir vienen aquí. Cuando le damos al simbolito este, perdón, aquí, ahí no, aquí, cuando le damos al simbolito de compartir nos sale aquí un mensaje donde pone “cualquier persona que tenga el vínculo puede editar”, si nosotros clicamos aquí veis que pone “personas determinadas”, si nosotros le damos a “personas determinadas”, si aquí ponemos el nombre, o sea, el correo electrónico de alguien que tiene cuenta en OneDrive, pues le estamos dando acceso, pero si ponemos aquí el correo electrónico de una persona que no tiene cuenta en OneDrive, esto no va a funcionar. Este es un error muy común que se está dando, bueno, porque nosotros hemos vivido en primera persona este problema, de que muchas veces tenemos seleccionado “las personas que especifiquen pueden editar”, escribimos aquí el correo, ya te di acceso, pero estás forzando a que la otra persona tenga una cuenta en OneDrive con el correo que utiliza aquí la persona que está compartiendo el fichero. Entonces, a mí me gusta mucho más lo de “cualquier persona”. ¿Qué quiere decir cualquier persona? Que es cualquier persona que tenga acceso o que reciba el enlace al fichero que se va a generar al hacer esto, pues puede editarlo. Este método de compartición yo lo recomiendo para compartir algo puntualmente, en plan, te dejo este fichero aquí y te dejo un par de días para que lo descargues y luego lo borro, ¿vale? Entonces, lo que vamos a hacer es enviarle un enlace a ese fichero a la persona destinataria, ¿vale? Y aún así hay dos maneras de hacerlo. Una es a través de aquí, poniendo “cualquier persona que tenga el vínculo puede editar” y escribir aquí el correo electrónico. A mí me gusta más la de abajo, que es copiar vínculo. Tú simplemente le das aquí a copiar, esto te genera un vínculo, genera un enlace, ¿vale? vínculo, aquí es sinónimo de enlace, y este enlace se lo puedes mandar por correo a quien quieras, con el que quieras compartir, ¿vale?",[21,2604,2605],{},"Bien, hay otra cosa que es interesante también, que es, fijaos que por defecto, OneDrive pone que “cualquier persona que tenga el vínculo pueda editar”. Editar es que pueda modificar el fichero, borrarlo, etcétera, ¿vale? A mí me gusta, por defecto, poner aquí, “cualquier persona puede ver” en vez de editar, ¿vale? Para descargar llega con permisos de ver, ¿veis que además hay aquí dos parámetros que se pueden utilizar? Que son la fecha hasta la cual está disponible este enlace y podemos ponerle una contraseña al fichero. ¿Veis que sale aquí una estrellita? Porque estas dos opciones no están habilitadas en la opción de gratuita, ¿vale? Pero si la tenéis, yo sobre todo la primera la recomiendo porque muchas veces le decimos a alguien que compartimos un fichero con él y luego nos olvidamos de sacar ese enlace. Si por cualquier cosa le entra un virus en el ordenador al destinatario o por cualquier cosa otras personas consiguen acceder a ese enlace, van a tener acceso al mismo. Entonces poniéndole ahí una caducidad de un día, dos días, una semana, un mes, lo que necesitéis, aunque nos olvidemos, pasado ese tiempo se desconecta el enlace, ¿vale? Es muy útil en estos casos.",[21,2607,2608],{},"Bien, entonces tenemos que “cualquier persona puede ver”, le damos a “aplicar”, aquí está, “puede ver”, copiamos el enlace y este enlace es el que enviaríamos por correo electrónico a esa persona, ¿vale? Si ahora le damos aquí a recargar, bueno ya no hace falta, sí, sí hace falta. Si ahora recargamos la página, veis que aquí sale compartido, ¿veis que ya lo tenéis compartido? Bien, la otra persona, si ahora le disteis a copiar, pegáis el enlace en el correo con botón derecho pegar o con Control V o lo que utilicéis y ya podéis enviarle ese enlace a la persona destinataria que con ese enlace accedería al fichero. ¿Qué hora queréis dejar de compartir ese fichero? Porque ya lo ha descargado la persona, pues aquí, en los tres puntos, “administrar acceso”, ¿vale? Ahí en “administrar acceso” nos va a decir que está compartido, bueno, que hay dos vínculos, le debí dar dos veces, le di dos veces y por eso salen dos vínculos, ¿vale? Se pueden crear varios vínculos al mismo fichero, por eso me ha salido dos veces, aquí debería haber salido solo una, ¿vale? “Puede ver” y “puede editar”, esto me salió de antes o algo. Si eliminamos aquí el vínculo, pues ya estaría. Si ahora le damos aquí a recargar, ¿veis? ya no sale aquí compartido, ya es privado, ¿vale?",[21,2610,2611],{},"Recopilando, pulsar en “compartir”, cuando nos sale esto decirle, asegurarnos que aquí dice “cualquier persona que tenga el vínculo puede”, o aquí “cualquier persona que tenga el vínculo puede”, editar no, aquí hay que acordarse de poner “puede ver”, ¿vale? Si tenéis la versión de pago, yo le pondría aquí día, mes y año, dos o tres días para compartir el fichero, para que luego se desconecte el enlace al fichero y, si queréis poner una contraseña, en algunos casos es útil la contraseña, pero en realidad si la contraseña se la vais a enviar en el mismo correo en el que va el enlace, es de poca utilidad, ¿vale? Pero bueno, puede ser útil si le vamos a enviar la contraseña al destinatario por otro mecanismo o le decimos que la contraseña, eso, le mandamos un sms con la contraseña o un Whatsapp o un Telegram o lo que sea, ¿vale? Pero si van en el mismo correo el enlace y la contraseña, en realidad la protección es nula en los dos casos, ¿vale?",[21,2613,2614],{},"Repito, este es un mecanismo para compartir ficheros puntualmente, bueno, si queremos enviar al fichero a una persona para que lo descargue y luego desconectar el enlace, ¿vale? Aquí si ahora le damos a “aplicar”, nos sale el enlace, lo copiamos, aquí veis que pone “puede ver”, no “puede editar”, ¿vale? Porque en editar nos pueden borrar el fichero y a lo mejor no queremos, o borrarlo o editarlo, si es un Doc o algo así, podría incluso modificarlo. ¿Vale? Y una vez copiamos ese enlace, con Control V o con botón derecho, bueno, aquí no sale esa opción, pero cuando estás en el correo, el botón derecho pegar o con Control V pegaríais el enlace, ¿vale? Y luego en los tres puntitos de abajo, veis que sale compartido en los tres puntitos de abajo, si le damos a “administrar acceso”, aaquí en “vínculos”, ahora ya me sale uno, en “vínculos” veis que sale el vínculo, si lo eliminamos, ya estamos sacando el acceso a ese fichero. ¿Vale?",[21,2616,2617],{},"Si quisiérais, bueno, pues establecer una carpeta en la que varias personas que están en OneDrive quieren trabajar sobre esa carpeta, pues ese ya es otro caso, ¿vale? Ya sería aquí en compartir, sería un grupo de personas que usan OneDrive para interactuar entre ellos, compartes por aquí, “cualquier persona” aquí no sería, sería “personas determinadas”, sería \"puede editar\", porque normalmente en un grupo de trabajo cualquier persona puede meter, sacar, modificar ficheros, eliminar, etcétera, la fecha aquí probablemente no tenga tanto sentido y aquí sería, eso, “puede editar” y entonces al darle a “aplicar” nos deja aquí mandar, o sea, poner el correo electrónico que está asociado a OneDrive de las otras personas, ¿vale? No vale un correo electrónico de esa persona personal que no tiene cuenta en OneDrive, esto solo valdría para invitar a personas con el correo que tienen en OneDrive, porque si no, si lo hacemos con otra, lo que le va a hacer al darle a pinchar en el enlace, le va a salir una página de OneDrive donde le obliga a registrarse para acceder a ese fichero, ¿de acuerdo?",[21,2619,2620],{},"Bueno, y por último, simplemente para salir de OneDrive podemos ir aquí arriba y decir “cerrar sesión”, y ya estaría. Bueno, espero que os haya gustado.",[21,2622,2623,2624,2629,2630,2633,2634],{},"Bien, si os ha gustado este vídeo ya sabéis, podéis darle a un me gusta en ",[46,2625,2628],{"href":2626,"rel":2627},"https://youtu.be/94KkbE2ZNE4",[50],"YouTube"," o podéis dejarnos algún comentario allí en YouTube y recordad que si queréis estar al tanto de todas las cosas que organizamos y de la publicación de estos vídeos, podéis suscribiros a nuestra ",[443,2631,2632],{},"newsletter",", a nuestra lista de correo, en la campanita que sale en la web ",[46,2635,252],{"href":550,"rel":2636},[50],[21,2638,2639],{},"Esperamos que os haya gustado, nos vemos en la próxima, ¡hasta luego!",{"title":105,"searchDepth":106,"depth":106,"links":2641},[2642],{"id":69,"depth":106,"text":70},"Si quieres ver una demostración sencilla sobre cómo compartir ficheros utilizando OneDrive, solo tienes que entrar a ver este vídeo. Puedes utilizar esto para compartir ficheros muy grandes por correo electrónico.","/media/onedrive.png",{},8,"/articles/2023-10-31-como-compartir-ficheros-con-onedrive","2023-10-31T11:44:05.150Z",{"title":2565,"description":2643},"articles/2023-10-31-como-compartir-ficheros-con-onedrive",[125,128,2560,2583],"2023-10-31-como-compartir-ficheiros-con-onedrive","FhkQ4mM1GqBEINH0vxzo4LRk6xfkQxvLkQnr6IvrAEk",{"id":2655,"title":2656,"author":7,"body":2657,"description":2788,"entity":112,"extension":113,"image":2789,"imageOnContent":115,"language":116,"meta":2790,"navigation":118,"number":2791,"path":2792,"promoted":115,"published":2793,"seo":2794,"stem":2795,"tags":2796,"translation":2797,"type":130,"__hash__":2798},"articles/articles/2023-09-19-como-construir-un-corpus-es.md","Cómo construir un corpus",{"type":9,"value":2658,"toc":2785},[2659,2662,2664,2667,2670,2673,2676,2679,2682,2685,2688,2691,2704,2707,2710,2713,2723,2726,2729,2732,2735,2738,2751,2757,2763,2766,2769,2772,2779,2782],[12,2660],{"url":2661},"https://www.youtube.com/watch?v=XH7iaPPPsmM",[16,2663,70],{"id":69},[21,2665,2666],{},"Bienvenidos a una nueva entrega de Palabras Binarias, Informática para Lingüistas. Aquí podéis estar informados sobre diferentes cuestiones relacionadas con la lingüística de corpus, la lingüística computacional, la informática en general y incluso también cuestiones sobre inteligencia artificial.",[21,2668,2669],{},"Hoy vamos a hablar sobre cómo construir un corpus. Aparentemente parece una cuestión muy sencilla y seguramente algunos de vosotros habéis participado en alguna etapa para la construcción de un corpus, pero creemos que es importante resaltar algunos elementos a tener en cuenta a la hora de construir un corpus para intentar paliar algunos de los problemas que estamos viendo en algunos proyectos en los que estamos participando.",[21,2671,2672],{},"Sobre todo, hay dos cuestiones que aparecen en varios de estos proyectos. Una es el sistema de trabajo, que muchas veces ya está establecido desde hace muchos años o incluso décadas en algún caso. No se ha revisado ni se ha actualizado esta metodología de trabajo y lo que causa es que se utilizan herramientas y estándares del pasado que limitan mucho la riqueza en la estructuración de nuestros documentos y el potencial de explotación de este material.",[21,2674,2675],{},"Otro de los problemas que estamos viendo es que muchas veces se comienza a construir un corpus directamente creando documentos de Word, vale? Como veremos dentro de un momento, los documentos de Word no son el formato más adecuado para tener los documentos de un corpus. Pues vamos allá, vamos a ver algunas cosas relacionadas con este tema.",[21,2677,2678],{},"Bien, tenéis ahí una propuesta de fases para la construcción de un corpus, vale?. Definimos ahí cinco fases que son: definición de la metodología de trabajo, construcción de la metodología del trabajo, comprobación de esta metodología, planificación y desarrollo, vale? Vamos a ver un poco las ideas generales de cada una de ellas, qué se incluye en esas fases.",[21,2680,2681],{},"Bien, la definición de la metodología, en esta definición, lo que se hace es ver o establecer cuáles son los objetivos del corpus, el tipo de corpus que tenemos, os recuerdo que tenemos un artículo en Palabras Binarias hablando sobre tipos de corpus, qué tipos de documentos vamos a incorporar, son documentos textuales, son transcripciones de documentos orales, etcétera, qué fuentes documentales, de dónde vamos a sacar los documentos, igual queremos hacer un corpus de cierto tipo y no tenemos manera de obtener los documentos que queremos obtener. Relacionado con esto también hay que mirar temas de derechos de autor, hasta qué punto podemos utilizar los documentos que queremos utilizar o qué limitaciones a veces se pueden utilizar, aún teniendo derechos de autor, pero con unas ciertas limitaciones, qué estándar de representación vamos a utilizar para nuestros documentos, qué estructura tendrán estos documentos, que bueno, puede ser la estructura típica de, bueno, si tenemos noticias de periódico pues tenemos el titular, el resumen y el cuerpo de las noticias, pero también a veces es conveniente tener en mente qué explotación queremos o esperamos que se haga en el futuro en nuestro corpus y contemplar en esta estructura elementos que nos pueden ayudar después a la explotación.",[21,2683,2684],{},"Por poner un ejemplo, si queremos que nuestros documentos se puedan hacer búsquedas de toponimia, pues a lo mejor los topónimos tienen que estar marcados en esta estructura, ¿vale? Puede ser que sí o que no, pero bueno, es por poner un ejemplo, ¿vale? Entonces tener en mente la explotación que queremos hacer de ellos también nos ayuda a determinar la mejor estructura de nuestros documentos.",[21,2686,2687],{},"Bien, y también las etapas de, hay que definir las etapas de procesamiento, ¿vale? ¿Qué son las etapas de procesamiento? Pues las diferentes fases por las que tienen que pasar nuestros documentos, qué transformaciones y modificaciones tenemos que hacer en nuestros documentos hasta que realmente decidimos, venga, ya está terminado y este documento ya pertenece a nuestro corpus.",[21,2689,2690],{},"Una vez terminamos con la definición, tenemos la construcción de la metodología. ¿Qué es esto de la construcción de la metodología? Pues concretar todos los elementos que necesitamos para poner en práctica la metodología. Bueno, pues desde elegir un editor con el que se van a editar los documentos, definir la estructura concreta de nuestros documentos, también puede ser necesario definir, si estamos trabajando con documentos XML, pues definir el esquema XML o la DTD de los documentos, si estamos trabajando con base de datos, pues definir la estructura de la base de datos, comprobar que podemos adquirir los documentos, ¿vale? ¿Qué documentos vamos a incorporar? Documentos que son PDFs que podemos descargar, o tenemos un acuerdo con un editorial que nos va a enviar por correo algo, o tenemos que ir al Vaticano a escanear unos documentos. Bueno, pues en la construcción de la metodología tenemos que ver que, efectivamente, podemos descargar o obtener una versión digital de los documentos que queremos procesar.",[21,2692,2693,2694,2697,2698,2700,2701,2703],{},"Pues aquí también, evidentemente, bueno, en toda construcción de un corpus es recomendable que haya una parte lingüística y un apoyo informático, ¿vale? Entonces aquí en la parte de construcción también resulta de utilidad realizar ya, implementar, los ",[443,2695,2696],{},"scripts"," que van a procesar, o sea, los ",[443,2699,2696],{}," que van a hacer la parte automática de procesamiento de los documentos, ¿vale? Ahí hay que desarrollar los ",[443,2702,2696],{},", veremos algún detallito sobre esto dentro de un momento.",[21,2705,2706],{},"Si tenemos los recursos económicos y humanos, también, ¿tenemos los recursos económicos y humanos para afrontar la construcción?, ¿cómo se va a construir?, ¿es voluntariado?, bueno, pues todo esto hay que definirlo y detallarlo ya en la construcción. O sea, en la definición se define lo que queremos hacer, en la construcción verificamos que lo podemos hacer, ¿vale? O si es necesario eso, también el almacenamiento, ¿dónde vamos a almacenar los ficheros de nuestro documento? Todo eso también hay que definirlo y luego construirlo, ¿qué quiere decir? Pues dar de alta ese espacio de almacenamiento, si es que lo vamos a hacer como espacio de almacenamiento o lo que sea, ¿vale? Sería configurar todas las herramientas y los procedimientos para poder empezar a trabajar y a procesar los corpus.",[21,2708,2709],{},"En la fase de comprobación, ¿qué es lo que tenemos que hacer? Pues comprobar que la metodología funciona. ¿Cómo lo hacemos? Pues procesando unos pocos documentos, ¿vale? Puede ser, si hay varios tipos de documentos, es útil coger uno de cada tipo. Si es, solo tenemos un tipo de documento, pues podemos coger unos cuantos, uno, dos o tres documentos, a ser posible que tengan la mayor variabilidad de casuísticas posibles para comprobar todas las partes de la metodología, y entonces la comprobación lo que hacemos es procesar algunos documentos, ¿vale? ¿Por qué lo hacemos ahí con unos pocos documentos? Pues porque seguramente aparezcan problemas, ¿vale? Tanto lo que hemos hecho en la definición como la construcción, vamos a encontrar errores, vamos a ver que hay cosas que hemos definido o construido que no se adaptan exactamente a lo que queríamos, etcétera, y podemos modificar, ¿vale? Entonces esto, aunque es una rueda que va desde la definición al desarrollo pasando por todas las fases, no quiere decir que no podamos volver atrás. ¿Qué pasa? Que cuanto más tarde volvamos atrás, más costoso es corregir cosas. Por eso no debemos tener prisa en llegar a la fase de desarrollo. Hay que invertir tiempo en las otras fases, ¿vale?",[21,2711,2712],{},"Si encontramos un error en la fase de comprobación, normalmente pues es corregir cosas en la construcción, en la definición y ya está. Pero si encontramos un error en etapas avanzadas del desarrollo, a lo mejor ya tenemos, imaginaos, 100 documentos procesados y nos damos cuenta de que hay algo de la estructura en los documentos que está mal. Pues ya hay que modificar documentos que ya estaban procesados. Y eso suele tener un coste extra de trabajo humano o técnico, ¿de acuerdo?",[21,2714,2715,2716,2719,2720,2722],{},"Bien, una vez comprobamos que nuestra metodología funciona, sin prisa, ¿vale? Sin prisa ahí en la comprobación, viene la planificación, que es que, bueno, ya tenemos un ",[443,2717,2718],{},"planning"," de qué documentos queremos procesar, hacemos un ",[443,2721,2718],{}," de qué documentos queremos procesar y cuándo y quién, ¿vale? Fulanito se va a encargar de estos documentos en esta época, menganita en estos documentos en esta época y etcétera, etcétera, ¿vale? Se planifica. Y una vez planificado, se pasa al desarrollo, que es propiamente trabajar los documentos para incluirlos en el corpus.",[21,2724,2725],{},"Bien. Entonces, lo que estábamos diciendo antes, que en la definición hay una parte que es etapas de procesamiento de los documentos, ¿vale? Lo vemos ahí. Ahí tenemos una propuesta de etapas de procesamiento de los documentos. ¿Qué tenemos que hacer con los documentos para que pasen a formar parte del corpus? Y ahí definimos seis etapas. Adquisición, estructuración, conversión, revisión, validación e inclusión. No todas son necesarias, pero quisimos ser aquí lo más... Quiero decir, no son necesarias en todos los proyectos, pero quisimos aquí ser lo más exhaustivos posibles para que cada uno lo adapte a su caso concreto.",[21,2727,2728],{},"Bien, en la adquisición lo que se hace es conseguir una versión digital del documento, ¿vale? Pues imaginaos eso, lo que estaba diciendo antes. Un PDF, vale, pues hay que descargarlo de una web, un HTML, ¿dónde hay que descargarlo? vale, pues con un programita de descarga de HTML lo descargamos, una editorial nos tiene que enviar por correo los PDFs, perfecto, tenemos que ir a escanear a una biblioteca los documentos, pues hay que ir allí y escanearlos. El formato resultante de la adquisición suele ser un formato que no es útil para su tratamiento automático, ¿vale? Suelen ser o imágenes, o PDFs o documentos de Word, un poco a lo que apuntaba antes, pensad que los documentos de Word son documentos pensados para que queden bonitos, para que se impriman bien y se vean bien, pero no es un formato basado en texto. Tenemos también algún vídeo o algún artículo hablando sobre tipos de archivo y lo que son archivos de texto. Para el procesamiento automático deberían ser cosas basadas en codificación textual. ¿Qué cosas son? Pues archivos XML, archivos de texto, CSVs también podría ser, pero un Word es un formato donde podemos empezar en la adquisición, pero no es un formato adecuado para que luego lo utilicemos para ser parte de nuestro corpus, ¿vale?",[21,2730,2731],{},"Desde mi punto de vista el concepto de corpus es el fichero final que queda ahí almacenado, que luego va a ser, bueno, le podemos encargar a alguien sin hacer trabajo manual, sino solo con trabajo automático. Se puede hacer una aplicación de explotación o podamos explotarlo de alguna manera, ¿vale? Pero tenerlos en Word es como estar en la primera fase, es como estar en la fase de adquisición, ¿vale?",[21,2733,2734],{},"Entonces, el resultado de esto, como es un formato difícilmente procesable de manera automática, nosotros lo que solemos proponer en muchos proyectos es incluir una fase de estructuración. Esto es un trabajo manual y ¿en qué consiste? Consiste en pasar un formato que no se puede procesar automáticamente a un formato en el que ya se puede ir procesando automáticamente ciertas cosas, ¿vale?",[21,2736,2737],{},"Os pongo un ejemplo. Imaginaos que tenemos un periódico en PDF, ¿vale? PDF es un formato que es muy difícil de tratar automáticamente, entonces lo lo que haríamos o lo que nosotros propondríamos para la primera fase de trabajo es coger el PDF e ir copiando y pegando las diferentes noticias en ficheros de texto dentro de una carpeta. Cada noticia en un fichero de texto independiente. ¿Que el periódico tiene secciones y queremos considerar las secciones también? Pues dentro de una carpeta ponemos subcarpetas con el nombre de la sección y dentro de la sección las noticias que están dentro de esta sección. ¿Qué nos va a permitir esto? Nos va a permitir que aal final de la fase de estructuración tenemos un formato que podemos procesar automáticamente y podemos ir a la conversión.",[21,2739,2740,2741,2743,2744,2747,2748,2750],{},"¿Qué haría la conversión? Coger todos estos ficheros de texto que tenemos en carpetas y generar la primera versión del documento en el formato que queremos incluirlo en el corpus, ¿vale? Ya sea XML o sea otro tipo de estándar que se utilice, ¿vale? Lo que más he estado utilizando y que es bastante interesante de utilizar es XML. ¿Vale? Entonces, en la conversión, unos ",[443,2742,2696],{}," desarrollados por personal técnico o si tenéis, aunque seáis lingüistas, si tenéis algún conocimiento para hacer ",[443,2745,2746],{},"scripting"," pues podéis hacer ",[443,2749,2696],{}," que cogen los documentos que están en texto y generan la primera versión en XML.",[21,2752,2753,2754,2756],{},"¿Que podíais hacerlo directamente desde la adquisición al formato XML? Sí, ¿se puede hacer directo?, lo podríais hacer directo copiando y pegando y ya construyendo el XML. ¿Qué pasa? Que hay que llegar a un balance entre el esfuerzo que tienen que hacer las personas de perfil lingüístico y las personas que tienen perfil técnico. Y la experiencia nos dice que incluir una fase de estructuración simplifica bastante el trabajo para el equipo lingüístico, ¿Vale? Tratar de crear el XML a partir del formato digital inicial, bueno, llevaría bastante más tiempo y complejidad que pasar por este paso intermedio de estructuración. Se trata de que ese formato de estructuración sea un poco más sencillo de manejar en estas primeras etapas por parte del equipo lingüístico y nos permita después generar un XML que ya es más fácil de manipular a partir del resultado de convertir la estructuración. ¿Vale? Entonces, bueno, en algún caso se podría pasar a la conversión directamente pero resulta de utilidad tener un paso intermedio ahí como una primera fase o un primer nivel de procesamiento que nos permite luego a los lingüistas en la fase de revisión les va a permitir manipular un XML ya más terminado, no desde cero. ¿Vale? Que es lo que pasa en la fase de revisión. Los ",[443,2755,2696],{}," de la fase de conversión muchas veces no consiguen resolver todo lo que queremos y es en la fase de revisión del XML donde, bueno, se ajustan cosas, se corrigen cosas que en la conversión no se ha hecho o que se ha decidido no estructurar en la fase de estructuración. En la fase de estructuración no hay por qué tener en cuenta todo lo que vamos a tener en cuenta en el documento final. ¿De acuerdo? En la revisión se podrían dejar cosas para la revisión. Insisto, las decisiones de qué cosas van en la estructuración y qué cosas van en la revisión dependen mucho del proyecto y normalmente es para tener este equilibrio entre esfuerzo informático y esfuerzo lingüístico.",[21,2758,2759,2760,2762],{},"Bien, una vez se han revisado los documentos hay que validarlos. Esta validación de la fase de validación a veces es, bueno, darle un botoncito en el editor y que nos diga si el XML que estamos haciendo es válido o no. Lo que hace normalmente la herramienta es ver si se cumple el esquema que tiene asociado el XML, pero en muchas ocasiones es recomendable que ahí haya ",[443,2761,2696],{}," de validación también, programitas informáticos que hacen comprobaciones desde si tenemos un campo que puede tener tres valores que compruebe que no hay ningún documento que tenga un valor diferente de esos tres, etcétera, etcétera, ¿vale? Diferentes validaciones que se pueden hacer.",[21,2764,2765],{},"Y una vez se ha validado pues se incluye en el corpus. La inclusión es simplemente coger el documento finalizado y meterle en el espacio de almacenamiento que hayamos decidido, bueno, puede estar en un disco duro, puede ser algo en la nube o lo que sea.",[21,2767,2768],{},"Entonces, una vez acabada esta rueda el documento está en el formato que queramos y está almacenado en una nube o lo que sea. A veces en vez de trabajar en la conversión, en vez de generar un documento lo que se genera es una versión del documento ya en una base de datos y hay una herramienta vía web donde puedes modificar el documento, depende del proyecto. Lo más habitual es tener después de la conversión un formato XML y que los documentos estén en XML, pero podría ser que se maneje directamente en una base de datos y valdrían igualmente estas etapas para ese tipo de uso.",[21,2770,2771],{},"Bien, os recuerdo que si tenéis alguna duda o podemos ayudaros o asesoraros en algo relacionado con la construcción de un corpus, en NLPgo nos dedicamos a eso. Llevamos haciendo esto muchos años y si necesitáis asesoramiento contactad con nosotros. Vale, tenéis ahí la información.",[21,2773,2774,2775,2778],{},"Bien, pues si os ha gustado este vídeo y queréis que profundicemos más, primero, si tenéis alguna duda, tenemos dos vías de comunicación para estas cosas, para estos vídeos. Una es el formulario que hay debajo del vídeo en la web de ",[46,2776,252],{"href":550,"rel":2777},[50]," y el otro es los propios vídeos de YouTube, podéis dejarnos ahí. Es más privado la primera vía que la segunda, pero responderemos en los dos casos.",[21,2780,2781],{},"Y si tenéis curiosidad o interés en que desglosemos más alguna de las cosas que acabamos de explicar, también hacédnoslo llegar a través de estos canales y podemos estudiar, pues no sé, primero a todo el mundo le contestamos en cuanto podemos, pero igual podemos estudiar hacer un vídeo más detallado, porque bueno, aunque veis que la esencia del tema era sencilla, veis que hay muchos elementos involucrados y se puede desarrollar mucho más este tema, ¿vale?, entonces podríamos estudiar hacer un vídeo que complete este otro.",[21,2783,2784],{},"Y nada más, espero que os haya gustado este vídeo y nos vemos en la próxima entrega. ¡Hasta luego!",{"title":105,"searchDepth":106,"depth":106,"links":2786},[2787],{"id":69,"depth":106,"text":70},"¿Quieres saber las cosas que se deben tener en cuenta para la construcción de un corpus? En este vídeo lo descubrimos.","/media/como_construir_un_corpus.png",{},7,"/articles/2023-09-19-como-construir-un-corpus-es","2023-09-19T15:00:16.000Z",{"title":2656,"description":2788},"articles/2023-09-19-como-construir-un-corpus-es",[128,486,686,2560],"2023-09-20-como-construir-un-corpus-gl","-NlWf72cTAKDzi5htuUDTJ_GiO4-lezD-sFPx1-SrkU",{"id":2800,"title":2801,"author":7,"body":2802,"description":2933,"entity":112,"extension":113,"image":2934,"imageOnContent":115,"language":116,"meta":2935,"navigation":118,"number":2936,"path":2937,"promoted":115,"published":2938,"seo":2939,"stem":2940,"tags":2941,"translation":2942,"type":2943,"__hash__":2944},"articles/articles/2023-01-16-chatgpt-la-inteligencia-artificial-ya-esta-aqui.md","ChatGPT: La inteligencia artificial ya está aquí",{"type":9,"value":2803,"toc":2930},[2804,2807,2809,2812,2815,2818,2821,2824,2832,2835,2838,2841,2844,2847,2850,2853,2856,2859,2862,2865,2868,2871,2874,2877,2880,2883,2886,2889,2892,2895,2898,2901,2904,2907,2910,2913,2922,2927],[12,2805],{"url":2806},"https://www.youtube.com/watch?v=ozVNUs5gyzA",[16,2808,70],{"id":69},[21,2810,2811],{},"Bienvenidos y bienvenidas a Palabras binarias, el espacio de informática para lingüistas. Aquí os contamos algunas cosas interesantes relacionadas con la lingüística de corpus, la lingüística computacional, la informática en general e incluso la inteligencia artificial, como en esta ocasión.",[21,2813,2814],{},"En esta entrega de Palabras binarias no quería dejar pasar la oportunidad de hablar de uno de los temas que más se está comentando durante las últimas semanas en algunas redes sociales. En mi opinión, lo que está ocurriendo es el comienzo de la irrupción de la inteligencia artificial en nuestro día a día, lo que es probable que vaya a provocar cambios en muchas cosas de nuestro entorno: la forma en la que trabajamos, la manera en la que interactuamos con las máquinas, etcétera.",[21,2816,2817],{},"La inteligencia artificial ya se lleva usando algunos años en diferentes contextos, pero quizás su potencial no ha podido ser visto tan de primera mano por parte de personas no técnicas como ahora. Lo que ha ocurrido recientemente es que la organización sin ánimo de lucro, OpenAI, dedicada a la investigación y desarrollo de inteligencia artificial, ha publicado ChatGPT, un modelo de inteligencia artificial que ha sido entrenado para poder interactuar con personas de forma natural. Es decir, que cuando los usuarios y usuarias interactúan con esta inteligencia artificial a través del chat, deben introducir texto \"normal\", esto es, como si estuvieran hablando con otra persona, y la IA responde también de manera \"normal\", con un estilo de comunicación muy próximo al humano.",[21,2819,2820],{},"Pero más allá de que la interacción en ambas direcciones se produzca de forma natural, lo que más está sorprendiendo es tanto la versatilidad de la IA como su capacidad para razonar las respuestas. Las posibilidades de uso de ChatGPT son inmensas: como asistente, como fuente de información elaborada, como herramienta para obtener una segunda opinión o un análisis alternativo, como generador de recursos, etc.",[21,2822,2823],{},"Pero como todo esto es más difícil de explicar que de ver, lo que vamos a hacer es una pequeña demostración de algunos usos que creo que os pueden resultar de interés. Vamos allá.",[21,2825,2826,2827,2831],{},"En primer lugar, para poder usar ChatGPT necesitamos registrarnos en la plataforma. Para eso hai que ir a la dirección ",[46,2828,2829],{"href":2829,"rel":2830},"https://chat.openai.com",[50],", y ahí, yendo a \"Sign up\" nos va a permitir registrarnos en la plataforma con un típico registro donde nos envían un correo, confirmamos el correo, etcétera, etcétera, Vale? Puede ser que en algún momento no os deje registraros, porque está muy sobrecargado de tanta gente que está probando el sistema pero en algún momento os debería dejar.",[21,2833,2834],{},"Bien. Una vez hemos hecho el registro, accediendo a la misma web ya podemos entrar a interactuar con la inteligencia artificial de ChatGPT. Vamos entonces a empezar a interactura con ella, saludándola: \"Hola\". Y nos dice: \"Hola, en que puedo ayudarte hoy\", ¿vale?",[21,2836,2837],{},"Le voy a poner, estoy copiando el texto que tengo aquí: \"Me gustaría que me escribieras un cuento sobre un lagarto plateado, llamado Enrique, que realiza buenas acciones y que sea entendible por un niño de 6 años.\"",[21,2839,2840],{},"Y ahí nos hace un cuento: \"En un pequeño pueblo vivía un lagarto muy especial llamado Enrique. Enrique era diferente a los demas lagartos porque tenía una hermosa piel plateada que brillaba al sol. Todos los habitantes del pueblo se marabillaban con su belleza, pero lo que realmente les impresionaba era su gran corazón.\"",[21,2842,2843],{},"Bueno, y ahí vemos cómo nos sigue contando el cuento, ¿vale? En este caso, pues ya podemos ver que la redacción del cuento es correcta, y que es complicado saber que no ha sido escrita por un ser humano, y tenéis que tener en cuenta que lo que está escribindo es original, no está copiando un cuento de otra parte. Es algo original, ¿vale?",[21,2845,2846],{},"\"Desde ese día Enrique se convirtió en un héroe en el pueblo y todos querían ser amigos suyos. Y así Enrique vivió feliz ayudando a los demás y siendo amado por todos.\" Nos va a contar también la moraleja: \"La moraleja es que siempre debemos ayudar a los demás, ya que con un pequeño acto de bondad podemos hacer una gran diferencia en el mundo\".",[21,2848,2849],{},"Bien, si no os creéis que es original podemos decirle que nos cuente otro. Por ejemplo, le digo aquí: \"Me ha gustado mucho, ¿serías capaz de hacer otra historia diferente sobre el lagarto plateado Enrique?\"",[21,2851,2852],{},"Y ahí nos hace otro cuento: \"Enrique era un lagarto muy curioso...\". Bien, \"Enrique se sintió muy emocionado al ver la estatua\", era una estatua de oro que nos dice arriba, \"pero al mismo tiempo se dió cuenta de que debía devolverla a su lugar correcto\", ¿vale?",[21,2854,2855],{},"Fijaos que se da cuenta de que le estoy preguntando por el mismo lagarto anterior, que aunque en la segunda pregunta no le digo que tiene que ser bondadoso, en la primera sí. Y vemos como sigue siendo un lagarto bondadoso: \"Enrique se convirtió en el guardián del templo y a protegerlo y a cuidarlo\" y \"la moraleja de esta historia es que siempre debemos ser honestos y devolver las cosas\", ¿vale?.",[21,2857,2858],{},"Bien, bueno, no puedo ver vuestra cara en este momento pero yo la primera vez que utilicé este sistema quedé bastante impactado.",[21,2860,2861],{},"Vamos con otra cosa, otra preguntita, por ejemplo: \"¿Me podrías decir cuáles son los principales problemas que se encuentran los hablantes nativos de inglés para aprender español?\"",[21,2863,2864],{},"Ahí nos habla de la gramática, que \"la española es diferente a la inglesa, por lo que los hablantes de inglés pueden tener dificultad en el uso de verbos regulares e irregulares\", el vocabulario, \"que puede ser diferente del inglés\", la pronunciación, \"haciendo especial incapié en la eñe y en la erre\", el uso de los verbos ser y estar, el uso del subjuntivo. Bueno, la verdad es que son bastante coherentes e interesantes, ¿no?",[21,2866,2867],{},"Vale, vamos con algo un poquito más concreto, a ver si... vamos a decirle \"¿Se te ocurre alguna actividad que puedan hacer los hablantes nativos de inglés para aprender el género en español?\" que uno de los problemas que tienen es la concordancia de género entre el artículo y el nombre, por ejemplo. Y aquí nos dice, pues \"aprender palabras nuevas\"... bien, \"leer libros en español\", \"practicar con un hablante nativo\", \"escuchar música\"... bueno, varias cosas interesantes. \"Es importante recordar que la práctica constante y la exposición al idioma son fundamentales para aprender el género en español, con paciencia y dedicación los hablantes nativos de inglés pueden dominar el uso correcto del género en español\".",[21,2869,2870],{},"Bueno, ya tenemos un ayudante aquí. Vamos a exprimirlo un poco más. Lo voy a escribir aquí: \"¿Me puedes poner algunos ejercicios concretos para que los estudiantes puedan escribir el artículo correcto antes de un nombre?\". Nos pone diferentes tipos de ejercicios que pueden hacer, pero yo quiero llevarlo a ver si es capaz de darnos un ejemplo concreto.",[21,2872,2873],{},"Lo voy a parar aquí, y le voy a decir... \"En relación a tu respuesta anterior, ¿Me puedes poner algunas frases donde los estudiantes tengan que rellenar el artículo antes del nombre?\" A ver, \"algunas frases donde los estudiantes pueden rellenar el artículo correcto antes del nombre: vale \"el coche rojo está estacionado en la calle, la casa blanca es muy bonita, el gato negro está durmiendo en el sofá\", bueno, impresionante, ¿eh? Tenemos aquí un ayudante en toda regla. Si tenemos que dar clase de este tipo de cosas. \"Los lápices\", \"la revista\", \"la computadora portátil\" y nos da las respuestas: \"el, la, el los...\" \"puede ser determinado por la terminación de las palabras y que hay algunas reglas generales pero también hay excepciones\", vale. Nos da algunas ideas, incluso, sobre más cosas que hacer.",[21,2875,2876],{},"Voy a ir un poquito más allá y le voy a decir: \"¿Y me podrías dar un par de frases donde los alumnos tengan que rellenar dos huecos con artículos en la misma frase?\" A ver si consigo que me entienda. Bueno. \"el perro y el gato\", \"los libros de historia y los libros de ciencia\", parece que me ha entendido. Impresionante.",[21,2878,2879],{},"Bueno, lo que no ha entendido es lo de un par de frases, me ha dado muchas más de un par. Y la respuesta, bueno, incluso alguna nos da hasta cuatro. Vale. Bueno, bastante bien, ¿no?, por ahora va bastante bien la cosa.",[21,2881,2882],{},"Vamos ahora con otro tipo de cuestiones: \"¿Me podrías realizar el análisis sintáctico de la siguiente oración? El gato negro que comía en el jardín se ha llevado un susto muy grande\" Y ahí nos va a descomponer el análisis sintáctico. Vamos a ver. \"El gato negro es el sujeto\", \"se ha llevado un susto muy grande es el verbo principal y el complemento\" y \"que comía en el jardín\" es una oración subordinada adjetiva que funciona como un adjetivo descriptivo del sujeto\". Bueno, no está mal.",[21,2884,2885],{},"Podemos decirle: \"¿Y me puedes hacer el análisis morfológico de las palabras de esa oración?\": \"artículo determinado, sustantivo masculino, negro adjetivo masculino, que es una conjunción subordinante, comía es un verbo en infinitivo, bueno, interesante, ¿no?",[21,2887,2888],{},"No está mal, vamos ahora con otra pregunta para que veáis también qué tipo de cosas se le pueden consultar. \"¿Me podrías decir cuales son las 10 palabras más frecuentes del español?\" Bueno, nos dice que depende del corpus de referencia pero que en general suelen ser... \"esta lista puede variar ligeramente dependiendo del corpus o la región\".",[21,2890,2891],{},"\"¿Sabrías decirme cuáles son los sustantivos más usados en español?\" Vamos a complicárselo un poco más, ya que la típica lista de las 10 palabras es más fácil de encontrar. \"está basada en el uso y no necesariamente en la frecuencia\", vale.",[21,2893,2894],{},"A ver si nos dice, \"¿De dónde has sacado tú esta lista en concreto?\" A veces dice estas cosas, otras veces no. A ver en este caso. Mira, \"se basa en un estudio de frecuencias de palabras del español, pero es una estimación basada en mi conocimiento y no en un estudio específico ya que no tengo una fuente específica para el mismo\", ajá. Vale, bueno, nos dió una explicación genérica.",[21,2896,2897],{},"Bueno, y podríamos hacer miles de cosas más, desde como le explicarías a un niño de 8 años lo que es la física cuántica, invéntame un cuento para que un niño de 8 años entienda lo que es la física cuántica, y luego las típicas de una enciclopedia: cuantas veces ha estado el hombre en la luna, quien ha sido el último astronauta en pisar tierra lunar, etcétera.",[21,2899,2900],{},"A ver, es cierto que tampoco ChatGPT, evidentemente, no es perfecto. No se le da especialmente bien el razonamiento matemático, lo cual es curioso, pero tampoco es especialmente bueno haciendo traducciones, bueno dependiendo de la versión, no sé si lo han mejorado ya desde la primera vez que lo he probado. Vamos a ponerle alguna traducción:",[21,2902,2903],{},"Me podrías traducir al inglés el texto \"Desde bien pequeño no puedo probar las albóndigas, mi madre las hacía con mucho ajo y no me gustaban nada\". Bueno, más o menos, ¿no? Más o menos bien.",[21,2905,2906],{},"Bien, y por último, solo deciros que cada poco tiempo están sacando mejoras de la aplicación y puede ser que lo que le preguntéis después de pasar un tiempo la respuesta no va a coincidir con lo que preguntas en una versión anterior, porque están contínuamente alimentando y reentrando incluso con las propias interacciones que están haciendo los usuarios con el sistema. Aún así, bueno, no sé vosotros, pero yo estoy bastante sorprendido de sus capacidades, y la verdad es que es muy, muy interesante lo que ofrece este tipo de herramientas.",[21,2908,2909],{},"Y esto es todo por ahora. Supongo que os habéis hecho una idea del potencial de esta tecnología. La verdad es que está dando mucho que hablar últimamente en algunas redes sociales. Y además de esta IA en concreto, están proliferando otras que saben dibujar, pintar y, como supongo que sabréis, hasta conducir un vehículo.",[21,2911,2912],{},"A mi ChatGPT no deja de sorprenderme cada vez que lo uso, y me hace ver que las técnicas de inteligencia artificial están más maduras de lo que pensaba. Será interesante ver cómo evoluciona todo esto y si realmente causará cambios significativos a la hora de realizar cosas del día a día.",[21,2914,2915,2916,2921],{},"Y es todo por hoy. Si te ha gustado este vídeo puedes indicárnoslo en Youtube o escribiendo en el formulario que aparece debajo del vídeo en la web de Palabras binarias. Recordad que si queréis estar informados de estas cosas y de los talleres que impartimos para lingüistas, podéis suscribiros a nuestro boletín informativo en la campana que aparece en ",[46,2917,2920],{"href":2918,"rel":2919},"http://www.palabrasbinarias.com",[50],"www.palabrasbinarias.com",". Hasta la próxima!",[2923,2924,2926],"h4",{"id":2925},"fe-de-erratas","Fe de erratas",[21,2928,2929],{},"En el vídeo se dice que OpenAI es una organización sin ánimo de lucro y, si bien es cierto que nació de esa manera en 2015, su forma legal ha cambiado y, en la actualidad, ya es con ánimo de lucro.",{"title":105,"searchDepth":106,"depth":106,"links":2931},[2932],{"id":69,"depth":106,"text":70},"En este vídeo hacemos una pequeña demostración de las posibilidades de uso de ChatGPT, la aplicación de inteligencia artificial que está dando mucho que hablar en las últimas semanas, en algunas tareas relacionadas con la lingüística.","/media/chatgpt.png",{},6,"/articles/2023-01-16-chatgpt-la-inteligencia-artificial-ya-esta-aqui","2023-01-16T10:38:35.625Z",{"title":2801,"description":2933},"articles/2023-01-16-chatgpt-la-inteligencia-artificial-ya-esta-aqui",[128,486,125,2561,800,2560,802],"2023-01-16-chatgpt-a-intelixencia-artificial-xa-esta-aqui","Article","ZrLucHz73QX3a4aKN8Y_Bt2QFIPp2X3tieENyNdFtLY",{"id":2946,"title":1858,"author":7,"body":2947,"description":3004,"entity":112,"extension":113,"image":3005,"imageOnContent":115,"language":116,"meta":3006,"navigation":118,"number":3007,"path":3008,"promoted":115,"published":3009,"seo":3010,"stem":3011,"tags":3012,"translation":3015,"type":2943,"__hash__":3016},"articles/articles/2022-10-20-palabras-ortograficas-y-elementos-gramaticales.md",{"type":9,"value":2948,"toc":3001},[2949,2952,2954,2957,2960,2963,2966,2969,2972,2975,2982,2985,2988,2991,2994],[12,2950],{"url":2951},"https://www.youtube.com/watch?v=5PNr3bJ6TwY",[16,2953,70],{"id":69},[21,2955,2956],{},"Bienvenidos y bienvenidas a palabras binarias, el espacio de informática para lingüistas. Aquí os contaremos algunas cosas interesantes relacionadas con la lingüística de corpus, la lingüística computacional y la informática en general.",[21,2958,2959],{},"En este vídeo vamos a explicar los conceptos de palabra ortográfica y elemento gramatical, que aparecen en algunos sistemas de consulta en corpus, y completaremos las explicaciones haciendo algunas búsquedas en un sistema de consulta en corpus que maneje estos conceptos. Vamos allá.",[21,2961,2962],{},"Bien. Por un lado tenemos las palabras ortográficas, o si queréis, simplemente palabras, que según el diccionario de la RAE son las unidades lingüísticas, dotadas generalmente de significado, que se separan de las demás mediante pausas potenciales en la pronunciación y blancos de escritura.",[21,2964,2965],{},"Es decir, que si simplificamos, si pensamos en textos escritos, las palabras son las secuencias de caracteres situadas entre espacios en blanco y signos de puntuación.",[21,2967,2968],{},"Así, en la oración que vemos ahí, \"María Jesús, la hermana del alcalde, fue a dárselo en la mano\", tendríamos las palabras: María, Jesús, la, hermana, del, alcalde, fue, a, dárselo, en, la y mano. Es decir, doce palabras ortográficas.",[21,2970,2971],{},"Por otro lado tenemos los elementos gramaticales, que podríamos definir de forma simplificada como los elementos del texto a los que se les puede asignar una categoría gramatical: sustantivo, verbo, preposición, determinante, etc.",[21,2973,2974],{},"En la oración que vimos anterioremente, que la vemos ahí en pantalla, los elementos gramaticales serían: María Jesús (sustantivo), la (determinante), hermana (sustantivo), de (preposición), el (determinante), alcalde (sustantivo), fue (verbo), a (preposición), dar (verbo), se (pronombre), lo (pronombre), en (preposición), la (determinante) y mano (sustantivo). Es decir, habría catorce elementos gramaticales, ya que, como se puede apreciar, un nombre propio compuesto constituiría un único elemento gramatical y las contracciones y verbos con pronombres enclíticos son divididos en sus constituyentes.",[21,2976,2977,2978,253],{},"Bien, ¿y como afecta esto a las búsquedas en corpus? Pues vamos a verlo en el sistema de búsquedas del corpus CAES, el Corpus de Aprendices del Español, que está disponible en la dirección ",[46,2979,2980],{"href":2980,"rel":2981},"http://galvan.usc.es/caes",[50],[21,2983,2984],{},"Si abrimos la página y vamos a la pestaña del menú \"Búsqueda\", podemos ver que, a la izquierda, si no indicamos lo contrario, está establecido el tipo de búsqueda \"Elem. gramaticales\", es decir, las búsquedas por elementos gramaticales.",[21,2986,2987],{},"Vamos a cambiar el tipo de búsqueda a \"Palabras ortográficas\" y vamos a buscar \"dárselo\", que es una de las palabras del ejemplo. Vemos que aparece una única vez en \"ahorrar mucho dinero para poder dárselo a su familia\". Si ahora intentamos hacer la misma búsqueda en elementos gramaticales, y metemos en el primer elemento gramatical \"dárselo\", vemos que no obtenemos resultado.",[21,2989,2990],{},"Si este resultado nos pilla de sorpresa, debemos recordar qué son los elementos gramaticales. En la diapositiva anterior vimos que \"dárselo\" está compuesto de tres elementos gramaticales: \"dar\", \"se\" y \"lo\" y, por lo tanto, son esos los elementos que se pueden buscar en la aplicación de búsquedas. Si volvemos a la búsqueda, y buscamos los elementos \"dar\", seguido del elemento \"se\" y seguido del elemento \"lo\", obtenemos el resultado esperado, el que coincide con la búsqueda de palabras ortográficas que hemos hecho anteriormente.",[21,2992,2993],{},"De igual modo podríamos proceder, por ejemplo, si quisiéramos buscar la contracción \"del\", buscando el elemento gramatical \"de\" seguido del elemento gramatical \"el\". Y aquí nos saldrían las ocurrencias de \"del\".",[21,2995,2996,2997,3000],{},"Y hasta aquí el vídeo de hoy. Espero que os haya quedado un poco más claro esto de las palabras ortográficas y los elementos gramaticales, al menos en el contexto de la consulta de un corpus. Recordad que si queréis que os avisemos cuando publiquemos algún nuevo vídeo o artículo o queréis estar informados de los cursos de formación para lingüistas que impartimos, podéis suscribiros a nuestro boletín informativo en la campanita que aparece en nuestra página web ",[46,2998,2920],{"href":2918,"rel":2999},[50],". Allí tenéis el botón para suscribiros. Hasta la próxima.",{"title":105,"searchDepth":106,"depth":106,"links":3002},[3003],{"id":69,"depth":106,"text":70},"En este vídeo explicamos los conceptos de palabra ortográfica y elemento gramatical, que aparecen en algunos sistemas de consulta en corpus, e ilustramos como manejarlos a la hora de consultar el Corpus de aprendices de español (CAES).","/media/sven-brandsma-c5sukyzt7nu-unsplash-1024.jpeg",{},5,"/articles/2022-10-20-palabras-ortograficas-y-elementos-gramaticales","2022-10-20T06:38:35.625Z",{"title":1858,"description":3004},"articles/2022-10-20-palabras-ortograficas-y-elementos-gramaticales",[128,486,686,3013,3014],"2022","CAES","2022-10-23-palabras-ortograficas-e-elementos-gramaticais","k5FxIyt9GWRcZAcI9asZvMo6ODQWz5oS9D6bJ-Df61w",{"id":3018,"title":3019,"author":7,"body":3020,"description":3060,"entity":112,"extension":113,"image":3061,"imageOnContent":118,"language":116,"meta":3062,"navigation":118,"number":3063,"path":3064,"promoted":115,"published":3065,"seo":3066,"stem":3067,"tags":3068,"translation":3069,"type":2943,"__hash__":3070},"articles/articles/2022-08-22-envio-de-ficheros-adjuntos-por-correo-electronico.md","Envío de ficheros adjuntos por correo electrónico",{"type":9,"value":3021,"toc":3058},[3022,3025,3032,3035,3038,3048,3055],[21,3023,3024],{},"La necesidad de enviar un fichero a otra persoa mediante el correo electrónico no es nueva, aunque lo cierto es que el proceso de digitalización de los últimos años hace cada vez más común la necesidad de enviar ficheros relativamente grandes a los destinatarios, lo que puede llegar a suponer un problema si no se hace correctamente.",[21,3026,3027,3028,3031],{},"Este problema surge porque ",[844,3029,3030],{},"el correo electrónico no fue pensando para enviar archivos adjuntos muy grandes"," y, si hacemos esto, corremos el riesgo de que el correo no llegue al destinatario, muy probablemente porque algún proveedor del servicio de correo lo bloquee.",[21,3033,3034],{},"Pero, ¿A qué llamamos exactamente \"fichero relativamente grande\"? ¿Cuándo debemos renunciar a enviar un fichero adjunto en un correo y buscar métodos alternativos?",[21,3036,3037],{},"Por desgracia, la respuesta a estas preguntas no es una cifra exacta, ya que el tamaño máximo de un correo depende de varios factores: de nuestro proveedor del servicio de correo, del proveedor del destinatario, del sistema que empleemos para leer el correo, etc.",[21,3039,3040,3041,3044,3045,253],{},"Es bastante probable que un correo que tenga adjuntos que no superen los 25 MB (megabytes) de tamaño en total (contando el tamaño de todos los adjuntos) llegue a su destinatario, pero para tener un grado mayor de confiabilidad en la entrega  ",[844,3042,3043],{},"nosotros no recomendamos superar los 10 MB en total",". De esta manera es menos probable que el destinatario de nuestro correo tenga problemas con la recepción del correo. Por lo tanto, nuestra recomendación es ",[844,3046,3047],{},"emplear un sistema alternativo de envío de ficheros cuando queramos enviar ficheros que ocupan más de 10 MB en su conjunto",[21,3049,3050,3051,3054],{},"Para el envío de ficheros grandes mediante sistemas alternativos destacamos dos alternativas: las proporcionadas por aplicaciones específicas en línea (WeTransfer, FileTransfer, etc.), y las que proporcionan los sistemas habituales de almacenamiento de datos en la nube: OneDrive, Google Drive, DropBox etc. En el caso de las primeras debemos tener en cuenta, además, que suelen tener un ",[844,3052,3053],{},"límite de tamaño en el plan gratuito",", aunque suele ser suficiente para la mayoría de los casos (2 GB en el caso de WeTransfer en el momento de escribir estas líneas).",[21,3056,3057],{},"Próximamente publicaremos algunos vídeos donde explicaremos en detalle cómo compartir ficheros grandes utilizando tres de las aplicaciones recogidas en este artículo: WeTransfer, OneDrive y Google Drive.",{"title":105,"searchDepth":106,"depth":106,"links":3059},[],"¿Cuándo un archivo es demasiado grande para ser enviado por correo electrónico? ¿Hay un tamaño máximo? Veámoslo. ","/media/sharing_files.png",{},4,"/articles/2022-08-22-envio-de-ficheros-adjuntos-por-correo-electronico","2022-08-22T16:02:41.421Z",{"title":3019,"description":3060},"articles/2022-08-22-envio-de-ficheros-adjuntos-por-correo-electronico",[125,128,3013],"2022-08-22-envio-de-ficheiros-adxuntos-por-correo-electronico","moXxMCnHRxcuMJ5tLzKEIPILXZRvkaoEvSyI4y66ilo",{"id":3072,"title":3073,"author":7,"body":3074,"description":3220,"entity":112,"extension":113,"image":3221,"imageOnContent":118,"language":116,"meta":3222,"navigation":118,"number":3223,"path":3224,"promoted":115,"published":3225,"seo":3226,"stem":3227,"tags":3228,"translation":3229,"type":2943,"__hash__":3230},"articles/articles/2022-05-26-tipos-de-corpus.md","Tipos de corpus",{"type":9,"value":3075,"toc":3218},[3076,3079,3083,3094,3098,3109,3113,3124,3128,3143,3147,3158,3162,3173,3177,3196,3203,3207],[21,3077,3078],{},"Cada corpus se construye teniendo en cuenta unos objetivos concretos, diferentes de los de otros corpus y, por lo tanto, estos pueden agruparse y clasificarse siguiendo diferentes criterios. Recogemos, a continuación, algunas de las clasificaciones más utilizadas:",[2923,3080,3082],{"id":3081},"variedades-de-lengua","Variedades de lengua",[21,3084,3085,3086,3089,3090,3093],{},"Según las variedades de lengua que recogen, los corpus pueden clasificarse en ",[844,3087,3088],{},"corpus de referencia",", que abarcan todas las variedades lingüísticas de una lengua, y ",[844,3091,3092],{},"corpus dialectales",", centrados en recoger únicamente variedades dialenctales.",[2923,3095,3097],{"id":3096},"medio","Medio",[21,3099,3100,3101,3104,3105,3108],{},"La clasificación basada en el medio hace distinción entre ",[844,3102,3103],{},"corpus escritos",", formados por textos escritos, y ",[844,3106,3107],{},"corpus orales",", constituidos por transcripciones de intervenciones orales.",[2923,3110,3112],{"id":3111},"período-temporal","Período temporal",[21,3114,3115,3116,3119,3120,3123],{},"En lo que respecta al período temporal, podemos distinguir entre ",[844,3117,3118],{},"corpus sincrónicos",", que se centran en un período temporal concreto, y ",[844,3121,3122],{},"corpus diacrónicos",", que recogen material de un período temporal extenso.",[2923,3125,3127],{"id":3126},"especialización","Especialización",[21,3129,3130,3131,3134,3135,3138,3139,3142],{},"Teniendo en cuenta la especialización de la temática o el dominio de los textos que recogen, los corpus poden clasificarse en ",[844,3132,3133],{},"generales",", que incluyen textos de temáticas o dominios generales, y ",[844,3136,3137],{},"especializados",", que recogen textos de una temática o dominio específico. Dentro de los especializados, también se suelen distinguir los ",[844,3140,3141],{},"corpus técnicos",", que están formados por textos producidos por especialistas de una área específica de conocimiento.",[2923,3144,3146],{"id":3145},"autoría","Autoría",[21,3148,3149,3150,3153,3154,3157],{},"Según su autoría, podemos distinguir entre ",[844,3151,3152],{},"corpus de aprendices",", formados por textos producidos por estudiantes de una segunda lengua extranjera (L2) y ",[844,3155,3156],{},"corpus de nativos",", que recogen textos producidos por hablantes nativos de una lengua.",[2923,3159,3161],{"id":3160},"posibilidad-de-ampliación","Posibilidad de ampliación",[21,3163,3164,3165,3168,3169,3172],{},"Hay corpus que se van ampliando poco a poco y otros que no.  Podemos distinguir entre ",[844,3166,3167],{},"corpus cerrados",", los que una vez construidos ya no cambian, y ",[844,3170,3171],{},"corpus"," abiertos, que van incorporando nuevos textos a lo largo del tiempo.",[2923,3174,3176],{"id":3175},"número-de-lenguas","Número de lenguas",[21,3178,3179,3180,3183,3184,3187,3188,3191,3192,3195],{},"Los ",[844,3181,3182],{},"corpus monolingües"," contienen únicamente textos de una lengua determinada, mientras que los ",[844,3185,3186],{},"corpus multilingües"," contienen textos en más de una lengua. Dentro de los multilingües podemos distinguir también entre ",[844,3189,3190],{},"corpus paralelos",", formados por textos de una lengua y sus traducciones a las otras lenguas, y ",[844,3193,3194],{},"corpus comparables",", que contienen textos en diferentes lenguas que non son traducciones unos de los otros, pero que tienen algunas características comunes que permiten comparar los resultados entre las diferentes lenguas.",[21,3197,3198,3199,3202],{},"También se dice que un corpus paralelo está ",[844,3200,3201],{},"alineado"," si cada oración de una lengua está asociada a la oración correspondiente en las otras lenguas.",[2923,3204,3206],{"id":3205},"codificación","Codificación",[21,3208,3209,3210,3213,3214,3217],{},"Por último, teniendo en cuenta la codificación que se hace en los textos, podemos distinguir entre ",[844,3211,3212],{},"corpus anotados",", en los que los documentos que lo forman incluyen alguna información lingüística adicional (morfológica, sintáctica, léxica, etc.) al propio texto, y ",[844,3215,3216],{},"corpus no anotados",", en los que los documentos recogen únicamente el texto.",{"title":105,"searchDepth":106,"depth":106,"links":3219},[],"En este artículo puedes ver qué es lo que diferencia a cada tipo de corpus: corpus de referencia, corpus oral, corpus sincrónico, corpus diacrónico, corpus de aprendices, corpus multilingüe, corpus alineado, etc.","/media/corpus_types-building_blocks.png",{},3,"/articles/2022-05-26-tipos-de-corpus","2022-05-26T15:31:46.673Z",{"title":3073,"description":3220},"articles/2022-05-26-tipos-de-corpus",[128,486,686,3013],"2022-05-17-tipos-de-corpus","gy2-zMl4_v19iTxtig8_rCttLDa2tO1BiQDatbADQLw",{"id":3232,"title":3233,"author":7,"body":3234,"description":3275,"entity":112,"extension":113,"image":3276,"imageOnContent":118,"language":116,"meta":3277,"navigation":118,"number":106,"path":3278,"promoted":115,"published":3279,"seo":3280,"stem":3281,"tags":3282,"translation":3283,"type":2943,"__hash__":3284},"articles/articles/2022-04-26-que-es-un-corpus.md","Qué es un corpus",{"type":9,"value":3235,"toc":3273},[3236,3243,3254,3257,3268],[21,3237,3238,3239,3242],{},"Dicho de manera sencilla, ",[844,3240,3241],{},"un corpus textual es un conjunto de textos, codificados digitalmente, que comparten una o varias características",", aunque es conveniente matizar diferentes cuestiones relacionadas con esta definición.",[21,3244,3245,3246,3249,3250,3253],{},"En primer lugar, cuando hablamos de ",[844,3247,3248],{},"textos",", nos referimos, tanto a cualquier texto completo o fragmento (una novela, una revista, un artículo, un guion, un fragmento de una novela etc.), como a cualquier otra representación escrita (transcripciones de los diálogos de una película, de un programa radiofónico, etc.), que fueron creados con una ",[844,3251,3252],{},"intención comunicativa real"," y, usualmente, producidos con anterioridad a la creación del propio corpus.",[21,3255,3256],{},"Por otro lado, la característica o características comunes de los textos que forman parte de un corpus difieren de un corpus a otro. Así, por ejemplo, un corpus puede contener documentos de un período temporal específico,  de un estilo narrativo concreto o de una área temática particular. Estas características determinarán, en gran medida, el tipo de estudios e investigaciones que se podrán hacer empleando este corpus.",[21,3258,3259,3260,3263,3264,3267],{},"No debemos olvidar que el ",[844,3261,3262],{},"fin último de un corpus es el de permitir la realización y/o validación de diferentes tipos de estudios"," (léxicos,  gramaticales, semánticos, sociolingüísticos, etc., dependiendo del corpus en particular), por lo que una selección adecuada de los textos es fundamental para que el corpus pueda servir al propósito para el que ha sido creado. Por lo tanto, para efectuar esta selección de forma correcta, es importante tener en cuenta que el corpus debe ser ",[844,3265,3266],{},"representativo"," para la materia que se pretende investigar.",[1179,3269,3270],{},[21,3271,3272],{},"Para ahondar más en este tema te recomendamos el capítulo 1 del libro \"Introducción a la lingüística de corpus en español\", de Guillermo Rojo (2021).",{"title":105,"searchDepth":106,"depth":106,"links":3274},[],"Un corpus textual es un conjunto de textos, codificados digitalmente, que comparten una o varias características comunes. Pincha en esta entrada para saber más al respecto.","/media/book-tablet.jpg",{},"/articles/2022-04-26-que-es-un-corpus","2022-04-26T15:28:03.164Z",{"title":3233,"description":3275},"articles/2022-04-26-que-es-un-corpus",[128,486,686,3013],"2022-04-20-que-e-un-corpus","wXEG4mjHbFJEy9N_ZkOQhchL7aYj2heUEvujAFE9HxI",{"id":3286,"title":3287,"author":7,"body":3288,"description":3394,"entity":112,"extension":113,"image":3395,"imageOnContent":118,"language":116,"meta":3396,"navigation":118,"number":3397,"path":3398,"promoted":115,"published":3399,"seo":3400,"stem":3401,"tags":3402,"translation":3403,"type":2943,"__hash__":3404},"articles/articles/2022-03-31-tipos-de-ficheros.md","Tipos de ficheros",{"type":9,"value":3289,"toc":3387},[3290,3294,3297,3308,3314,3317,3321,3324,3327,3330,3338,3343,3346,3352,3363,3370,3377,3381,3384],[16,3291,3293],{"id":3292},"introducción","Introducción",[21,3295,3296],{},"Son frecuentes las ocasiones en las que, hablando de informática, se dice que, en último término, lo que hay en un ordenador son unos y ceros. Aunque esto es así desde cierto punto de vista, raramente este dato proporciona información útil a las personas que tienen un perfil no técnico, pero que utilizan un ordenador de manera habitual. Al fin y al cabo, la universalización de la informática ha sido causada, en gran medida, por la eliminación progresiva de la necesidad de tener conocimientos muy técnicos para poder usar un ordenador.",[21,3298,3299,3300,3303,3304,3307],{},"Con el paso del tiempo, \"encima\" de estos ceros y unos se fueron añadiendo diferentes capas de ",[443,3301,3302],{},"software"," que permitieron facilitar el manejo de los ordenadores, al tiempo de que cada vez más detalles técnicos pasaron a ser irrelevantes para su manejo. Pero esta tendencia no está exenta de problemas colaterales, ya que, en algunos casos, los usuarios pasaron a utilizar programas y herramientas sin saber muy bien lo que estaban haciendo. En el corto plazo resulta práctico resolver algunas cuestiones particulares de este modo, pero si este ",[443,3305,3306],{},"modus operandi"," se generaliza, es habitual que la falta de conocimientos técnicos se nos revele en algún momento a través de alguna sorpresa desagradable.",[21,3309,3310,3311,3313],{},"Una de las primeras capas de ",[443,3312,3302],{}," por encima de esos ceros y unos está constituida por el sistema operativo (SO), el cual, simplificando, es el programa principal que nos permite hacer tareas básicas en un ordenador. El sistema operativo más extendido entre los ordenadores es el sistema operativo Windows, de Microsoft, aunque también hay otros, como macOS X, de Apple, y diversas variantes de Linux (Debian, Ubuntu, RedHat etc.), un sistema operativo desarrollado por multitud de empresas y voluntarios alrededor del mundo.",[21,3315,3316],{},"Todos los sistemas operativos tienen en común que organizan la información en ficheros y carpetas (también llamados directorios por personas con un perfil más técnico). Podemos establecer un paralelismo entre las carpetas y los ficheros informáticos y las carpetas y los documentos en papel, respectivamente. Del mismo modo que la información en el mundo físico está impresa en papeles, grapados en documentos (ficheros) y almacenados y agrupados en carpetas, en el mundo digital también se almacena la información correspondiente a los documentos en ficheros, que se pueden organizar en carpetas.",[16,3318,3320],{"id":3319},"tipología-de-ficheros","Tipología de ficheros",[21,3322,3323],{},"Centrándonos ya en el plano de la informática, la identificación de un fichero está formada por tres constituyentes: el nombre, un punto y la extensión. Esta extensión es la que determina el tipo do fichero, ya que no todos los ficheros tienen el mesmo tipo de contenido. Así, por ejemplo, los hay que contienen simplemente texto, que tienen texto con formato, que contienen sonido o vídeo, etc.",[21,3325,3326],{},"El problema es que, por defecto, los sistemas operativos tienden a ocultar la extensión de los ficheros, y proporcionan la información del tipo de fichero a través de los diferentes iconos que emplean en su visualización. Quizás en la mayor parte de las ocasiones esto no suponga ningún problema, pero en determinadas circunstancias, como cuando alguien recibe un fichero de otra persona con la extensión equivocada, algo que ocurre más frecuentemente de lo que puede parecer, es muy probable que ni el sistema operativo ni la persona que reciba el fichero sepa qué hacer con él.",[21,3328,3329],{},"Es por esto que suele ser de utilidad habilitar en el sistema operativo la opción de ver los nombres de fichero con su extensión, lo que nos va a permitir, si lo necesitamos, poder modificar la extensión del fichero.",[1179,3331,3332],{},[21,3333,3334,3337],{},[844,3335,3336],{},"NOTA: Ojo!"," No quiere decir esto que al cambiarle la extensión a un fichero se convierta al formato correspondiente a esa extensión. La extensión simplemente le da unha indicación al sistema operativo sobre qué programa tiene que emplear para abrir un fichero, pero un cambio en la extensión no hace que el contenido del fichero cambie y, por lo tanto, no se hace ningún tipo de conversión en ese sentido.",[3339,3340,3342],"h3",{"id":3341},"ficheros-de-texto-y-ficheros-binarios","Ficheros de texto y ficheros binarios",[21,3344,3345],{},"Podemos clasificar los ficheros en dos tipos: ficheros de texto y ficheros binarios.",[21,3347,3179,3348,3351],{},[844,3349,3350],{},"ficheros de texto"," son los que únicamente contienen texto en su interior y, por lo tanto, podremos ver y/o manipular su contenido utilizando una herramienta básica del sistema operativo: el editor de textos.",[21,3353,3354,3355,3358,3359,3362],{},"En este punto es necesario distinguir entre ",[844,3356,3357],{},"editor de textos"," y ",[844,3360,3361],{},"procesador de textos",". Un editor de textos es un programa que permite ver y/o editar ficheros de texto, es decir, ficheros que contengan únicamente texto, mientras que un procesador de textos permite ver y/o editar ficheros en los que, además de texto, puede haber otro tipo de información que el procesador tiene que interpretar: tipos de letra, imágenes, etc. Por ejemplo, el Microsoft Word es un procesador de textos y, por lo tanto, los ficheros que genera por defecto, que tienen extensión .doc o .docx, no son ficheros de texto. Si intentamos abrir un fichero .doc o .docx con un editor de textos, como puede ser el Bloc de notas en Windows o el TextEdit en MAC OS X, podemos comprobar que  se ven cosas raras, como deberíamos esperar.",[21,3364,3365,3366,3369],{},"La extensión más habitual de los ficheros de texto es .",[443,3367,3368],{},"txt",", pero también hay otros tipos de ficheros que pueden editarse con un editor de texto y que, por lo tanto, son, en esencia, ficheros de texto: .xml, .csv, etc.",[21,3371,3372,3373,3376],{},"En contraposición, también tenemos los ",[844,3374,3375],{},"ficheros binarios",", que son los que non se pueden ver y/o editar con un editor de textos, y pueden ser de muchos tipos diferentes: Hojas de cálculo (.xls, .xlsx., .ods) imágenes (.jpg, .png, tiff), sonidos (.mp3, .wav), vídeos (.mp4, .avi, .mkv), procesadores de texto (.doc, .docx, .odt, .pages), etc.",[3339,3378,3380],{"id":3379},"como-mostrar-las-extensiones-de-ficheros-en-windows-10","Como mostrar las extensiones de ficheros en Windows 10",[21,3382,3383],{},"En el siguiente vídeo podemos ver cómo tenemos que hacer para activar la visualización de las extensiones de los ficheros en Windows 10:",[12,3385],{"url":3386},"https://www.youtube.com/watch?v=QJO-cBsrs2M",{"title":105,"searchDepth":106,"depth":106,"links":3388},[3389,3390],{"id":3292,"depth":106,"text":3293},{"id":3319,"depth":106,"text":3320,"children":3391},[3392,3393],{"id":3341,"depth":3223,"text":3342},{"id":3379,"depth":3223,"text":3380},"La organización básica de la información en un ordenador se basa en el uso de carpetas y ficheros. En este artículo explicamos los conceptos de carpeta y fichero y la tipología de los ficheros.","/media/file-icons.png",{},1,"/articles/2022-03-31-tipos-de-ficheros","2022-04-01T15:00:00.000Z",{"title":3287,"description":3394},"articles/2022-03-31-tipos-de-ficheros",[128,125,3013],"2022-01-24-tipos-de-ficheiros","tyWTPJdtgxWYzcaceAQa91Obe2YGR2cIYMTJ5SAO8hQ",1775654009472]