Esta web usa cookies propias y de terceros para mejorar tu experiencia de navegación y realizar tareas de análisis. Al continuar con tu navegación entendemos que das tu consentimiento a nuestra política de cookies.

MY NEW STATIC BLOG. WHY? BECAUSE FUCK YOU, THAT'S WHY!




Ayer se filtró la contabilidad del PP, aquí tienes el torrent. Va desde el año 1990 hasta el 2011, y está en formato PDF.

Para poder procesarla la necesitamos en un formato más manipulable, por ejemplo en txt. Pero el problema es que no es texto en un PDF, son imágenes, es decir, han escaneado toda la contabilidad y han pegado las imágenes en un PDF. Para poder sacar el texto tendremos que recurrir al software OCR.

Así que me he puesto manos a lo obra y me he creado un script para procesar los ficheros de cada directorio ... y ya que tengo un procesador de 8 núcleos, pues lo he paralelizado todo con parallel.

Lo primero es instalar las dependencias: parallel, ghostscript y tesseract-spa.
sudo apt-get install parallel ghostscript tesseract-ocr tesseract-ocr-spa

Ahora guardamos este archivo como pdfdir2txt.sh:
#!/bin/sh

if [ -z "$1" ] ; then
echo "Renombrando archivos...";
rename 's/ /_/g' *

for p in *.pdf; do
if [ -e "$p" ]; then
# procesamos los archivos de este directorio
echo "Paralelizando procesos...";
ls *.pdf | parallel --gnu 'sh pdfdir2txt.sh {}'
fi
break
done;

# procesamos cada directorio
for d in *; do
if [ -d "$d" ]; then
cp -f pdfdir2txt.sh $d
cd $d
echo "Accediendo a $d...";
sh pdfdir2txt.sh
rm pdfdir2txt.sh
cd ..
fi
done;
elif [ ! -f $1.txt ] ; then # si el archivo txt no existe
echo "Convirtiendo $1 a tif...";
gs -dNOPAUSE -sDEVICE=tiffg4 -r600x600 -dBATCH -sPAPERSIZE=a4 -sOutputFile=$1.tif $1
echo "Procesando $1.tif...";
tesseract $1.tif $1 -l spa
rm $1.tif
fi

Por último lo copiamos al directorio dónde tengamos los archivos y lo ejecutamos:
./pdfdir2txt.sh

Cuando os canséis sólo tenéis que pulsar ctrl+c y lo cancela todo. Luego cuando lo volváis a ejecutar continua dónde se haya quedado.

Fuentes:
http://www.webupd8.org/2010/02/how-to-extract-all-text-from-pdfs.html
http://www.gnu.org/software/parallel/man.html
http://stackoverflow.com/questions/16448887/gnu-parallel-not-working-at-all
http://www.soydelbierzo.com/2013/07/08/convirtiendo-pdf-llenos-de-imagenes-a-texto/
09-07-2013
Anonymous

Pero entonces la contabilidad es real o fake?

09-07-2013
Carlos Garcia Gomez

real

09-07-2013
Anonymous

El PP acaba de denunciar a Anonymous así que la contabilidad es real al 99,99%.

http://www.europapress.es/nacional/noticia-pp-denuncia-anonymous-guardia-civil-revelacion-secretos-filtrar-internet-contabilidad-20130709184758.html

09-07-2013
Anonymous

Me parece una estupenda idea, asi es mas comodo manejar la informacion para todo aquel que quiera disponer de ella.

09-07-2013
.:GeO:.

Tan real que ya demandaron a anonymous.

09-07-2013
Jaime Hidalgo

Pero y si lo de la denuncia no es más que un intento por su parte para que pensemos que es verdad (y en realidad los "hackers" fueron ellos) y así nos fijemos en cosas como los lacasitos, y en realidad ocultan las verdaderas financiaciones ilegales.. no sé que pensar, no me critiquéis, no sé nada de ésto, sólo deduzco cosas

09-07-2013
Osqui

Muchas gracias. El script es una pasada!!

...y oye...¿los partidos políticos no reciben subvenciones públicas? Debería ser público todo entonces!!

09-07-2013
Osqui

Muchas gracias. El script es una pasada!!

...y oye...¿los partidos políticos no reciben subvenciones públicas? Debería ser público todo entonces!!

09-07-2013
Anonymous

Para usuarios de ubuntu, si no me equivoco, el comando de instalación de programas necesarios es:

sudo apt-get install parallel ghostscript tesseract-ocr-spa

09-07-2013
Carlos Garcia Gomez

Si, es cierto ;-)

09-07-2013
Anonymous

Otra más para usuarios de ubuntu, si no me equivoco, el comando para convertir los pdf es (una vez posicionados en una carpeta donde haya archivos pdf):

./pdfdir2txt.sh *.pdf

Salu2, y muchas gracias por el aporte (que antes se me olvidó)

10-07-2013
elpelos

Grande como siempre!!

10-07-2013
elpelos

Grande como siempre!!

10-07-2013
Kaperuzito

Holas!

Enhorabuena por el script. Soy profe de certificaciones LPIC y debo decir que está bastante bien hecho. No te pongo un 10 por la chapucilla de copiar el script al directorio y luego borrarlo ;)

10-07-2013
Carlos Garcia Gomez

No, ahí te equivocas. El comando es simplemente
./pdfdir2txt.sh

El script ya se encarga de buscar los PDFs, tanto en el directorio como en subdirectorios.

10-07-2013
Carlos Garcia Gomez

Gracias!
La chapucilla es porque no tenía más ganas de escribir ;-)

10-07-2013
Anonymous

Ah, pues a mi me daba error hasta que pasé el *.pdf como argumento. A saber,algotendré mal.

10-07-2013
Anonymous

Muchas gracias! me quedo mas con el proceso en paralelo gracias a tus 8 nucleos. No obstante creia que el propio ordenador asignaba en paralelo cualquier trabajo que se realizaba (si no para que los 8 nucleos?).
PD: coursera, Introduction to Data Science. Cojonudisisisimo.

10-07-2013
Jose Martinez

Excelente aportacion. Comparto porque origen de corrupción en España. http://zibertronicos.blogspot.com/2013/06/corrupcion-en-espana-y-su-origen.html

10-07-2013
Kaperuzito

jajajaja, me imaginé, pero igualmente está muy chulo, y lo que es más importante, funciona :)

10-07-2013
Carlos Garcia Gomez

Pues si que había un error al detectar los pdfs en el propio directorio. SH es muy puñetero, pero ya lo he corregido. Copia el nuevo script, no sólo corrige eso, sino que además accede a todos los subdirectorios que encuentre, y no sólo a los del primer nivel.

10-07-2013
Tux

Solo puntualizar que al instalar el paquete tesseract-ocr-spa no se instala el motor, por lo que faltaría instalar también el paquete tesseract-ocr. Por lo demas, todo perfecto.
Gracias, por el aporte.

10-07-2013
Anonymous

Hola. El script no parece funcionar. Instale las dependencias incluido el último paquete que se señalo en un comentario anterior. Por otra parte para que funcione tengo que añadirle *.pdf ¿no se había corregido esto?. En fin debo estar haciendo algo mal pues lo único nuevo que he visto en el directorio son dos archivos pdf renombrados a tif (¿?). Saludos.

10-07-2013
Carlos Garcia Gomez

Pero ¿Muestra algún mensaje de error? Ten en cuenta que incluso en un procesador de 8 núcleos se tardan días en procesar toda la contabilidad.

10-07-2013
Anonymous

Porque sé que tienes la asignatura de "Herramientas de Programación" aprobada, si no te la aprobaba inmediatamente ;-)

... aunque creo que si hubieses usado funciones te quedaría algo mas limpio.

11-07-2013
Anonymous

Sí. Además del uso de funciones y hacerlo un poco más robusto, no tendría que ser necesario por ejemplo, tener que hacer que se copie el script a cada directorio.

Muchas gracias por el trabajo Carlos.

29-08-2013
Anonymous

como curiosidad...se podria buscar si figura en la contabilidad del PP el mierda ordenador este TOSHIBA LIBRETTO 100 CT que han entregado al juez?

Alguien se cree que Bárcenas usaba este modelo de portátil? Yo NO!

Me pica la curiosidad en saber si figura este ordenador en la contabilidad...

comments powered by Disqus

Powered by PussyPress.