19.3.03

Tomar fotos digitales de publicaciones para hacer OCR...

Hola!

Les queria contar una prueba que hice para capturar data en un archivo de diarios (el archivo histórico local, pero puede ser util en cualquier lugar), y en el marco de una investigacion es un "Uso subdesarrollado de una Tecnología Desarrollada"

Estuve probando de sacar fotos de las páginas de los diarios que están encuadernados en la colección. El problema con los archivos es que normalmente o no te los dejan sacar para fotocopiar, o son muy grandes para poder manipularlos o capturar los textos que te interesan.

Lleve una camara digital (Kodak DX3900, de 3,1 megapixel) y estuve fotografiando las páginas que necesitaba. La experiencia fue buena, porque en poco tiempo acabe de tomar los datos que necesitaba. Luego les hice OCR a las fotos, con el Omnipage, transformadolas a TIF para que aceptara su ingreso.

El reconocimiento fue alto, obviamente en las fotos más claras.

Las variables son: que si uno se aleja mucho la informacion se pierde, pero si uno se acerca el texto queda fuera de foco. O sea que hay que encontrar la distancia justa.

Al parecer, lo mejor es encontrar un punto medio que en mi caso fue tomar un ancho de 4 o 5 columnas de texto. En algunos casos se podia tomar el ancho de la páginas, pero aqui entra tambien el tema de la calidad de la impresion. En el caso de la impresion que no es offset, el detalle no es bueno para hacer OCR sin importar la calidad de la foto. Si es offset, sirve si para el OCR.

Otra variable es el uso de la luz. El uso del flash parece recomendable, en tanto la iluminacion de un archivo no es buena, amen que el diario suele estar arrugado o se tuerce en el lado de la encuadernacion. El flash da luz pareja y blanquea la hoja...

De todos modos, tambien pueden leerse en casa muchas de las imagenes que el OCR no acepta...

atte

Jorge

No hay comentarios: