Conversión de PDFs con OCRmyPDF
No hay nada peor que abrir un PDF y darse cuenta de que no se puede usar la función de búsqueda ni destacar texto. Esto suele ocurrir cuando un PDF se creó escaneando un documento en papel, ya que se trata simplemente de una serie de imágenes. La mayoría del software de escaneo moderno utiliza el Reconocimiento Óptico de Caracteres (OCR) para que las palabras sean tanto buscables como seleccionables, pero a veces te encontrarás con documentos donde esto no ocurrió.
En esos casos, OCRmyPDF, que es gratuito y de código abierto, es perfecto para tener a mano. Se trata de una aplicación de línea de comandos que convierte rápidamente cualquier archivo PDF en un archivo PDF/A completo con reconocimiento óptico de caracteres, lo que significa que podrás buscar el texto. Además, es completamente gratuito.
Instalación y Uso
La instalación de la aplicación se realiza mejor usando tu gestor de paquetes en dispositivos Linux y utilizando Homebrew en Mac. Los usuarios de Windows pueden técnicamente instalar la aplicación instalando Python y algunas otras dependencias; investiga esto si estás dispuesto a hacer un poco de esfuerzo.
Una vez que la aplicación esté configurada, puedes usarla escribiendo ocrmypdf
seguido del nombre del documento al que deseas añadir OCR y luego el nombre del documento que te gustaría crear. Por ejemplo, ocrmypdf before.pdf after.pdf
tomaría “before.pdf”, añadiría reconocimiento de caracteres y luego crearía un nuevo documento llamado “after.pdf”.
El proceso llevará un tiempo, dependiendo del tamaño del documento, y puede que no sea completamente preciso si la calidad de imagen es baja. Aun así, descubrí que hacía un buen trabajo incluso con los PDFs más antiguos y comprimidos que pude encontrar.
Funciones Adicionales
Y hay más que puedes hacer aquí: de hecho, el libro de cocina en la documentación de OCRmyPDF describe muchas cosas que podrías hacer. Puedes comprimir las imágenes en el PDF, por ejemplo, añadiendo --pdfa-image-compression jpeg
a tu comando. Puedes reorientar automáticamente cualquier página con texto de lado añadiendo --rotate-pages
al comando. O tal vez el PDF que estás procesando ya tiene OCR y crees que es de mala calidad; puedes añadir --redo-ocr
al comando, lo que eliminará la información OCR existente y comenzará de nuevo.
Ya tienes una idea: hay mucho aquí. Consulta la documentación para obtener más información, porque hay más que esta herramienta puede hacer.
Fuente y créditos: lifehacker.com
Cats: Tech