El procesamiento de documentos es uno de los casos de uso más comunes del lenguaje de programación Python. Esto permite que el lenguaje maneje muchos archivos, como archivos de bases de datos, archivos multimedia y archivos cifrados, solo por nombrar algunos. En este artículo, aprenderá cómo leer una página en particular de un archivo PDF (formato de documento portátil) en Python.
Método 1: usar la biblioteca Pymupdf para leer la página en Python
La PIL (Biblioteca de imágenes de Python), junto con la biblioteca PyMuPDF, se utiliza en este artículo para el procesamiento de PDF. Para instalar la biblioteca PyMuPDF, ejecute el siguiente comando en el procesador de comandos del sistema operativo:
pip install pymupdf
Observación: Esta biblioteca PyMuPDF se importa con el siguiente comando.
import fitz
Para leer una página de un archivo PDF, primero debe cargarlo y luego mostrar el contenido de una sola de las páginas. Esto esencialmente hace que una página sea equivalente a una imagen. Por lo tanto, la página se leería del archivo PDF y se mostraría como una imagen.
El siguiente ejemplo ilustra el proceso anterior:
Python3
|
Salida:

Explicación:
Primero, se abre el archivo PDF y se guarda el identificador del archivo. Luego, la primera página del PDF (en el índice 0) se carga a través de la indexación de listas. El mapa de píxeles (pixel array) de esta página se obtiene mediante el get_pixmap función y el mapa de píxeles resultante se almacena en una variable. Luego, este mapa de píxeles se guarda como un archivo de imagen png. Luego, este archivo png se abrirá usando el Abierto función presente en el Imagen módulo de PÍLDORA. Finalmente, la imagen es renderizada usando el mostrar función.
Observación: El primero Abierto La función se usa para abrir un archivo pdf, y la última se usa para abrir un archivo de imagen png. Las funciones pertenecen a diferentes bibliotecas y se utilizan para diferentes propósitos.
Método 2: leer una página específica de un PDF con PyPDF2
El segundo ejemplo usaría la biblioteca PyPDF2. Que se puede instalar ejecutando el siguiente comando:
pip install PyPDF2
El mismo objetivo se puede lograr utilizando la biblioteca PyPDF2. La biblioteca permite el procesamiento de archivos PDF y permite varias operaciones como leer, escribir o crear un archivo PDF. Para la tarea en cuestión, haría uso de la función de extraer texto para extraer y mostrar el texto del archivo PDF. El código para esto es el siguiente:
Python3
|
Salida:
He started this Journey with just one thought- every geek should have access to a never ending range of academic resources and with a lot of hardwork and determination, GeeksforGeeks was born. Through this platform, he has successfully enriched the minds of students with knowledge which has led to a boost in their careers. But most importantly, GeeksforGeeks will always help students stay in touch with their Geeky side! EXPERT ADVICE CEO and Founder of GeeksforGeeks I understand that many students who come to us are either fans of the sciences or have been pushed into this feild by their parents. And I just want you to know that no matter where life takes you, we at GeeksforGeeks hope to have made this journey easier for you.Mr. Sandeep Jain 3
Explicación:
Primero, la ruta al PDF de entrada y el número de página se definen en variables separadas. Luego abre el archivo PDF y almacena el objeto de archivo en una variable. Luego, esta variable se pasa como argumento a la función PdfFileReader, que crea un objeto lector de PDF a partir de un objeto de archivo. Luego, los datos almacenados dentro del número de página definido en la variable de página se obtienen y almacenan en una variable. Luego extrae el texto de esa página PDF y cierra el objeto de archivo. Finalmente, se mostrarán los datos de texto extraídos.