from pdfminer.pdfparser import PDFParser, PDFDocument
from pdfminer.pdfinterp import PDFResourceManager, PDFPageInterpreter
from pdfminer.pdfdevice import PDFDevice
from pdfminer.converter import PDFPageAggregator
from pdfminer.layout import LAParams
fp = open('/data/demo/mark.pdf','rb')

---------------------------------------------------------------------------
ModuleNotFoundError                       Traceback (most recent call last)
Cell In[2], line 1
----> 1 from pdfminer.pdfparser import PDFParser, PDFDocument
      2 from pdfminer.pdfinterp import PDFResourceManager, PDFPageInterpreter
      3 from pdfminer.pdfdevice import PDFDevice

ModuleNotFoundError: No module named 'pdfminer'

parse = PDFParser(fp)

doc = PDFDocument()

parse.set_document(doc)
doc.set_parser(parse)

doc.initialize("")

resource = PDFResourceManager()

laparam = LAParams()

device = PDFPageAggregator(resource, laparams=laparam)

interpreter = PDFPageInterpreter(resource, device)

doc

res=[]
for page in doc.get_pages():
    interpreter.process_page(page)
    # print(device.get_text())

    layout = device.get_result()
    for cnt in layout:
        if hasattr(cnt,"get_text"):
            print(cnt.get_text().strip())

res=[]
for page in doc.get_pages():
    interpreter.process_page(page)
    layout = device.get_result()
    for out in layout:
        res.append(out)
for i in res[:3]:
    print(i.get_text())

安装

查看文档内容

命令行工具

`pdf2txt.py`

提取文件名为 `output.html` 的HTML文件

以垂直书写方式提取HTML文件

从加密的PDF文件中提取文本

`dumppdf.py`

转储所有标题和内容

转储目录

提取JPEG图像

① 阅读使用手册

② 注册用户账号

介绍

平台内核

注意事项

安装

查看文档内容

命令行工具

pdf2txt.py

提取文件名为 output.html 的HTML文件

以垂直书写方式提取HTML文件

从加密的PDF文件中提取文本

dumppdf.py

转储所有标题和内容

转储目录

提取JPEG图像

① 阅读使用手册

② 注册用户账号

③ 登陆

Python基础

Python进阶

标准类库

专题工具

图像处理

科学计算

自然语言

开源GIS

R 编程语言

Julia编程语言

介绍

平台内核

注意事项

`pdf2txt.py`

提取文件名为 `output.html` 的HTML文件

`dumppdf.py`