pdfplumber
是一个 Python 库,专门用于从 PDF 文档中提取信息。它提供了一种简单直观的方式来访问 PDF 的文本、图像和其他内容。
我在训练ai的过程中,由于直接导入的pdf文档,导致ai对pdf文档内容的信息读取不够准确,所以急需一个工具能将pdf中的数据提取出来,此时我就了解到了pdfplumber
我来讲一下我下载pdfplumber过程中的遇到的问题与解决办法
我的系统是win11
大前提:一定要在虚拟环境下进入python环境!
不要ctrl+R进入cmd,直接进入powershell,在命令行中先切换到你创建的虚拟环境中,然后执行python命令,我的是python3,进入到python编译环境后,执行import pdfplumber,提示没有模块,
于是我使用命令再下载一下
安装成功后我又重新进入python中导包
import pdfplumber
发现报错还是没有这个模块:No module named 'pdfplumber'
问题解决:
其实这个问题就是我一开始强调的一定要在虚拟环境下进行
一直报错的原因就是我们使用的python.exe(python语言的解释器)不是虚拟环境下的python.exe
使用where python列出我们的目录下有哪些python.exe,然后找到虚拟环境下的的python.exe
直接切换到虚拟环境的目录下
现在就可以正常使用了,先用file_path,将你想提取内容的文件路径导入
再使用下面这段代码,将pdf中的第一页里面的内容提取出来,然后就能看到提取出来的内容了
with pdfplumber.open(file_path) as pdf:
first_page = pdf.pages[0]
text = first_page.extract_text()
print(text)\