wlp1818100227 发表于 2023-5-1 16:24:00

了解一下有关用Python提取PDF当中表格的问题

本帖最后由 wlp1818100227 于 2023-5-1 16:26 编辑

import pdfplumber
import pandas as pd
pd.set_option("display.max_columns",None)

pdf_path = "乐清湾盐沼湿地有机碳密度及碳储量估算_陈雅慧.pdf"
pdf = pdfplumber.open(pdf_path)

def read_page(page):
    tables = page.extract_tables() # 提取当前页的表格
    for i in range(len(tables)):
      table = tables
      for i in range(len(table)):
            for j in range(len(table)):
                table = table.replace('\n','') # 替换换行符
      df.pd.DataFrame(table, columns=table)
      print(df)
      df.to_csv('stu_info.csv',mode = "a", endcoding = 'utf-8',index = False)
      print(str(i) + '表格提取成功')
      print("\n")
      
pages = pdf.pages

for k in range(len(pages)):
    page = pages
    print("page" + str(k) + '正在解析')
    try:
      read_page(page)
    except Exception as err:
      print(err)
      print('无表格')

pdf.close()



以上是我看教程学的一段提取PDF当中表格的代码,但是这个代码在遇到双栏的PDF时就不好用了,请问大家有对于这个问题有什么解决方法吗

isdkz 发表于 2023-5-1 16:24:35

本帖最后由 isdkz 于 2023-5-1 16:25 编辑

遇到双栏PDF时,pdfplumber可能无法准确识别表格。在这种情况下,我们可以尝试使用camelot库,这是一个专门用于解析表格的Python库,可以更好地处理复杂的表格布局,如双栏表格。

首先,确保已安装camelot库:

pip install camelot-py


接下来,使用camelot替换pdfplumber以解析表格。这是一个使用camelot的示例代码:

import camelot
import pandas as pd

pd.set_option("display.max_columns", None)

pdf_path = "乐清湾盐沼湿地有机碳密度及碳储量估算_陈雅慧.pdf"

def read_page(page_number):
    tables = camelot.read_pdf(pdf_path, flavor="stream", pages=str(page_number), strip_text='\n')
    for table in tables:
      df = table.df
      print(df)
      df.to_csv('stu_info.csv', mode="a", encoding='utf-8', index=False)
      print(f"{page_number}页的表格提取成功\n")

# 获取PDF页数
total_pages = camelot.utils.get_page_count(pdf_path)

# 处理每一页
for page in range(1, total_pages + 1):
    print(f"page {page} 正在解析")
    try:
      read_page(page)
    except Exception as err:
      print(err)
      print('无表格')


请注意,这里使用了 camelot.read_pdf() 函数,并将参数flavor设置为"stream",以便更好地处理双栏表格。此外,我们还使用了 strip_text 参数来删除换行符。虽然camelot可能更适合处理复杂的表格布局,但它可能不如pdfplumber灵活。因此,在解决特定问题时,请根据实际需求选择合适的库。

陶远航 发表于 2023-5-1 16:36:10

看看

陶远航 发表于 2023-5-1 16:37:42

当你需要从PDF文件中提取表格数据时,Python中有多个库可以实现此功能。其中最常用的是tabula-py和pdfplumber。下面是一个使用pdfplumber库提取PDF中表格数据的示例代码,它可以将PDF中的表格转换为DataFrame并将其保存为CSV文件。
import pdfplumber
import pandas as pd

pdf_path = "example.pdf"
pdf = pdfplumber.open(pdf_path)

def read_page(page):
    tables = page.extract_tables() # 提取当前页的表格
    for table in tables:
      for i in range(len(table)):
            for j in range(len(table)):
                table = table.replace('\n','') # 替换换行符
      df = pd.DataFrame(table, columns=table)
      print(df)
      df.to_csv('output.csv', mode='a', encoding='utf-8', index=False)
      print("表格提取成功")
      print("\n")

pages = pdf.pages

for k in range(len(pages)):
    page = pages
    print("page" + str(k) + '正在解析')
    try:
      read_page(page)
    except Exception as err:
      print(err)
      print('无表格')

pdf.close()
在这个示例代码中,pdfplumber库用于打开PDF文件,extract_tables()方法用于从页面中提取表格,将表格转换为DataFrame格式,然后通过调用to_csv()方法将数据保存到CSV文件中。read_page()函数将用于处理每一页,将表格转换为DataFrame并保存到CSV文件中。

需要注意的是,在实际应用中,PDF文件的格式可能各不相同,因此在解析PDF文件时可能需要进行一些调整以确保数据正确提取。

wlp1818100227 发表于 2023-5-1 16:51:38

isdkz 发表于 2023-5-1 16:24
遇到双栏PDF时,pdfplumber可能无法准确识别表格。在这种情况下,我们可以尝试使用camelot库,这是一个专门 ...

这段代码说Ghostscript is not installed 我用pip 安装了,但是还是显示没安装,是说得单独安装吗

isdkz 发表于 2023-5-1 16:54:06

wlp1818100227 发表于 2023-5-1 16:51
这段代码说Ghostscript is not installed 我用pip 安装了,但是还是显示没安装,是说得单独安装吗

是的,Ghostscript是一个单独的程序,需要在系统中单独安装。camelot库在后台使用Ghostscript来处理PDF文件,因此在使用camelot之前,需要确保已经安装了Ghostscript。

请根据您的操作系统安装Ghostscript:

1. 对于Windows用户:
    · 访问Ghostscript的官方下载页面:https://www.ghostscript.com/download/gsdnld.html
    · 选择适合您的系统(32位或64位)的Windows版本,并点击下载。
    · 下载完成后,运行安装程序并按照提示进行安装。
    · 最后,请确保将Ghostscript的可执行文件路径添加到系统的PATH环境变量中。

2. 对于macOS用户:
    · 如果您已经安装了Homebrew,只需在终端中运行以下命令:
            brew install ghostscript
      
    · 如果没有安装Homebrew,请访问Ghostscript官方下载页面下载并安装适合您的macOS系统的版本:https://www.ghostscript.com/download/gsdnld.html

3. 对于Linux用户:
    · 在终端中运行以下命令(取决于您的Linux发行版):
      · Debian/Ubuntu:
                        sudo apt-get install ghostscript
            
      · Fedora:
                        sudo dnf install ghostscript
            
      · CentOS/RHEL:
                        sudo yum install ghostscript
            

安装完成后,您的系统应该可以正常使用camelot库了。如果仍然遇到问题,请确保Ghostscript的可执行文件路径已添加到系统的PATH环境变量中。

sfqxx 发表于 2023-5-1 16:56:59

鱼币呢

sfqxx 发表于 2023-5-1 16:58:35

当遇到双栏的PDF时,提取表格可能会出现问题,因为每一页中的文本内容不一定按照水平顺序排列。您可以尝试通过指定table_settings参数来解决这个问题。例如,您可以设置一个表格边缘的左和右坐标,使其适应页面的宽度。下面是一个修改后的代码示例:


import pdfplumber
import pandas as pd
pd.set_option("display.max_columns",None)

pdf_path = "乐清湾盐沼湿地有机碳密度及碳储量估算_陈雅慧.pdf"
pdf = pdfplumber.open(pdf_path)

def read_page(page):
    tables = page.extract_tables(table_settings={
      'vertical_strategy': 'lines',
      'horizontal_strategy': 'text',
      'explicit_vertical_lines': [],
      'explicit_horizontal_lines': [],
      'snap_tolerance': 0.01,
      'join_tolerance': 0.1,
      'edge_min_length': 2,
      'min_words_vertical': 10,
      'min_words_horizontal': 1,
      'keep_blank_chars': False,
      'text_tolerance': 0.3,
      'text_x_tolerance': None,
      'text_y_tolerance': None,
      'intersection_tolerance': 0.5,
      'intersection_x_tolerance': None,
      'intersection_y_tolerance': None,
    }) # 添加table_setting参数进行调整
    for i in range(len(tables)):
      table = tables
      for i in range(len(table)):
            for j in range(len(table)):
                table = table.replace('\n','') # 替换换行符
      df.pd.DataFrame(table, columns=table)
      print(df)
      df.to_csv('stu_info.csv',mode = "a", endcoding = 'utf-8',index = False)
      print(str(i) + '表格提取成功')
      print("\n")
      
pages = pdf.pages

for k in range(len(pages)):
    page = pages
    print("page" + str(k) + '正在解析')
    try:
      read_page(page)
    except Exception as

wlp1818100227 发表于 2023-5-1 16:59:51

isdkz 发表于 2023-5-1 16:54
是的,Ghostscript是一个单独的程序,需要在系统中单独安装。camelot库在后台使用Ghostscript来处理PDF文 ...

弄弄的GPT的味道哈哈哈

isdkz 发表于 2023-5-1 17:00:34

wlp1818100227 发表于 2023-5-1 16:59
弄弄的GPT的味道哈哈哈

{:5_97:}

wlp1818100227 发表于 2023-5-1 17:02:07

sfqxx 发表于 2023-5-1 16:58
当遇到双栏的PDF时,提取表格可能会出现问题,因为每一页中的文本内容不一定按照水平顺序排列。您可以尝试 ...

__init__() got an unexpected keyword argument 'keep_blank_chars' 报这个错了

sfqxx 发表于 2023-5-1 17:10:18

这个错误通常发生在使用 `django.contrib.auth.forms.AuthenticationForm` 类或类似的表单类时,该表单类接受了名为 `keep_blank_chars` 的参数,但是该参数在其父类中没有定义。

一种解决方法是在实例化表单类时不传递 `keep_blank_chars` 参数。例如:


form = AuthenticationForm(data=request.POST)

如果仍然遇到相同的错误,请检查您的 Django 版本是否与所用示例的版本不同。有时,更新版本可能会导致某些代码无法正常工作。

另外,您也可以尝试重新安装 Django 并确保所有依赖项已正确安装。
页: [1]
查看完整版本: 了解一下有关用Python提取PDF当中表格的问题