当前位置: 首页 > news >正文

苏州全网网站建设竞价排名机制

苏州全网网站建设,竞价排名机制,wordpress怎么做多级分类,福建建设工程设计备案网站前两天有朋友问我,你能不能帮我把pdf中的表格数据抓出来,输出到excel中,我说我试试。 最近看资料发现python有很多库都可以完成pdf中的表格数据抓取,选择其中一种尝试:pdfplumber。 一、简单介绍 在使用之前我们简单…

前两天有朋友问我,你能不能帮我把pdf中的表格数据抓出来,输出到excel中,我说我试试。

最近看资料发现python有很多库都可以完成pdf中的表格数据抓取,选择其中一种尝试:pdfplumber。

一、简单介绍

在使用之前我们简单了解一下:

1.pdfplumber是什么?

pdfplumber是一款基于pdfminer,完全由python开发的pdf文档解析库,不仅可以获取每个字符、矩形框、线等对象的具体信息,而且还可以抽取文本和表格。目前pdfplumber仅支持可编辑的pdf文档。

2.pdfplumber和pdfminer比优势在哪?

  • 二者都可以获取到每个字符、矩形框、线等对象的具体信息,但是pdfplumber在pdfminer的基础上进行了封装和处理,使得到的对象更易于使用,对用户更友好。
  • 二者都能对文本解析,但是pdfminer输出的文本在布局上可能与原文差别比较大,但是pdfplumber抽取出的文本与原文可以有更高的一致性。
  • pdfplumber实现了表格抽取逻辑,基于最基本的字符、线框等对象的位置信息,定位、识别pdf文档中的表格

二.实际使用

安装 pdfplumber

pip install pdfplumber

实现

# 导入必要的库
import pdfplumber
import pandas as pddef read_pdf_to_excel(read_path, save_path, header_index):# 读取文件内容,如果有多个表格,会读取到多个表格页pdf_2020 = pdfplumber.open(read_path)# 创建结果数据集result_df = pd.DataFrame()for page in pdf_2020.pages:# 读取表格内容table = page.extract_table()# print(table)# 进行表格数据格式化df_detail = pd.DataFrame(table[(header_index+1):], columns=table[header_index])# 合并表格数据到结果数据集result_df = pd.concat([df_detail, result_df], ignore_index=True)result_df.to_excel(excel_writer=save_path, index=False)read_path = r'/***/**.pdf'
save_path = r'/***/**.xlsx'
# 这里的1是申明表格表头的数据下标是几
read_pdf_to_excel(read_path, save_path, 1)

Python提取pdf中的表格数据输出到excel的功能就实现了。如果和你需要抓去的表格不太相符合,可以自己调整参数。

http://www.rdtb.cn/news/1692.html

相关文章:

  • 门头沟网站建设产品推广文章
  • 公关公司和广告公司的区别北京seo实战培训班
  • 中学生怎么做网站抖音seo排名软件哪个好
  • 青岛易龙网站建设建站之星官网
  • 中国城乡建设部网站房贴文件公司在百度怎么推广
  • wordpress采集爬虫成都自动seo
  • php网站后台登陆不上谷歌外贸seo
  • 绵阳新区大建设谷歌seo靠谱吗
  • iis添加网站 别名怎么做网络营销
  • ip做网站域名官网建设
  • 上海做网站开发的公司贴吧推广
  • 建设一个百度百科类网站网络营销网
  • ai做网站页面建多大的网络营销顾问
  • 彩票网站做一级代理犯法吗石家庄自动seo
  • 网站打不开怎么做官方进一步优化
  • 宁波网站建设在哪里深圳网站推广公司
  • 乐清网站建设重庆企业网站排名优化
  • 四川省人民政府网优化大师使用心得
  • 电子商务网站开发成本做广告的怎么找客户
  • 网站新增一个域名备案武汉搜索推广
  • 做网站用webpack可以吗外包网络推广
  • 怎么自己做视频网站网络营销策划案怎么写
  • 企云网站建设官方百度平台
  • 怎样维护网站的安全和备份深圳网络推广公司哪家好
  • 杭州余杭做网站公司免费奖励自己的网站
  • 徐州网站建设深圳营销策划公司十强
  • 各大游戏网站百度直播推广
  • 网站改版iis301跳转如何做宁波seo深度优化平台
  • 领秀网站建设宁波seo搜索引擎优化公司
  • 做网站卖狗挣钱吗营销公司排行