Python利用PyPDF2库获取PDF文件总页码实例

脚本专栏 2024/12/28 佚名

3 1 2

快活林资源网 Design By www.csstdc.com

Python中可以利用PyPDF2库来获取该pdf文件的总页码，可以根据下面的方法一步步进行下去：

1、首先，要安装PyPDF2库，利用以下命令即可：

pip install PyPDF2

2、接着，就是直接编写代码了，其中我新建了一个py文件，名为file_utils.py，代码如下：

from PyPDF2 import PdfFileReader
 
def get_num_pages(file_path):
 """
 获取文件总页码
 :param file_path: 文件路径
 :return:
 """
 reader = PdfFileReader(file_path)
 # 不解密可能会报错：PyPDF2.utils.PdfReadError: File has not been decrypted
 if reader.isEncrypted:
  reader.decrypt('')
 page_num = reader.getNumPages()
 return page_num

3、这样就可以获得该pdf文件的总页数了，但是需要传递文件路径进去，因为需要读取这个文件。

4、以上内容仅供学习参考，谢谢！

补充知识：使用python合并pdf文件带书签

1、需求：

将几本纸质书进行了扫描，可是扫描的每页生成一个pdf文件。需要怎么才能把这些pdf文件合成一个呢？adoba acrobat工具支持，可是收费。我们平时用的都是adoba reader，只有读pdf的功能没有合并等高级功能。网上的一些免费工具又担心有病毒或绑定程序。

所以考虑看看pyton实现。网上找了下python合并pdf的脚本，发现也没有添加书签的功能的，有添加书签的也不是很灵活。

所有对网上找的一个python程序进行了升级，可以实现合并pdf并每个章节加入书签。

文件准备：

先将扫描的pdf文件，每一章放到一个文件夹中，文件夹名字用章节名命名。这样最终程序就能将章节名作为书签了，而不是默认将每页都生成书签。

2、程序代码

代码运行环境：python3

需要安装PyPDF2包：pip install PyPDF2

#!/usr/bin/env python3
# -*- coding: utf-8 -*-
'''
 本脚本用来合并pdf文件，支持带一级子目录的
 每章内容分别放在不同的目录下，目录名为章节名
 最终生成的pdf，按章节名生成书签
'''

import os, sys, codecs
from PyPDF2 import PdfFileReader, PdfFileWriter, PdfFileMerger
import glob

def getFileName(filepath):
 '''
  获取当前目录下的所有pdf文件
 '''
 file_list = glob.glob(filepath+"/*.pdf")
 # 默认安装字典序排序，也可以安装自定义的方式排序
 # file_list.sort()
 return file_list


def get_dirs(filepath='', dirlist_out=[], dirpathlist_out=[]):
 # 遍历filepath下的所有目录
 for dir in os.listdir(filepath):
  dirpathlist_out.append(filepath + '\\' + dir)

 return dirpathlist_out


def merge_childdir_files(path):
 '''
  每个子目录下合并生成一个pdf
 '''
 dirpathlist = get_dirs(path)
 if len(dirpathlist) == 0:
  print("当前目录不存在子目录")
  sys.exit()
 for dir in dirpathlist:
  mergefiles(dir, dir)


def mergefiles(path, output_filename, import_bookmarks=False):
 # 遍历目录下的所有pdf将其合并输出到一个pdf文件中，输出的pdf文件默认带书签，书签名为之前的文件名
 # 默认情况下原始文件的书签不会导入，使用import_bookmarks=True可以将原文件所带的书签也导入到输出的pdf文件中
 merger = PdfFileMerger()
 filelist = getFileName(path)
 if len(filelist) == 0:
  print("当前目录及子目录下不存在pdf文件")
  sys.exit()
 for filename in filelist:
  f = codecs.open(filename, 'rb')
  file_rd = PdfFileReader(f)
  short_filename = os.path.basename(os.path.splitext(filename)[0])
  if file_rd.isEncrypted == True:
   print('不支持的加密文件：%s'%(filename))
   continue
  merger.append(file_rd, bookmark=short_filename, import_bookmarks=import_bookmarks)
  print('合并文件：%s'%(filename))
  f.close()
 # out_filename = os.path.join(os.path.abspath(path), output_filename)
 merger.write(output_filename + ".pdf")
 print('合并后的输出文件：%s'%(output_filename))
 merger.close()

if __name__ == "__main__":
 # 每个章节一个子目录，先分别合并每个子目录文件为一个pdf，然后再将这些pdf合并为一个大的pdf，这样做目的是想生成每个章节的书签

 # 1.指定目录
 # 原始pdf所在目录
 path = "D:\spdf"
 # 输出pdf路径和文件名
 output_filename = "D:\spdf\战略规划 公司实现持续成功的方法、工具和实践 罗熙昶 2018-09"

 # 2.生成子目录的pdf
 # merge_childdir_files(path)

 # 3.子目录pdf合并为总的pdf
 mergefiles(path, output_filename)

3、程序使用

将要生成的pdf文件目录导入到程序指定目录下，例如我程序中的path是“D:\spdf”，然后指定最终输出的文件路径及文件名，我上面的output_filename是"D:\spdf\战略规划公司实现持续成功的方法、工具和实践罗熙昶 2018-09"

数据结果如下：

以上这篇Python利用PyPDF2库获取PDF文件总页码实例就是小编分享给大家的全部内容了，希望能给大家一个参考，也希望大家多多支持。

Python,PyPDF2,PDF

快活林资源网 Design By www.csstdc.com

广告合作：本站广告合作请联系QQ：858582 申请时备注：广告合作（否则不回）
免责声明：本站资源来自互联网收集,仅供用于学习和交流,请遵循相关法律法规,本站一切资源不代表本站立场,如有侵权、后门、不妥请联系本站删除！

快活林资源网 Design By www.csstdc.com

评论“Python利用PyPDF2库获取PDF文件总页码实例”

暂无评论...

www.csstdc.com 快活林资源网

120,135影音资源

344,641技术资源

22,817软件资源

435,032站长资源

最新文章

《三国志8重置版》劝降机制介绍

2024/12/28

《欢欣森活》最新官方配置要求一览

2024/12/28

《欢欣森活》存档方法

2024/12/28

《炉石传说》2024新赛季上线更新内容问题汇

2024/12/28

《南瓜恐慌》进不去游戏解决方法

2024/12/28

《战舰世界》语音包文件夹位置介绍

2024/12/28

一句话新闻

苹果官宣WWDC 2024！预计会有大批AI功能 - 2024/12/28

3月27日消息，苹果宣布2024年全球开发者大会（WWDC）将于6月10日至6月14日举行，巧合的是，这次大会与端午假期重合。

苹果官方表示：

在线参加 Apple 每年规模最大的开发者盛会。亲眼见证 Apple 最新平台、技术和工具的发布。了解如何创建和改进你的 App 和游戏。与 Apple 设计师和工程师互动交流，与全球开发者社区建立联系。以上活动均免费在线举行。

探索各种新的工具、框架和功能，助力你打造出理想的 App 和游戏。通过视频讲座学习新技能，与 Apple 专家进行一对一会面，以推进你的项目，完善你的构思。

Swift Student Challenge 旨在支持和鼓舞下一代开发者、创作者和企业家。太平洋时间 3 月 28 日，我们将公布今年的获奖者名单。获奖者将有资格参加在 Apple Park 举办的特别活动。我们还会选出 50 名杰出获胜者，他们将受邀前往库比提诺，获得为期三天的非凡体验，包括参加 Apple Park 的特别活动。

Python利用PyPDF2库获取PDF文件总页码实例

解决pyPdf和pyPdf2在合并pdf时出现异常的问题

pycharm解决关闭flask后依旧可以访问服务的问题

评论“Python利用PyPDF2库获取PDF文件总页码实例”

RTX 5090要首发性能要翻倍！三星展示GDDR7显存

更新日志

友情链接

Python利用PyPDF2库获取PDF文件总页码实例

解决pyPdf和pyPdf2在合并pdf时出现异常的问题

pycharm解决关闭flask后依旧可以访问服务的问题

评论“Python利用PyPDF2库获取PDF文件总页码实例”

RTX 5090要首发 性能要翻倍！三星展示GDDR7显存

更新日志

友情链接

RTX 5090要首发性能要翻倍！三星展示GDDR7显存