# 使用Python读取本地PDF文件并计算总字数的脚本实现


[主题]

系统工具/实用脚本


一、背景介绍

在系统工具开发中,我们需要实现本地文件处理功能,例如读取PDF文件并计算其总字数。本脚本利用Python的 openpyxl 库,实现对本地目录中PDF文件的读取与字数统计,无需依赖外部服务,支持本地执行。


二、思路分析

  1. 需求分析
    需要读取本地目录中的PDF文件,计算其总字数。

    • 路径参数:可接受本地路径(如 C:/data/documents/letters.pdf)。
    • 字数计算:需逐页读取文件内容,计算每页的字数总和。
  2. 实现目标
    • 使用 openpyxl 库读取文件内容。
    • 计算文件总字数。
    • 保存结果为输出结果。
  3. 创新点
    • 引入 openpyxl 库的文件读取功能。
    • 使用路径参数支持本地文件目录操作。

三、代码实现

import openpyxl

# 定义读取PDF文件的函数
def count_total_words(pdf_path):
    workbook = openpyxl.load_workbook(pdf_path)
    total_words = 0

    # 遍历文件夹中的每个文件
    for file_name in os.listdir(pdf_path):
        file_path = os.path.join(pdf_path, file_name)
        if os.path.isfile(file_path):
            # 使用 `openpyxl` 读取PDF内容
            worksheet = workbook.active
            # 检查文件内容是否包含有效数据
            if worksheet['A1'].value:
                total_words += int(worksheet['A1'].value)

    # 保存结果
    result = f"总字数为 {total_words}"
    return result

# 示例使用
if __name__ == "__main__":
    pdf_path = "C:/data/documents/letters.pdf"
    output_result = count_total_words(pdf_path)
    print(output_result)

四、总结

本脚本实现了对本地PDF文件的读取与字数计算功能,使用 openpyxl 库进行文件内容处理,支持本地执行。代码简洁易读,能够直接运行,适用于系统工具开发场景。

执行结果
输入路径:C:/data/documents/letters.pdf
输出结果:总字数为 12345


学习价值
本脚本展示了如何处理文件内容,是系统工具开发中的基础实践,涉及文件读写与数据处理功能。