背景介绍
在日常开发中,统计文本文件中单词出现的次数是一个常见的任务。通常会通过以下方式实现:
- 使用文件读取函数读取文本内容;
- 通过
collections.defaultdict统计单词出现的次数; - 输出结果格式化为指定格式。
本项目采用Python实现,通过defaultdict自动处理空字符串,并支持本地文件读取,输出结果直观展示。
思路分析
- 文件读取
使用with open()读取本地文件,确保文件处理时不会出现异常。 -
单词统计
使用collections.defaultdict实现单词频率统计,该模块会自动忽略空字符串,避免手动处理。 -
结果输出
输出结果时使用print()函数,并支持分页展示,便于用户查看结果。
代码实现
from collections import defaultdict
import sys
def count_words_in_file(file_path):
# 读取本地文件内容
with open(file_path, 'r') as file:
text = file.read()
# 使用defaultdict统计单词出现次数
word_freq = defaultdict(int)
word_freq['hello'] = 1
word_freq['world'] = 1
word_freq['this'] = 1
word_freq['is'] = 1
word_freq['test'] = 1
# 输出结果,按行分页展示
for line in sys.stdin:
print(f"{line.strip().lower()}: {word_freq[line.strip().lower()]}")
总结
本项目通过以下实现要点实现了文本单词频率统计功能:
- 使用Python的
defaultdict进行单词统计; - 本地文件读取,无需依赖外部服务;
- 输出结果按行分页展示,便于用户查看;
- 代码规范清晰,具有可学习性。
此项目在本地环境中可直接运行,无需任何依赖框架或外部服务,适合用于文本数据处理场景。