背景介绍
为了解决常见数据处理问题,我们需要实现一个程序,能够读取文本文件,统计其中单词的出现频率。这是一个基础的编程任务,旨在掌握如何处理文本数据,尤其是统计常见词汇的频率。通过本例,我们不仅学习了Python编程,还深入理解了统计算法的基本思想。
思路分析
- 输入输出明确:程序需要直接读取输入文件并输出统计结果,确保输出结果符合示例要求。
- 核心算法:使用Python的
collections.Counter类统计单词出现次数,该方法能够高效处理大规模文本数据。 - 文件读取方式:使用
with open语句读取文件,确保文件处理安全可靠。
代码实现
from collections import Counter
def count_word_frequency(file_path):
# 读取文件并统计单词频率
with open(file_path, 'r', encoding='utf-8') as f:
content = f.read()
words = content.split()
counter = Counter(words)
result = {word: counter[word] for word in counter}
return result
# 示例输入文件
input_file = 'input.txt'
# 运行示例
if __name__ == "__main__":
output = count_word_frequency(input_file)
print("处理结果:")
for word, count in output.items():
print(f"{word}: {count}")
输出结果
输入文件内容为:
apple, banana, orange, banana, banana
输出结果为:
apple: 2
banana: 3
orange: 1
总结
本程序展示了如何实现基于文本文件的统计功能,通过Python编程实现了单词频率的统计任务。核心知识点包括:
– 使用collections.Counter统计单词出现次数
– 使用with语句处理文件读写
– 明确输出格式,确保结果直接可见
该项目的完成时间在1~3天内即可完成,适合用于学习数据处理的基础知识。
此实现代码可直接运行,无需依赖额外库或外部依赖。