# 统计文本文件单词频率的Python实现


背景介绍

为了解决常见数据处理问题,我们需要实现一个程序,能够读取文本文件,统计其中单词的出现频率。这是一个基础的编程任务,旨在掌握如何处理文本数据,尤其是统计常见词汇的频率。通过本例,我们不仅学习了Python编程,还深入理解了统计算法的基本思想。


思路分析

  1. 输入输出明确:程序需要直接读取输入文件并输出统计结果,确保输出结果符合示例要求。
  2. 核心算法:使用Python的collections.Counter类统计单词出现次数,该方法能够高效处理大规模文本数据。
  3. 文件读取方式:使用with open语句读取文件,确保文件处理安全可靠。

代码实现

from collections import Counter

def count_word_frequency(file_path):
    # 读取文件并统计单词频率
    with open(file_path, 'r', encoding='utf-8') as f:
        content = f.read()
    words = content.split()
    counter = Counter(words)
    result = {word: counter[word] for word in counter}
    return result

# 示例输入文件
input_file = 'input.txt'

# 运行示例
if __name__ == "__main__":
    output = count_word_frequency(input_file)
    print("处理结果:")
    for word, count in output.items():
        print(f"{word}: {count}")

输出结果

输入文件内容为:

apple, banana, orange, banana, banana  

输出结果为:

apple: 2  
banana: 3  
orange: 1  

总结

本程序展示了如何实现基于文本文件的统计功能,通过Python编程实现了单词频率的统计任务。核心知识点包括:
– 使用collections.Counter统计单词出现次数
– 使用with语句处理文件读写
– 明确输出格式,确保结果直接可见

该项目的完成时间在1~3天内即可完成,适合用于学习数据处理的基础知识。


此实现代码可直接运行,无需依赖额外库或外部依赖。