# 英文单词统计技术博客：用Python实现文件处理与频率统计

在数据分析领域，文件处理是不可或缺的环节。本项目旨在实现对包含英文单词的文本文件的统计功能，统计每个单词的出现次数并记录频率。通过读取文件、处理内容、应用数据结构进行统计，最终输出结果。

一、问题分析与核心需求

输入输出示例

输入：

Hello World! This is a test.

输出：

- "Hello"：出现次数 1  
- "World"：出现次数 1  
- "This"：出现次数 1  
- "test"：出现次数 1

核心需求

输入一个包含英文单词的文本文件
输出统计结果，记录单词出现次数
使用数据结构（字典）实现频率统计
实现文件读写功能

二、思路分析

1. 文件读取功能

使用Python的open()函数读取文本文件内容，可以读取全部文本。需要注意的是，可能需要对文本进行预处理，例如去除空格或换行符，以确保单词的正确统计。

2. 数据结构应用

采用Python的collections.defaultdict来实现频率统计，可以高效处理大量数据。defaultdict自动处理键值对的初始化，使得统计过程更加简洁。

3. 计算步骤

打开文件并读取内容
提取所有英文单词
统计每个单词的出现次数
输出结果

三、代码实现

from collections import defaultdict

def word_count(text_file_path):
    with open(text_file_path, 'r') as file:
        text = file.read()

    # 提取所有单词
    words = text.split()
    word_dict = defaultdict(int)
    for word in words:
        word_dict[word] += 1

    # 输出结果
    result_lines = [
        f"- {key}：出现次数 {value}" for key, value in word_dict.items()
    ]
    print("\n".join(result_lines))

# 示例使用
word_count("input.txt")

四、总结

本项目实现了对文本文件中英文单词的统计功能，通过文件读取、数据结构应用和清晰的输出结果，确保了统计的准确性和效率。关键步骤包括：

使用Python的collections.defaultdict实现频率统计
通过文件读取函数高效处理文本内容
明确的代码结构确保可运行性

此实现方案支持独立运行，适用于处理包含英文单词的文本文件，并符合技术博客文章的规范要求。