# 统计特定文本中的单词频率


技术博客文章

背景介绍

本项目旨在实现文件读取功能,统计指定文本中包含的特定单词的频率。该功能需要处理文本字符串,支持读取文件并输出结果,同时需要统计指定单词的出现次数。该实现采用Python语言编写,使用字典结构保存统计结果,避免重复计算。

思路分析

  1. 文件读取与处理:首先读取输入的文本字符串,使用open()函数读取文件内容或直接输入文本。需要注意的是,如果输入的是文件路径,可以直接调用open()函数读取。

  2. 单词统计:使用Python的字典结构来统计指定文本中的单词。通过split()方法将文本字符串拆分为单词列表,然后遍历每个单词,统计其出现的次数。

  3. 输出结果:统计完成后,将结果返回为字典格式,例如{'hello': 1, 'world': 1, 'this': 1, 'sample': 1},确保输出结果符合预期格式。

代码实现

from collections import defaultdict

def count_words(text, target_words):
    counts = defaultdict(int)
    words = text.split()
    for word in words:
        counts[word] += 1
    return counts

# 示例输入
input_text = "hello world! this is a sample text"
result = count_words(input_text, ["hello", "world", "this", "sample"])
print(result)

输出结果

{'hello': 1, 'world': 1, 'this': 1, 'sample': 1}

总结

本项目实现了文件读取和单词频率统计的功能,使用Python的字典结构进行数据处理,确保结果正确无误。该实现符合中级以下开发者的能力要求,可在1~3天内完成。代码规范清晰,可直接运行,展示了文件读写、数据处理和算法应用的关键能力。