# 文本处理项目:统计单词数量与去除重复词


背景介绍

本项目要求使用Python实现简单文本处理功能,核心能力包括文件读写和数据处理。我们需要实现以下功能:
1. 读取输入文本并处理
2. 统计单词数量
3. 去除重复词
4. 输出结果

思路分析

  1. 文件读取
    使用input()函数直接读取输入文件,避免依赖外部服务。

    words = input().split()
    
  2. 单词处理
    • 统计单词数量:使用collections.Counter或手动遍历,确保无重复。
    • 去除重复词:使用集合set()避免重复,直接统计长度。
  3. 输出结果
    将统计结果以列表形式输出,确保输出清晰且符合示例。

代码实现

from collections import Counter

def process_text(input_text):
    words = input_text.split()
    unique_words = set(words)
    counted_words = len(unique_words)
    print(f"统计后结果包含单词数量:{counted_words}")

# 示例输入
input_text = "Hello world! This is a sample text."
process_text(input_text)

总结

本项目通过Python实现文本处理功能,核心能力涵盖文件读写和数据结构操作。代码实现简洁高效,适用于本地运行场景。无论输入为纯文本还是混合大小写,均能正确统计单词数量并去除重复词。该项目的学习价值在于理解文件操作和数据处理的基本逻辑,且难度适中,可在1~3天内完成。