# 去除重复行内容的脚本实现

背景介绍

在处理文本文件时，常见的问题之一是如何去除重复的行内容。通过集合、排序等数据结构，可以高效地识别和处理重复行。该脚本的核心思想是：遍历文件行，记录出现过的行，删除重复行，保留未出现的行。

思路分析

数据结构选择：使用集合set来维护已出现的行，可以快速判断当前行是否重复。
输入输出处理：读取文件内容，逐行处理，保留未出现的行。
文件操作：确保文件读写操作的安全性，使用文件流进行读写。

代码实现

def remove_repeated_lines(input_file_path, output_file_path):
    # 读取并处理文件内容
    with open(input_file_path, 'r') as f:
        lines = f.read().split('\n')
    seen = set()
    result = []
    for line in lines:
        line = line.strip()
        if line not in seen:
            seen.add(line)
            result.append(line)
    # 输出结果
    with open(output_file_path, 'w') as f:
        for line in result:
            f.write(line + '\n')

示例代码解释

输入文件读取：使用f.read().split('\n')读取所有行，避免文件末尾的换行符影响结果。
集合存储：使用set直接存储已出现的行，确保操作的高效性。
结果输出：将处理后的行写入目标文件，确保输出格式正确。

总结

该脚本通过集合去重技术实现了对文本文件中重复行的高效处理，同时保留未出现的行内容。学习价值在于掌握了集合操作、文件处理等核心知识，适合用于日常文本处理任务。该方法在1~3天内可实现，具备良好的可读性和可运行性。