背景介绍
本项目旨在实现一个小型功能:读取指定CSV文件中的用户信息(包含姓名与年龄字段),计算并输出其中的平均年龄和最大年龄,最终保存结果到另一个新CSV文件。该功能可广泛应用于数据处理场景,具有较高的实用性。
思路分析
- 数据读取
- 使用
pandas库读取CSV数据,支持多行读取 - 通过
split('\n')读取所有行,确保包含所有输入行 - 注意行分隔符的处理,避免因格式问题导致的读取失败
- 使用
- 数据处理
- 计算年龄的平均值和最大值
- 使用
mean()和max()方法快速获取统计信息 - 保持数据类型正确性(保留两位小数)
- 结果保存
- 使用
with open语句确保文件写入操作正确关闭 - 周期性地输出统计结果,确保信息完整
- 使用
代码实现
# 项目启动配置
input_file = "input.csv"
output_file = "output.csv"
# 导入必要库
import pandas as pd
# 读取CSV数据
with open(input_file, 'r') as f:
# 读取所有行并去除换行符
data = f.read().split('\n')
# 将数据转换为DataFrame
pd_data = pd.read_csv(data)
# 计算统计信息
average_age = pd_data['age'].mean()
max_age = pd_data['age'].max()
# 保存结果
with open(output_file, 'w') as f:
f.write(f"平均年龄:{average_age:.2f}\n最大年龄:{max_age:.2f}")
总结
本项目展示了使用Python进行数据处理的完整流程。通过引入pandas库,实现了高效的CSV数据读取和统计计算功能。代码结构清晰,具备良好的可读性和可维护性,便于后续扩展功能。该项目验证了Pandas在数据处理中的强大特性,为实际应用提供了可靠方案。