背景介绍
随着Web内容的海量增长,抓取信息成为日常任务。本项目旨在设计一个简单网页爬虫,利用Python的网络请求和文件读写功能,实现从用户输入的网页链接中抓取并保存特定信息。
思路分析
- 技术点整合:
- 使用
requests库发送HTTP请求获取网页内容 - 通过文件读写模块读取响应内容
- 显示抓取结果并保存至本地
- 使用
- 核心流程:
- 输入链接 → 发送GET请求 → 解析HTML内容 → 保存结果文件
代码实现
import requests
def crawl_page(url):
try:
# 发送HTTP请求获取网页内容
response = requests.get(url)
response.raise_for_status() # 检查响应状态码,避免404错误
# 读取响应内容并保存到本地文件
with open("output.txt", "w", encoding="utf-8") as file:
file.write(f"抓取结果:{url}\n")
# 示例:展示特定信息,如标题
if "title" in response.text:
file.write(f"网页内容包含标题:{response.text.split('title')[1]}")
else:
file.write("未找到标题信息。")
print("页面内容已保存至output.txt中。")
except requests.exceptions.RequestException as e:
print(f"请求失败: {e}")
except Exception as e:
print(f"执行中出现异常: {e}")
输出示例
输入:
用户输入:`https://example.com/program`
输出示例:
– 文件内容:
抓取结果:https://example.com/program
网页内容包含标题:标题:示例网页内容
总结
本项目通过整合网络请求和文件读写功能,实现了从输入链接中抓取和保存特定信息的功能。代码运行简单,可直接部署或测试,适用于数据可视化和信息抓取场景。