# 基于HTML和Python的网页爬虫实现

背景介绍

随着Web内容的海量增长，抓取信息成为日常任务。本项目旨在设计一个简单网页爬虫，利用Python的网络请求和文件读写功能，实现从用户输入的网页链接中抓取并保存特定信息。

思路分析

技术点整合：
- 使用requests库发送HTTP请求获取网页内容
- 通过文件读写模块读取响应内容
- 显示抓取结果并保存至本地
核心流程：
- 输入链接 → 发送GET请求 → 解析HTML内容 → 保存结果文件

代码实现

import requests

def crawl_page(url):
    try:
        # 发送HTTP请求获取网页内容
        response = requests.get(url)
        response.raise_for_status()  # 检查响应状态码，避免404错误

        # 读取响应内容并保存到本地文件
        with open("output.txt", "w", encoding="utf-8") as file:
            file.write(f"抓取结果：{url}\n")

            # 示例：展示特定信息，如标题  
            if "title" in response.text:
                file.write(f"网页内容包含标题：{response.text.split('title')[1]}")  
            else:
                file.write("未找到标题信息。")

        print("页面内容已保存至output.txt中。")

    except requests.exceptions.RequestException as e:
        print(f"请求失败: {e}")  
    except Exception as e:
        print(f"执行中出现异常: {e}")

输出示例

输入：
用户输入：`https://example.com/program`

输出示例：
– 文件内容：

抓取结果：https://example.com/program  
网页内容包含标题：标题：示例网页内容

总结

本项目通过整合网络请求和文件读写功能，实现了从输入链接中抓取和保存特定信息的功能。代码运行简单，可直接部署或测试，适用于数据可视化和信息抓取场景。