# 网页爬虫实现：通过输入URL抓取网页内容

背景介绍

网页爬虫是一种常见的网络爬虫技术，用于从互联网上获取网页内容。本项目实现了一个支持输入URL并输出抓取网页内容的爬虫程序，利用Python的requests库进行网络请求，并通过文件读写处理抓取结果。程序可本地运行，无需依赖外部服务，适合中级开发水平。

思路分析

本项目实现的关键点包括：

请求URL：通过输入参数获取目标URL
网络请求：使用requests.get()方法发送HTTP请求
文件读写：将抓取的HTML内容保存到文件或直接输出

代码实现中，requests库被用于网络请求，而文件读写部分则用于输出结果。程序可运行于本地环境，无需依赖额外框架。

代码实现

import requests

def fetch_web_page(url):
    try:
        response = requests.get(url, headers={'User-Agent': 'Mozilla/5.0'})
        response.raise_for_status()
        with open('output.html', 'w') as f:
            f.write(response.text)
        print("抓取完成，输出内容保存到output.html")
    except requests.exceptions.RequestException as e:
        print(f"请求失败: {str(e)}")

# 示例输入
url = input("请输入要爬取的URL: ")
fetch_web_page(url)

总结

本项目实现了网页爬虫的基本功能，能够通过输入URL获取网页内容。代码中使用了requests.get()进行网络请求，并通过文件读写保存抓取结果，确保了程序的可运行性。项目难度适中，可在1~3天内完成实现，符合中级开发水平需求。