C#实现简单爬虫教程

　　发布于2026-01-01　阅读（0）

扫一扫，手机访问

<p>使用 HttpClient 发起 GET 请求获取网页内容是 C# 最轻量现代做法，需复用实例、设超时、检查状态码、用 ReadAsStringAsync 读取 HTML；再用 HtmlAgilityPack 解析，注意 XPath 属性加 @、优先 InnerHtml + HtmlDecode；基础反反爬需设 User-Agent 和延时。</p>

c# 如何实现一个简单的爬虫

用 `HttpClient` 发起 GET 请求获取网页内容

直接用 HttpClient 是 C# 最轻量、最现代的做法，比已过时的 WebClient 更可靠，也比 HttpWebRequest 更简洁。注意必须复用同一个 HttpClient 实例，否则容易触发端口耗尽（SocketException: Too many open files）。

在类级别声明并复用：private static readonly HttpClient client = new HttpClient();
设置超时避免卡死：client.Timeout = TimeSpan.FromSeconds(10);
记得处理响应状态码：if (!response.IsSuccessStatusCode)，不要只靠异常判断
用 await response.Content.ReadAsStringAsync() 读取 HTML 字符串，不是 ReadAsByteArrayAsync（除非你要解析二进制）

用 `HtmlAgilityPack` 解析 HTML 提取链接和文本

HtmlAgilityPack 是 .NET 生态里最稳定、兼容性最好的 HTML 解析库，能容忍 malformed HTML（比如缺少闭合标签），比正则匹配靠谱得多。它不依赖浏览器引擎，纯内存解析，速度快。

安装包：dotnet add package HtmlAgilityPack
加载 HTML：var doc = new HtmlDocument(); doc.LoadHtml(htmlString);
查所有链接：doc.DocumentNode.SelectNodes("//a[@href]")，注意 XPath 中属性要带 @
提取文本内容别用 InnerText（含换行/空白多），优先用 InnerHtml + WebUtility.HtmlDecode() 清理

如何避免被目标网站封禁（基础反反爬）

多数小站点没严格风控，但加几条基础头就能绕过最简单的 UA 拦截。别学某些教程发一堆无意义请求头，反而显得可疑。

必设 User-Agent：用主流浏览器值，比如 Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36
可选加 Accept 和 Accept-Language，但不是必须；Referer 只在需要模拟页面跳转时才设
加延时是关键：await Task.Delay(1000)（1 秒），别用 Thread.Sleep 阻塞线程
不要并发猛刷——单线程 + 延迟，比十个并发还安全

using System;
using System.Net.Http;
using System.Threading.Tasks;
using HtmlAgilityPack;
class SimpleCrawler
{
private static readonly HttpClient client = new HttpClient
{
Timeout = TimeSpan.FromSeconds(10)
};
static SimpleCrawler()
{
    client.DefaultRequestHeaders.UserAgent.ParseAdd(
        "Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36");
}

public static async Task CrawlAsync(string url)
{
    try
    {
        var html = await client.GetStringAsync(url);
        var doc = new HtmlDocument();
        doc.LoadHtml(html);

        foreach (var link in doc.DocumentNode.SelectNodes("//a[@href]"))
        {
            var href = link.GetAttributeValue("href", "");
            if (Uri.IsWellFormedUriString(href, UriKind.Absolute))
                Console.WriteLine(href);
        }
    }
    catch (HttpRequestException ex)
    {
        Console.WriteLine($"Request failed: {ex.StatusCode}");
    }
}
}

真正难的不是发请求或提链接，而是判断哪些 URL 值得跟进、怎么去重、怎么处理跳转和相对路径、何时停——这些逻辑一加上，就不再是“简单”爬虫了。

本文转载于：互联网如有侵犯，请联系zhengruancom@outlook.com删除。
免责声明：正软商城发布此文仅为传递信息，不代表正软商城认同其观点或证实其描述。

上一篇：生存33天怎么氪金-氪金攻略

下一篇：漫画版36计怎么读？体验分享

产品推荐

售后无忧
立即购买>

DAEMON Tools Lite 10【序列号终身授权 + 中文版 + Win】

￥150.00
office旗舰店
售后无忧
立即购买>

DAEMON Tools Ultra 5【序列号终身授权 + 中文版 + Win】

￥198.00
office旗舰店
售后无忧
立即购买>

DAEMON Tools Pro 8【序列号终身授权 + 中文版 + Win】

￥189.00
office旗舰店
售后无忧
立即购买>

CorelDRAW X8 简体中文【标准版 + Win】

￥1788.00
office旗舰店

正版软件

豆瓣怎么设置主页不可见?豆瓣设置隐私主页教程

豆瓣怎么设置主页不可见？大家在使用豆瓣的时候，经常会在主页发布自己的心情状态、吐槽等等内容，然后其他用户进我们的主页的时候就能很轻松的看到我们发过的内容，那么我们能不能设置主页的隐私呢？要怎么设置呢？下面小编就为大家介绍一下豆瓣个人主页设置隐私的办法。

1小时前 10:50 0
正版软件

夸克浏览器怎么设置电脑模式?夸克浏览器设置成电脑模式教程

夸克浏览器怎么设置电脑模式？嘿，兄弟们，你是否曾经需要在手机上看网页，但又要让页面显示效果如同在电脑上的体验？如果是，那么恭喜您，夸克浏览器就是您的不二之选！它不仅拥有简洁明了的界面设计，而且夸克浏览器手机版也可以轻松设置成电脑版，让你在手机端也能够享受到如同在电脑上的浏览体验。

昨天 03-21 12:02 0
正版软件

夸克浏览器怎么开启成人模式?夸克浏览器设置成人模式的方法

如今电子产品不仅成年人在使用，未成年也是深深着迷，而各大产品为了更好的把控未成年人的电子产品使用时间，因此很多应用都提供了未成年模式，像夸克浏览器也一样，那么夸克浏览器怎么开启成人模式呢？夸克浏览器设置成人模式的方法1、打开您的夸克浏览器应用，点击屏幕右下角的三横线菜单图标。

昨天 03-21 11:51 0
正版软件

东方甄选如何进行企业团购?东方甄选企业团购教程

东方甄选如何进行企业团购？每次节日到来前，各位企业的小伙伴是不是还在发愁为购买公司的礼品而发愁？不妨来看看东方甄选专享的企业团购吧！东方甄选能够给企业礼物提供定制化解决方案、企业优惠、专属服务，满足多元化的需求，让企业采购简单快捷、更省心，也能让员工更放心更满意。

昨天 03-21 11:39 0
正版软件

饿了么怎么让别人代付?饿了么让别人代付的步骤教程

饿了么怎么让别人代付？现在夏天越来越热，相信在暑假时期外卖就是大家的救命稻草，饿了么这个软件大家应该也是十分熟悉，但是很多小伙伴跟小编反馈说不知道饿了么怎么让别人代付订单，那接下来小编就来给大家解决问题，带来饿了么让别人代付的步骤，一起来往下看看吧！

昨天 03-20 13:52 0