java 爬虫_java技术之Java爬虫

　　发布于2026-05-02　阅读（0）

扫一扫，手机访问

Ja va也能做爬虫

一提到网络爬虫，很多人脑海里第一个蹦出来的可能就是Python。这很正常，毕竟Python在数据抓取和脚本编写方面确实名声在外。但你知道吗？用Ja va来编写爬虫，同样是一个高效且可靠的选择，尤其对于已经熟悉Ja va生态的开发者来说，更是得心应手。

下面，我们就通过一个实实在在的案例，来看看如何用最基础的Ja va语言，爬取一本完整的网络小说。整个过程清晰明了，堪称是Ja va核心能力的一次综合演练。

实现功能

本次实战的目标很明确：完整爬取目标网站上的整本小说，并将其保存到本地。

代码编写环境

为了确保代码的可复现性，这里明确一下开发环境：

JDK：1.8.0_191
Eclipse：2019-03 (4.11.0)

素材

目标网站：http://www.shicimingju.com
目标小说：《三国演义》

案例实现用到的技术

这个案例麻雀虽小，五脏俱全，几乎用到了Ja va SE阶段的多项核心技能：

正则表达式：用于精准匹配和提取网页中的标题与正文。
Ja va网络通信：核心是URL类，负责发起HTTP请求。
IO流：包括网络流和文件流，负责数据的读取与写入。
集合框架—HashMap：虽在本例中未直接展示复杂应用，但此类数据处理场景常会用到。
字符串操作：对抓取到的原始文本进行清洗和处理。
异常处理：保证网络请求和文件操作等不稳定环节的代码健壮性。

代码思路

思路决定出路。在动手写代码之前，理清步骤至关重要：

首先，根据小说计划存放的本地路径，创建好File对象。
接着，仔细分析目标网页的HTML结构，编写出能够匹配章节标题和正文的正则表达式，并创建对应的Pattern对象。
然后，编写循环结构。因为小说章节页面通常是规律递增的（如1.html, 2.html...），所以可以循环创建指向每个章节页面的URL对象。
使用BufferReader包装网络流，以便高效读取服务器返回的HTML内容。
同时，创建指向本地文件的输出流，准备写入数据。
在循环中，读取网络请求返回的每一行内容，并用预先编译好的正则表达式进行匹配，提取出我们需要的标题和正文。
将提取到的内容，立即写入本地文件。如此循环，直到所有章节处理完毕。
最后，别忘了在整个过程中妥善处理可能出现的IOException等异常，这是编写健壮爬虫的基本素养。

运行效果

当程序跑起来，你会在控制台看到类似这样的输出，意味着数据正在被一章章地“搬”到你的电脑里：

第117章开始下载。。。。。。。。。。。。。。。。。

邓士载偷度阴平诸葛瞻战死绵竹_《三国演义》诗词名句网

第117章结束下载。。。。。。。。。。。。。。。。。

第118章开始下载。。。。。。。。。。。。。。。。。

哭祖庙一王死孝入西川二士争功《三国演义》诗词名句网

第118章结束下载。。。。。。。。。。。。。。。。。

第119章开始下载。。。。。。。。。。。。。。。。。

假投降巧计成虚话再受禅依样画葫芦《三国演义》诗词名句网

第119章结束下载。。。。。。。。。。。。。。。。。

第120章开始下载。。。。。。。。。。。。。。。。。

荐杜预老将献新谋降孙皓三分归一统《三国演义》_诗词名句网

第120章结束下载。。。。。。。。。。。。。。。。。

案例代码

以下是完整的实现代码，每一处关键步骤都附有注释，方便理解和学习：

package com.qianfeng.text;

import ja va.io.BufferedReader;
import ja va.io.BufferedWriter;
import ja va.io.File;
import ja va.io.FileOutputStream;
import ja va.io.InputStreamReader;
import ja va.io.OutputStreamWriter;
import ja va.net.URL;
import ja va.util.regex.Matcher;
import ja va.util.regex.Pattern;

public class GetText {
    /**
     * 1、根据小说存放位置创建file对象
     * 2、根据网页结构编写正则，创建pattern对象
     * 3、编写循环，创建向所有小说章节页面发起网络请求的url对象
     * 4、网络流BufferReader
     * 5、创建输入流
     * 6、循环读取请求得到的内容，使用正则匹配其中的内容
     * 7、将读取到的内容写入本地文件，知道循环结束
     * 8、注意代码中的异常处理
     * @param args
     */
    public static void main(String[] args) {
        // 1、根据小说存放位置创建file对象
        File file = new File("D:\\File\\three_guo.txt");
        // 2、根据网页结构编写正则，创建pattern对象
        String regex_content = "(.*?)";
        String regex_title = "(.*?)";
        Pattern p_content = Pattern.compile(regex_content);
        Pattern p_title = Pattern.compile(regex_title);
        Matcher m_content;
        Matcher m_title;

        // 3、编写循环，创建向所有小说章节页面发起网络请求的url对象
        for (int i = 1; i <= 120; i++) {
            System.out.println("第" + i + "章开始下载。。。");
            try {
                // 创建每一个页面的url对象
                URL url = new URL("http://www.shicimingju.com/book/sanguoyanyi/" + i + ".html");
                // 创建网络读取流
                BufferedReader reader = new BufferedReader(new InputStreamReader(url.openStream(),"utf8"));
                // 4、读取网络内容网络流BufferReader
                String str = null;
                // 5、创建输入流
                BufferedWriter writer = new BufferedWriter(new OutputStreamWriter(new FileOutputStream(file,true)));
                while ((str = reader.readLine()) != null) {
                    m_title = p_title.matcher(str.toString());
                    m_content = p_content.matcher(str.toString());
                    // 获取小说标题并写入本地文件
                    Boolean isEx = m_title.find();
                    if (isEx) {
                        String title = m_title.group();
                        // 清洗得到的数据
                        title = title.replace("", "").replace("", "");
                        writer.write("\\n" + title + "\\n");
                    }
                    // 获取小说正文并写入本地文件
                    while (m_content.find()) {
                        String content = m_content.group();
                        // 清洗得到的数据
                        content = content.replace("", "").replace("", "");
                        writer.write(content + "\\n");
                    }
                }
                writer.write("\\n");
                System.out.println("第" + i + "章结束下载。。。");
                // 关闭资源
                writer.close();
                reader.close();
            } catch (Exception e) {
                System.out.println("下载第" + i + "章失败！！！");
                e.printStackTrace();
            }
        }
        System.out.println("小说下载完成！！！");
    }
}

本文转载于：https://blog.csdn.net/weixin_39910963/article/details/110721330 如有侵犯，请联系zhengruancom@outlook.com删除。
免责声明：正软商城发布此文仅为传递信息，不代表正软商城认同其观点或证实其描述。

上一篇：java17都快出了，为什么现在大多还在用java8

下一篇：java 包使用,java中包的使用

产品推荐

售后无忧
立即购买>

DAEMON Tools Lite 10【序列号终身授权 + 中文版 + Win】

￥150.00
office旗舰店
售后无忧
立即购买>

DAEMON Tools Ultra 5【序列号终身授权 + 中文版 + Win】

￥198.00
office旗舰店
售后无忧
立即购买>

DAEMON Tools Pro 8【序列号终身授权 + 中文版 + Win】

￥189.00
office旗舰店
售后无忧
立即购买>

CorelDRAW X8 简体中文【标准版 + Win】

￥1788.00
office旗舰店

正版软件

PHP在Linux上的数据库连接如何配置

在Linux上配置PHP连接数据库想在Linux环境下让PHP和数据库顺利“握手”吗？这事儿其实没想象中那么复杂。只要按部就班走完下面几个关键步骤，你就能搭建起一个稳定可靠的连接环境。整个过程，无非是安装软件、配置服务、创建权限，最后写几行代码测试一下。咱们这就开始。 1. 安装必要的软件万事开

1分钟前 0
正版软件

Linux环境下如何优化PHP内存使用

Linux环境下优化PHP内存使用的实用指南在Linux服务器上运行PHP应用，内存管理是个绕不开的话题。内存用少了，性能上不去；用多了，轻则拖慢系统，重则直接触发OOM（内存溢出）导致服务崩溃。今天，我们就来系统地梳理一下，从配置到代码，再到监控与系统层面，如何高效、精准地优化PHP的内存使用。

1分钟前 0
正版软件

PHP在Linux上的最佳实践有哪些

在Linux上使用PHP的最佳实践想在Linux环境下把PHP项目跑得既稳又快，同时还能把安全风险降到最低？其实这事儿有章可循。下面这十几条经过实战检验的实践，就是帮你搭建一个健壮、高效且安全环境的路线图。 1. 使用最新稳定版本的PHP 这事儿没什么好犹豫的：请始终使用官方发布的最新稳定版本。为

1分钟前 0
正版软件

Linux下PHP错误如何快速定位

在Linux环境下快速定位PHP错误的实用指南遇到PHP报错却无从下手？别担心，这并非个例。在Linux服务器上排查PHP问题，其实有一套清晰高效的路径可循。掌握下面这几个步骤，你就能像经验丰富的运维工程师一样，迅速锁定问题根源。第一步：让错误信息“现身” 首先，得确保错误信息能被看见。检查你的

2分钟前 0
正版软件

Linux系统如何解决PHP兼容性问题

Linux系统下解决PHP兼容性问题的系统化方案面对PHP版本升级或环境迁移，头疼的兼容性问题总是不期而至。别担心，这套系统化的排查与解决思路，能帮你把混乱捋顺，让应用平稳过渡。一、定位与评估：谋定而后动动手之前，先搞清楚状况。盲目操作只会让问题更复杂。明确目标版本与范围：首先，看看你的项目

3分钟前 0