商城首页欢迎来到中国正版软件门户

您的位置:首页 >java 爬虫_java技术之Java爬虫

java 爬虫_java技术之Java爬虫

  发布于2026-05-02 阅读(0)

扫一扫,手机访问

Ja va也能做爬虫

d06a608376dc9a10565bb611ceb9e2d3.png

一提到网络爬虫,很多人脑海里第一个蹦出来的可能就是Python。这很正常,毕竟Python在数据抓取和脚本编写方面确实名声在外。但你知道吗?用Ja va来编写爬虫,同样是一个高效且可靠的选择,尤其对于已经熟悉Ja va生态的开发者来说,更是得心应手。

下面,我们就通过一个实实在在的案例,来看看如何用最基础的Ja va语言,爬取一本完整的网络小说。整个过程清晰明了,堪称是Ja va核心能力的一次综合演练。

实现功能

本次实战的目标很明确:完整爬取目标网站上的整本小说,并将其保存到本地。

代码编写环境

为了确保代码的可复现性,这里明确一下开发环境:

  • JDK:1.8.0_191
  • Eclipse:2019-03 (4.11.0)

素材

  • 目标网站:http://www.shicimingju.com
  • 目标小说:《三国演义》

案例实现用到的技术

这个案例麻雀虽小,五脏俱全,几乎用到了Ja va SE阶段的多项核心技能:

  • 正则表达式:用于精准匹配和提取网页中的标题与正文。
  • Ja va网络通信:核心是URL类,负责发起HTTP请求。
  • IO流:包括网络流和文件流,负责数据的读取与写入。
  • 集合框架—HashMap:虽在本例中未直接展示复杂应用,但此类数据处理场景常会用到。
  • 字符串操作:对抓取到的原始文本进行清洗和处理。
  • 异常处理:保证网络请求和文件操作等不稳定环节的代码健壮性。

代码思路

思路决定出路。在动手写代码之前,理清步骤至关重要:

  1. 首先,根据小说计划存放的本地路径,创建好File对象。
  2. 接着,仔细分析目标网页的HTML结构,编写出能够匹配章节标题和正文的正则表达式,并创建对应的Pattern对象。
  3. 然后,编写循环结构。因为小说章节页面通常是规律递增的(如1.html, 2.html...),所以可以循环创建指向每个章节页面的URL对象。
  4. 使用BufferReader包装网络流,以便高效读取服务器返回的HTML内容。
  5. 同时,创建指向本地文件的输出流,准备写入数据。
  6. 在循环中,读取网络请求返回的每一行内容,并用预先编译好的正则表达式进行匹配,提取出我们需要的标题和正文。
  7. 将提取到的内容,立即写入本地文件。如此循环,直到所有章节处理完毕。
  8. 最后,别忘了在整个过程中妥善处理可能出现的IOException等异常,这是编写健壮爬虫的基本素养。

运行效果

当程序跑起来,你会在控制台看到类似这样的输出,意味着数据正在被一章章地“搬”到你的电脑里:

第117章开始下载。。。。。。。。。。。。。。。。。

邓士载偷度阴平 诸葛瞻战死绵竹_《三国演义》诗词名句网

第117章结束下载。。。。。。。。。。。。。。。。。

第118章开始下载。。。。。。。。。。。。。。。。。

哭祖庙一王死孝 入西川二士争功《三国演义》诗词名句网

第118章结束下载。。。。。。。。。。。。。。。。。

第119章开始下载。。。。。。。。。。。。。。。。。

假投降巧计成虚话 再受禅依样画葫芦《三国演义》诗词名句网

第119章结束下载。。。。。。。。。。。。。。。。。

第120章开始下载。。。。。。。。。。。。。。。。。

荐杜预老将献新谋 降孙皓三分归一统《三国演义》_诗词名句网

第120章结束下载。。。。。。。。。。。。。。。。。

案例代码

以下是完整的实现代码,每一处关键步骤都附有注释,方便理解和学习:

package com.qianfeng.text;

import ja va.io.BufferedReader;
import ja va.io.BufferedWriter;
import ja va.io.File;
import ja va.io.FileOutputStream;
import ja va.io.InputStreamReader;
import ja va.io.OutputStreamWriter;
import ja va.net.URL;
import ja va.util.regex.Matcher;
import ja va.util.regex.Pattern;

public class GetText {
    /**
     * 1、根据小说存放位置创建file对象
     * 2、根据网页结构编写正则,创建pattern对象
     * 3、编写循环,创建向所有小说章节页面发起网络请求的url对象
     * 4、网络流BufferReader
     * 5、创建输入流
     * 6、循环读取请求得到的内容,使用正则匹配其中的内容
     * 7、将读取到的内容写入本地文件,知道循环结束
     * 8、注意代码中的异常处理
     * @param args
     */
    public static void main(String[] args) {
        // 1、根据小说存放位置创建file对象
        File file = new File("D:\\File\\three_guo.txt");
        // 2、根据网页结构编写正则,创建pattern对象
        String regex_content = "

(.*?)

"; String regex_title = "

(.*?)

"; Pattern p_content = Pattern.compile(regex_content); Pattern p_title = Pattern.compile(regex_title); Matcher m_content; Matcher m_title; // 3、编写循环,创建向所有小说章节页面发起网络请求的url对象 for (int i = 1; i <= 120; i++) { System.out.println("第" + i + "章开始下载。。。"); try { // 创建每一个页面的url对象 URL url = new URL("http://www.shicimingju.com/book/sanguoyanyi/" + i + ".html"); // 创建网络读取流 BufferedReader reader = new BufferedReader(new InputStreamReader(url.openStream(),"utf8")); // 4、读取网络内容网络流BufferReader String str = null; // 5、创建输入流 BufferedWriter writer = new BufferedWriter(new OutputStreamWriter(new FileOutputStream(file,true))); while ((str = reader.readLine()) != null) { m_title = p_title.matcher(str.toString()); m_content = p_content.matcher(str.toString()); // 获取小说标题并写入本地文件 Boolean isEx = m_title.find(); if (isEx) { String title = m_title.group(); // 清洗得到的数据 title = title.replace("

", "").replace("

", ""); writer.write("\\n" + title + "\\n"); } // 获取小说正文并写入本地文件 while (m_content.find()) { String content = m_content.group(); // 清洗得到的数据 content = content.replace("

", "").replace("

", ""); writer.write(content + "\\n"); } } writer.write("\\n"); System.out.println("第" + i + "章结束下载。。。"); // 关闭资源 writer.close(); reader.close(); } catch (Exception e) { System.out.println("下载第" + i + "章失败!!!"); e.printStackTrace(); } } System.out.println("小说下载完成!!!"); } }
本文转载于:https://blog.csdn.net/weixin_39910963/article/details/110721330 如有侵犯,请联系zhengruancom@outlook.com删除。
免责声明:正软商城发布此文仅为传递信息,不代表正软商城认同其观点或证实其描述。

热门关注