Python网络爬虫框架scrapy的结构是什么

　　发布于2023-05-11　阅读（0）

扫一扫，手机访问

scrapy爬虫框架介绍

scrapy不是一个简单的函数功能库，而是一个爬虫框架

爬虫框架：

爬虫框架是实现爬虫功能的一个软件结构和功能组件的集合。
爬虫框架是一个半成品，能够帮助用户实现专业网络爬虫。

scrapy爬虫框架结构

“5+2”结构：

ENGINE ：已有的，核心，控制所有模块之间的数据流，根据条件触发事件
SCHEDULER：已有的，对所有的爬虫请求进行调度管理
ITEM PIPELINES ：框架出口，用户编写，以流水线方式处理Spider产生的爬取项，由一组操作顺序组成，类似流水线，每个操作是一个item pipline类型，可能操作包括：清理，检验和查重爬取项中的HTML数据，将数据存储到数据库
SPIDERS ：框架入口，用户编写，解析downloader返回的响应，产生爬取项，以及额外的爬取请求
DOWNLOADER ：已有的，根据请求下载网页
2个MIDDLEWARE：Download Middleware：实施Engine，Scheduler和Downloader之间用户可配置的控制，即用户可以修改、丢弃、新增请求或响应。Spider Middleware，对spider的请求和爬取项的再处理。修改、丢弃、新增请求或爬取项。

requests库和scrapy库比较

相同点：两者都可以进行页面请求和爬取，Python爬虫的两个重要技术路线。两者可用性好，文档丰富，入门简单。两者都没有处理js、提交表单、应对验证码等功能（可扩展）

不同点：

requests	scrapy
页面级爬虫	网站级爬虫
功能库	框架
并发性考虑不足，性能较差	并发性好，性能较高
重点在于页面下载	重点在于爬虫结构
定制灵活	一般定制灵活，深度定制困难
上手十分简单	入门稍难

scrapy的常用命令

requests	scrapy
页面级爬虫	网站级爬虫
功能库	框架
并发性考虑不足，性能较差	并发性好，性能较高
重点在于页面下载	重点在于爬虫结构
定制灵活	一般定制灵活，深度定制困难
上手十分简单	入门稍难

本文转载于：https://www.yisu.com/zixun/801132.html 如有侵犯，请联系zhengruancom@outlook.com删除。
免责声明：正软商城发布此文仅为传递信息，不代表正软商城认同其观点或证实其描述。

上一篇：怎么用springboot vue接口测试前端模块树和接口列表

下一篇：SpringBoot应用的启动入口怎么封装

产品推荐

售后无忧
立即购买>

DAEMON Tools Lite 10【序列号终身授权 + 中文版 + Win】

￥150.00
office旗舰店
售后无忧
立即购买>

DAEMON Tools Ultra 5【序列号终身授权 + 中文版 + Win】

￥198.00
office旗舰店
售后无忧
立即购买>

DAEMON Tools Pro 8【序列号终身授权 + 中文版 + Win】

￥189.00
office旗舰店
售后无忧
立即购买>

CorelDRAW X8 简体中文【标准版 + Win】

￥1788.00
office旗舰店

正版软件

PHP 8.1+ 枚举：获取所有成员名称与值方法

本教程深入探讨PHP8.1及更高版本中枚举类型（Enum）的成员获取方法。我们将详细介绍如何利用cases()方法结合array_column函数，高效地提取枚举的所有成员名称和值，并提供一个可复用的EnumToArrayTrait，以封装这些常用操作，从而提升代码的简洁性和可维护性。

2小时前 23:45 0
正版软件

C++三零法则是什么？资源管理必看

三/五/零之法则是C++资源管理核心原则：三法则要求自定义析构、拷贝构造、拷贝赋值三者之一时需显式定义其余两个；五法则在C++11中增加移动构造和移动赋值；零法则倡导用RAII智能指针等替代裸资源，使所有特殊成员函数均可默认。

2小时前 23:30 0
正版软件

VSCode Python 配置管理与查找教程

本文旨在解决VSCode用户在配置Python开发环境时遇到的“UnknownConfigurationSetting”问题，并提供两种核心策略来准确查找和管理VSCode及其Python相关扩展的最新配置项。我们将详细介绍如何通过VSCode扩展市场文档和内置设置UI来发现正确的settings.json键值，确保您的开发环境配置准确无误，避免因配置项变更而导致的困扰。

2小时前 23:15 0
正版软件

Go 项目元数据管理：doc.go 与常量使用指南

Go语言虽无类似Node.js的package.json，但可通过doc.go文件存放文档级元数据，并结合导出常量在代码中定义版本、作者、发布日期等结构化信息，兼顾可读性、可维护性与运行时可用性。

2小时前 23:00 0
正版软件

Laravel路由组与中间件深度解析

本文深入探讨Laravel中路由组、中间件的工作原理及路由匹配机制，重点解析在存在相同URI但需根据用户状态（如订阅情况）提供不同行为时的处理策略。文章将阐明Laravel路由的查找顺序、中间件的执行逻辑，并提供通过模型方法结合条件判断实现灵活路由行为的最佳实践，避免因路由覆盖导致的问题。

3小时前 22:45 0