您的位置:首页 >Scrapy 数据库连接统一初始化与共享方法
发布于2026-04-21 阅读(0)
扫一扫,手机访问

在 Scrapy 项目中,应将数据库连接统一初始化在 Spider 实例中(如 __init__ 或 from_crawler 方法),再通过 spider 参数透传至 Pipeline、StatsCollector 等组件,实现单例复用、线程安全且符合 Scrapy 生命周期管理。
在 Scrapy 项目中,应将数据库连接统一初始化在 Spider 实例中(如 `__init__` 或 `from_crawler` 方法),再通过 `spider` 参数透传至 Pipeline、StatsCollector 等组件,实现单例复用、线程安全且符合 Scrapy 生命周期管理。
Scrapy 的设计哲学强调组件解耦与依赖显式传递,而非全局状态或模块级单例。因此,不推荐在 pipelines.py、settings.py 或独立模块中直接初始化数据库连接(如 psycopg2.connect()),原因有三:
✅ 推荐方案:在 Spider 中初始化,并通过 spider 实例共享
Scrapy 在调用 Pipeline 的 process_item(item, spider) 和 StatsCollector 的 open_spider(spider) 等方法时,均会传入当前 spider 对象。因此,只需在 spider 初始化阶段建立连接并挂载为实例属性,即可被所有关联组件安全访问:
# my_project/spiders/spider1.py
import psycopg2
from scrapy import Spider
class Spider1(Spider):
name = "spider1"
def __init__(self, *args, **kwargs):
super().__init__(*args, **kwargs)
# ✅ 在 spider 实例中初始化连接(每个 spider 独享)
self.db_conn = psycopg2.connect(
host=self.settings.get('DB_HOST', 'localhost'),
database=self.settings.get('DB_NAME'),
user=self.settings.get('DB_USER'),
password=self.settings.get('DB_PASSWORD')
)
self.db_cursor = self.db_conn.cursor()
def parse(self, response):
# 示例:在 spider 中查询数据库
self.db_cursor.execute("SELECT id FROM sources WHERE active = true")
for row in self.db_cursor.fetchall():
yield {"source_id": row[0]}
def closed(self, reason):
# ✅ 确保连接在 spider 关闭时释放
if hasattr(self, 'db_cursor') and self.db_cursor:
self.db_cursor.close()
if hasattr(self, 'db_conn') and self.db_conn:
self.db_conn.close()Pipeline 和 StatsCollector 可直接使用该连接:
# my_project/pipelines.py
class SaveToPostgresPipeline:
def process_item(self, item, spider):
# ✅ 安全访问 spider 实例上的 db_conn
if hasattr(spider, 'db_conn') and spider.db_conn:
with spider.db_conn.cursor() as cur:
cur.execute(
"INSERT INTO items (title, url) VALUES (%s, %s)",
(item.get('title'), item.get('url'))
)
spider.db_conn.commit()
return item# my_project/MyStatsCollector.py
from scrapy import signals
class MyStatsCollector:
def __init__(self):
self.stats = {}
@classmethod
def from_crawler(cls, crawler):
ext = cls()
crawler.signals.connect(ext.spider_opened, signal=signals.spider_opened)
crawler.signals.connect(ext.spider_closed, signal=signals.spider_closed)
return ext
def spider_opened(self, spider):
# ✅ 同样可访问 spider.db_conn(若已初始化)
if hasattr(spider, 'db_conn'):
spider.logger.info(f"Connected to DB: {spider.db_conn.info.host}")
def spider_closed(self, spider, reason):
pass? 关键注意事项:
该方案完全遵循 Scrapy 的组件协作范式,既保障资源可控性,又实现“一处初始化、多处透明复用”,是生产环境中最健壮、可维护性最强的实践方式。
售后无忧
立即购买>office旗舰店
售后无忧
立即购买>office旗舰店
售后无忧
立即购买>office旗舰店
售后无忧
立即购买>office旗舰店
正版软件
正版软件
正版软件
正版软件
正版软件
1
2
3
7
9