Sublime快速提取文档所有URL链接_Sublime正则匹配提取教程

　　发布于2026-04-30　阅读（0）

扫一扫，手机访问

正则提取HTML中href、src等属性值可行，但需用href=(["'])(1*)\1等精确模式匹配引号内内容，并预处理折叠script/style、删除注释，再过滤非法协议与相对路径，最后锚定行边界导出整行URL。

直接用正则表达式去HTML里“捞”链接，这事儿本身不难。但如果你没把规则定死，它可不会跟你客气——注释里的假链接、Ja vaScript字符串里的干扰项，甚至跨标签的文本，都可能被它一股脑儿抓出来。问题往往不出在正则本身，而在于你有没有明确告诉它：“就在引号里找，别乱跑”。

匹配 href 和 src 链接时，为什么总多出引号或截断？

很多人一开始都会遇到这样的尴尬：提取出来的链接末尾粘着半个引号，像 https://example.com"；或者把 ja vascript:void(0) 这种无效调用也当宝贝捡了回来；更常见的是，协议相对链接 //cdn.example.com 因为没匹配到前面的 http: 而被漏掉。

追根溯源，问题通常出在模式写得太“大方”。比如直接用 href="(.*)" 或 href='(.*)'：

.* 是贪婪匹配，一旦遇到换行或者后面再出现的引号，它就可能一口气吞过头。
只写一种引号，遇到单引号包裹的属性值就直接无视了。
最关键的是，没有事先排除HTML注释和