商城首页欢迎来到中国正版软件门户

您的位置:首页 >Sublime快速提取文档所有URL链接_Sublime正则匹配提取教程

Sublime快速提取文档所有URL链接_Sublime正则匹配提取教程

  发布于2026-04-30 阅读(0)

扫一扫,手机访问

正则提取HTML中href、src等属性值可行,但需用href=(["'])(1*)\1等精确模式匹配引号内内容,并预处理折叠script/style、删除注释,再过滤非法协议与相对路径,最后锚定行边界导出整行URL。

Sublime快速提取文档所有URL链接_Sublime正则匹配提取教程

直接用正则表达式去HTML里“捞”链接,这事儿本身不难。但如果你没把规则定死,它可不会跟你客气——注释里的假链接、Ja vaScript字符串里的干扰项,甚至跨标签的文本,都可能被它一股脑儿抓出来。问题往往不出在正则本身,而在于你有没有明确告诉它:“就在引号里找,别乱跑”。

匹配 href 和 src 链接时,为什么总多出引号或截断?

很多人一开始都会遇到这样的尴尬:提取出来的链接末尾粘着半个引号,像 https://example.com";或者把 ja vascript:void(0) 这种无效调用也当宝贝捡了回来;更常见的是,协议相对链接 //cdn.example.com 因为没匹配到前面的 http: 而被漏掉。

追根溯源,问题通常出在模式写得太“大方”。比如直接用 href="(.*)"href='(.*)'

  • .* 是贪婪匹配,一旦遇到换行或者后面再出现的引号,它就可能一口气吞过头。
  • 只写一种引号,遇到单引号包裹的属性值就直接无视了。
  • 最关键的是,没有事先排除HTML注释和