商城首页欢迎来到中国正版软件门户

您的位置:首页 >Sublime实现一键删除所有HTML标签_Sublime正则提取网页纯文本

Sublime实现一键删除所有HTML标签_Sublime正则提取网页纯文本

  发布于2026-04-29 阅读(0)

扫一扫,手机访问

最稳方法是用<[^>]*>删除HTML标签

想在Sublime Text里快速提取网页的纯文本,却没有现成的“去标签”按钮?别急,<[^>]*>这个正则表达式能帮你搞定95%的常规场景。它精准匹配单行内任何以<开头、>结尾的标签,无论是简单的

,还是带属性的,都能被一网打尽,而且完全不用担心它会跨行误删内容。

Sublime实现一键删除所有HTML标签_Sublime正则提取网页纯文本

<[^>]*> 删除 HTML 标签最稳

具体操作其实很简单,就几步:

  • 按下 Ctrl+H(Windows/Linux)或 Cmd+H(macOS)召唤出替换面板。
  • 记得勾选面板左下角的 .* 选项,这是启用正则匹配的开关。
  • 在查找框里填入我们的“秘密武器”:<[^>]*>
  • 替换框保持空白,然后大胆点击 Replace All

搞定。这时候你可能会问,为什么不用更常见的<.*?>或者<.*>呢?原因在于,Sublime Text使用的PCRE正则引擎在处理这类模式时,对换行符和标签内包含的>符号比较“脆弱”。举个例子,如果遇到

\nHello
这种换行内容,或者click me这样的短句,前者可能被截断,后者则容易漏删,远不如<[^>]*>来得稳健。

保留段落结构:先处理

再删其他标签

不过,直接一股脑删光所有标签,文本往往会糊成一团,失去可读性。我们的目标不仅是提取文字,还得让段落结构清晰可见。

这里有个小技巧:两步走策略。

  • 第一步,保护段落。 使用正则

    .*?

    进行查找(这次需要同时勾选.*. matches newline,以确保匹配跨行段落),然后替换为\n$0\n。这相当于给每个

    段落前后都加上了换行符,先把它们的“地盘”圈出来。

  • 第二步,清理战场。 再用我们熟悉的<[^>]*>删除所有剩余的HTML标签。
  • 最后,整理门面。 查找连续的换行和空格\n\s*\n,替换为标准的双换行\n\n,这样就能合并多余的空行,让版面看起来清爽多了。

需要特别注意一点:在Sublime Text中,\s默认是匹配换行符的。所以,千万别直接用\s+去替换单个空格,否则你辛苦保留的段落结构又会被压平。

遇到 这样的脚本标签里,看到字符串中的'
'时,也会毫不犹豫地把它当成标签删掉——这显然是错误的。

面对区域,然后按下Ctrl+Shift+P,输入并执行Selection: Invert Selection命令来反选其他区域,最后再执行标签删除操作。

  • 分步处理。 先用一个更复杂的正则<(script|style)[^>]*>[\s\S]*?精确匹配这些脚本和样式区块,并把它们临时替换成一个独特的占位符(比如###SCRIPT_PLACEHOLDER###)。接着,用<[^>]*>删除其他所有标签。最后,再把占位符恢复回原来的脚本和样式内容。
  • 必须承认,没有哪个万能的正则表达式能真正理解HTML的语法树结构,对于这些嵌套或包含特殊字符的复杂情况,分步处理是更可靠的选择。

    HTML 注释不能和标签一起删

    另一个常见的陷阱是HTML注释。这样的结构,对于<[^>]*>来说是个难题。这个模式会错误地将注释切成两段,不仅破坏了注释的完整性,还可能误删中间的文字。

    清理注释,得专门对待:

    • 使用专门匹配注释的正则:(同样,务必勾选. matches newline以确保匹配多行注释)。
    • 将其替换为空。
    • 在执行全量替换前,强烈建议先点击Find All按钮预览一下所有匹配项,确认不会误伤像 22分钟前 0
    • Composer如何审计间接依赖的安全性_Composer间接依赖安全性审计详解 正版软件
      Composer如何审计间接依赖的安全性_Composer间接依赖安全性审计详解
      composer audit默认检查composer.lock中已安装的包(含间接依赖),但不扫描未安装的潜在依赖;常见漏报原因包括lock文件缺失或过期、私有包被跳过、或漏洞未收录至PHP-SECADV数据库。 很多开发者都遇到过类似困惑:明明运行了 composer audit,报告显示一切安全
      22分钟前 0
    • VSCode配置Minified文件查看_快速美化并分析混淆后的JS代码 正版软件
      VSCode配置Minified文件查看_快速美化并分析混淆后的JS代码
      VSCode默认将.min.js视为压缩文件而禁用编辑功能,需在settings.json中配置"files.associations": {"*.min.js": "ja vascript"}并手动设置语言模式为Ja vaScript;美化混淆JS需用Prettier配合"parser": "ba
      22分钟前 0
    • VSCode怎么通过Git Graph插件界面一键把某个分支的合并到主分支 正版软件
      VSCode怎么通过Git Graph插件界面一键把某个分支的合并到主分支
      Git Graph无“Merge”按钮,因它是只读可视化工具;真正一键合并需通过VSCode源代码管理面板操作:切换至目标分支→点击“⋯”→Merge Branch→选择待合并分支;合并后需手动刷新Git Graph视图。 Git Graph里找不到“Merge”按钮?先确认分支状态 很多开发者第一
      23分钟前 0
    • VSCode配置Puppet脚本_自动化配置管理工具的语法检查方案 正版软件
      VSCode配置Puppet脚本_自动化配置管理工具的语法检查方案
      VSCode 配置 Puppet 脚本:自动化配置管理工具的语法检查方案 一个常见的误区是:安装了 VSCode 的 Puppet 扩展,就等于拥有了完整的语法检查能力。实际情况是,如果没手动配置好 puppet-lint 的路径并启用相关开关,那么语法报错、高亮和修复功能基本处于“休眠”状态。换句
      23分钟前 0

    热门关注