正则表达式之字符组[ ](Character Classes)

　　发布于2026-04-21　阅读（0）

扫一扫，手机访问

字符组：正则表达式中最精妙的“多选一”结构

想在正则表达式的世界里精准匹配，字符组是你必须握紧的基本功。简单来说，字符组就好比一个“待选项列表”，用一对方括号 [ ] 括起来，表示在这个位置上，可以出现列表中的任意“一个”字符。比如 [123] 可以匹配“1”、“2”或“3”，[ab] 对应“a”或“b”，而 [#.?] 则能匹配这三个符号中的任何一个。关键在于，它只匹配“一个”字符，并且组内字符的顺序和重复次数都不影响匹配结果，所以 [0123456789] 和它打乱顺序的版本是完全等价的。

化繁为简：善用“范围表示法”

看到 [0123456789] 这样冗长的写法，是不是感觉眼睛都花了？这时候，“范围表示法”就该出场了。用连字符 - 可以把连续的字符压缩成一个简洁的区间。所以，匹配一个数字可以写成 [0-9]，效率瞬间提升。

不过，这里有个细节需要留意：- 前后的字符必须是码位递增的。也就是说，[0-9] 是对的，但 [9-0] 就是错误的写法。对于字母也同样如此，[a-z] 匹配所有小写字母，[A-Z] 匹配所有大写字母。可千万别想当然地用 [A-z] 来涵盖所有字母，因为在ASCII码表中，大写字母和小写字母之间还夹杂着其他字符。正确的写法应该是 [A-Za-z]。

字符组内的“特殊规则”与转义

在字符组内部，大多数在正则中有特殊意义的元字符（比如 $ . * + ? 等）都会“失灵”，恢复其字面含义，无需转义。这是一个好消息，能省去不少麻烦。

但凡事都有例外，你必须记住这几个需要转义的“顽固分子”：

反斜杠 \ 、左方括号 [ 和右方括号 ] 本身。
脱字符 ^ 如果出现在字符组开头（如 [^abc] 表示“非abc”），它就有了特殊意义；如果希望匹配 ^ 字符本身，就需要转义或放在非开头位置。
连字符 - 如果出现在可能形成区间的位置（如 [a-z]），它表示范围；如果只是希望匹配 - 字符本身，最好也进行转义，或者放在字符组的开头或结尾。

以 .NET 为例，在某些不产生歧义的场景下，[ 和 ] 不转义也能工作，比如 new Regex("[^]]+")。但强烈不建议这样做，因为这会大大降低代码的可读性和可维护性，一旦出错也很难排查。

高级技巧与实用提醒

有些正则引擎（如 .NET）支持更高级的字符组运算，比如集合减法，语法是 [基础集合-[要排除的集合]]。例如，[a-z-[aeiou]] 表示匹配所有非元音的小写字母。

然而，除非你非常熟悉该引擎的特定语法，否则建议谨慎使用。这种写法往往可读性较差，而且通用性不强。实现同样的需求，完全可以使用多个范围区间（如 [b-df-hj-np-tv-z]），或者在字符组外配合更通用的“零宽断言”（如 (?![aeiou])[a-z]）来实现，后者不仅支持范围更广，逻辑也清晰得多。

新手常踩的坑：

这里必须指出一个极其常见的误区：在字符组内使用竖线 | 来表示“或”关系是画蛇添足，而且是错误的！因为字符组 [ ] 本身就已经代表了“或”。

例如，[a|b|c] 实际匹配的是“a”、“b”、“c”或“|”这四个字符中的任意一个，而不是你想象中的“a或b或c”。

举个例子：

源字符串：ab|ac
错误正则：[a|b|c]+
匹配结果：整个 ab|ac 都会被匹配上，因为它把 | 也当成了一个合法字符。

排除型字符组：用[^ ]表示“除了……”

在字符组开头加上一个脱字符 ^，它就变成了“排除型字符组”，意思是匹配任何不在列表中间出现的“一个”字符。

所以，[^abc] 可以匹配除了“a”、“b”、“c”之外的任意单个字符，比如“d”、“1”或“@”。它同样支持范围表示法，[^0-9] 就能匹配任意非数字字符。

然而，这是另一个高阶“陷阱”的高发区：排除型字符组只能排除单个字符，不能排除一个字符串！

许多新手会误以为 [^abc] 或 [^(abc)] 能匹配不包含“abc”子串的文本，这是完全错误的逻辑。

来看一个经典示例：

需求：从字符串 bbbccc 中，提取所有被 <> 包裹，但内容不是“abc”的部分。
预期结果：和
错误写法：<[^abc]*>
这个表达式会匹配以 < 开头，中间包含任意多个非“a”、非“b”、非“c”的字符，直到遇到 >。它甚至无法匹配，因为遇到了字母“a”就会停止。
正确写法：<(?!abc>)[^>]*>
这里使用了“否定顺序环视” (?!...)，确保 < 后面紧跟着的不是 abc>，然后再匹配任意多个非 > 的字符，这才是正解。

一个冷知识：字符组内的 \b

最后分享一个不太为人所知的细节：在正则表达式中，\b 通常表示单词边界。但是，一旦它被放到字符组内部，变成 [\b]，它的含义就变成了匹配一个“退格符”。这个小差异在跨语境处理文本时偶尔会带来意想不到的问题，值得记在备忘录里。

本文转载于：https://www.jb51.net/program/285682vu4.htm 如有侵犯，请联系zhengruancom@outlook.com删除。
免责声明：正软商城发布此文仅为传递信息，不代表正软商城认同其观点或证实其描述。

上一篇：Vue3使用LogicFlow更新节点名称的方法

下一篇：使用systemd设置PHP程序为服务的配置步骤

产品推荐

售后无忧
立即购买>

DAEMON Tools Lite 10【序列号终身授权 + 中文版 + Win】

￥150.00
office旗舰店
售后无忧
立即购买>

DAEMON Tools Ultra 5【序列号终身授权 + 中文版 + Win】

￥198.00
office旗舰店
售后无忧
立即购买>

DAEMON Tools Pro 8【序列号终身授权 + 中文版 + Win】

￥189.00
office旗舰店
售后无忧
立即购买>

CorelDRAW X8 简体中文【标准版 + Win】

￥1788.00
office旗舰店

正版软件

XML 轻松学习手册(比较不错)第1/3页

XML入门指南：从疑惑到实践无论你是网页设计师还是网络程序员，有两点趋势是明确的：第一，XML无疑是未来技术发展的重要方向，及早了解和学习，才不至于在机会来临时措手不及；第二，面对任何新知识，尤其是伴随着新概念而来的，尝试去理解和接纳，才是提升自身竞争力的正途。不必畏惧，毕竟探索和学习的过程本身，

8分钟前 0
正版软件

EnumMap为何更快？内部数组优化解析

EnumMap的get/put是O(1)且无哈希开销，因其直接用枚举ordinal()作数组下标访问内部values数组，省去HashMap全套哈希计算与结构维护流程。

11分钟前 0
正版软件

浅析Dart语言的异步处理

何为异步支持了解一下异步线程说到异步编程，先得聊聊Dart这门语言的基础。一个核心事实是：Dart是单线程的。那么问题来了，既然是单线程，遇到像文件读写、网络请求这类“慢动作”操作时，线程岂不是会被“堵”在原地，导致用户界面卡成幻灯片？没错，正是为了避免这种阻塞局面，异步处理机制才应运而生，成为

12分钟前 0
正版软件

XSL简明教程

一. XSL入门 1. XSL---XML的样式表玩过HTML的朋友都知道，它有一套预设好的标签（tags），比如就是另起一行，就是标题字体。这套规则，所有浏览器都心知肚明，知道怎么解析和呈现。可到了XML这里，情况就完全不同了——它没有固定的标签！我们可以创建任何自己需要的标识。这样一来，问题就

13分钟前 0
正版软件

Global.asa文件技巧用法

Global.asa文件：理解ASP应用中的Session与Application管理如果你曾深入ASP开发，一定会碰到一个特殊的文件——Global.asa。它负责管理ASP应用中最核心的两个对象：Application和Session。简单来说，.asa是Active Server Appli

14分钟前 0