Python3提取汉字的常用方法有以下几种：方法一：使用正则表达式（推荐）import re text = "你好，世界！Hello, World! 123"

　　发布于2026-01-27　阅读（0）

扫一扫，手机访问

最常用方式是正则匹配Unicode汉字区间：[\u4e00-\u9fff]覆盖常用字，[\u3400-\u4dbf]含扩展A区生僻字，[\u3000-\u303f]含中文标点；可组合使用，如re.findall(r'[\u4e00-\u9fff]+', text)提取连续汉字。

python3如何提取汉字

Python3 提取汉字，核心是利用正则表达式匹配 Unicode 中文字符范围，或借助第三方库（如 jieba）做分词后筛选。最常用、轻量、无需额外依赖的方式是正则匹配。

用正则表达式提取纯汉字

中文汉字在 Unicode 中主要位于 \u4e00–\u9fff（基本汉字区），但实际还包含扩展 A 区（\u3400–\u4dbf）、扩展 B 区（部分超大字符集）、标点（如\u3000–\u303f）等。日常使用中，覆盖常用字可组合多个区间：

[\u4e00-\u9fff]：最常用，覆盖现代简体/繁体高频汉字
[\u3400-\u4dbf]：CJK 扩展 A（生僻字、古籍用字）
[\u3000-\u303f\u3040-\u309f\u30a0-\u30ff]：中文全角标点、平假名、片假名（按需添加）

示例代码：

import re
text = "Hello你好！123世界?，测试「abc」。"
hanzi = re.findall(r'[\u4e00-\u9fff]+', text)
print(hanzi)  # ['你好', '世界', '测试']

注意：+ 表示连续汉字连成一个字符串；若要单字拆分，改用 r'[\u4e00-\u9fff]'。

保留汉字并去除其他所有字符（包括空格标点）

适合清洗文本、构造纯汉字序列：

cleaned = re.sub(r'[^\u4e00-\u9fff]', '', text)
print(cleaned)  # '你好世界测试'

这个方法简单直接，但会丢弃所有非汉字内容，不含换行、空格、英文数字等。

用 jieba 分词后再过滤汉字（适合语义级提取）

当需要区分“词语”而非单字（比如排除“的”“了”等虚词，或保留“人工智能”这类复合词），可用 jieba 先分词，再按需筛选：

import jieba
text = "Python很强大，自然语言处理很重要！"
words = jieba.lcut(text)
hanzi_words = [w for w in words if re.fullmatch(r'[\u4e00-\u9fff]+', w)]
print(hanzi_words)  # ['Python', '很', '强大', '自然语言处理', '很重要']

⚠️ 注意：jieba 默认会保留英文单词（如 'Python'），所以需用正则二次判断是否纯汉字。若只想留中文词，建议加条件 len(w) > 1 and re.fullmatch(...) 过滤单字虚词（依任务而定）。

处理带拼音/注音/日文混排的文本

若文本含拼音（如 “zhong guo”）、日文假名或注音符号（ㄅㄆㄇ），可扩展正则范围或先清洗：

兼容常见拼音字母 + 空格 + 常见声调符号（如 ˉ ˊ ˇ ˋ）：一般建议先用正则剥离非汉字块，再对剩余部分提取
稳妥做法：先用 [^\u4e00-\u9fff\u3400-\u4dbf\u3000-\u303f]+ 替换为统一占位符，再提取

例如清理后只留汉字和中文标点：

basic_chinese = re.sub(r'[^\u4e00-\u9fff\u3000-\u303f]', ' ', text).strip()
hanzi_only = ''.join(hanzi for hanzi in basic_chinese if '\u4e00' <= hanzi <= '\u9fff')

不复杂但容易忽略细节：Unicode 范围要写对，避免漏掉扩展区；正则用 re.findall 比 re.search 更适合批量提取；分词+过滤适合有语义要求的场景。

本文转载于：互联网如有侵犯，请联系zhengruancom@outlook.com删除。
免责声明：正软商城发布此文仅为传递信息，不代表正软商城认同其观点或证实其描述。

上一篇：Java 中安全合并 Map 值的技巧

下一篇：PHP静态网页卡片布局实现方法

产品推荐

售后无忧
立即购买>

DAEMON Tools Lite 10【序列号终身授权 + 中文版 + Win】

￥150.00
office旗舰店
售后无忧
立即购买>

DAEMON Tools Ultra 5【序列号终身授权 + 中文版 + Win】

￥198.00
office旗舰店
售后无忧
立即购买>

DAEMON Tools Pro 8【序列号终身授权 + 中文版 + Win】

￥189.00
office旗舰店
售后无忧
立即购买>

CorelDRAW X8 简体中文【标准版 + Win】

￥1788.00
office旗舰店

正版软件

易次元怎么免费获得次元券?易次元app免费获得次元券教程

易次元怎么免费获得次元券？在易次元app里，次元币和次元券可以用来购买虚拟商品、兑换实物奖品等，而app也为用户提供了多种多样的方式来免费获得次元券，那么次元券有哪些免费获取方式呢，下面小编来为大家介绍一下吧。

7小时前 13:21 0
正版软件

建行app怎么激活医保电子凭证?中国建设银行app激活医保电子凭证方法

相信医保对于大家多多少少都是需要用到的，但由于医保卡总是不知道被自己放哪里了？那么如果你有中国建设银行卡，其实还能直接用建行app来领取自己的医保电子凭证进行使用。但是不知道建行app怎么激活医保电子凭证？那么可参考下文进行操作。

9小时前 11:05 0
正版软件

饿了么app怎么绑定银行卡?饿了么app绑定银行卡方法教程

饿了么app如何绑定银行卡？亲爱的美食家们，有没有在点外卖时因为忘记钱包余额不足而懊恼？有没有因为支付不便而放弃心爱的美食？为了解决您的这些烦恼，小编特别为您准备了这个教程——饿了么app如何绑定银行卡。

昨天 03-27 13:57 0
正版软件

微博怎么查看自己经常访问的人?微博查看频繁访问的人方法教程

微博怎么查看自己经常访问的人？微博是很多小伙伴都在使用的一款社交软件，这个软件功能强大，导致很多功能需要自己去挖掘，很多小伙伴反映想知道要怎么查看频繁访问的人，那么今天小编就来教一教大家查看方法，感兴趣的小伙伴一起来了解一下吧。

昨天 03-27 13:14 0
正版软件

抖音怎么关闭在线状态?抖音关闭在线状态方法教程

抖音怎么关闭在线状态？我们在刷抖音短视频的时候，一些好友之间为了分享有趣的视频通常会互相关注，但互相关注了之后你的在线状态就会在好友那边显示出来，想必很多朋友都会被这个问题所困扰吧，那么怎么关闭抖音在线状态呢，接下来让小编来给大家详细介绍一下吧。

前天 03-26 12:40 0