Python使用正则表达式将多个空格替换为一个空格

　　发布于2026-05-02　阅读（0）

扫一扫，手机访问

方法一：使用 re.sub() 替换连续空白字符

处理文本时，我们常常会遇到一个恼人的问题：字符串里充斥着多余的空格、制表符或换行。别担心，Python的re.sub()函数能帮你轻松搞定。它的核心思路是，用一个正则表达式模式匹配所有连续的空白字符，然后统一替换成单个空格。

import re

def replace_multiple_spaces(s):
    # 将一个或多个空白字符替换为单个空格
    pattern = r'\s+'
    return re.sub(pattern, ' ', s)

# 测试
text = "Hello    World   This  is   a    test"
result = replace_multiple_spaces(text)
print(f"原始: {repr(text)}")
print(f"处理后: {repr(result)}")
# 输出: 'Hello World This is a test'

看上面的代码，r‘\s+’这个模式是关键。它匹配任何空白字符（包括空格、制表符\t、换行符\n等）一次或多次。这样一来，无论中间有多少“杂质”，最终都能被规整成一个干净的空格。

方法二：只替换空格（不包括制表符、换行符）

有时候，你的需求可能更精细。比如，你只想压缩多余的空格，但希望保留文本中原有的制表符和换行结构。这时候，就需要把“靶子”瞄得更准一些。

import re

def replace_multiple_spaces_only(s):
    # 只将连续的空格替换为单个空格（保留制表符和换行符）
    pattern = r' +'
    return re.sub(pattern, ' ', s)

# 测试
text = "Hello    World\t\tTabbed\n\nNewLine"
result = replace_multiple_spaces_only(text)
print(f"原始: {repr(text)}")
print(f"处理后: {repr(result)}")
# 输出: 'Hello World\t\tTabbed\n\nNewLine'

注意这里模式的变化：r‘ +’。它只匹配连续的空格字符，而\t和\n则被完美地保留了下来。这在处理需要保持特定格式的文本时非常有用。

方法三：更精确的控制

实际项目中的需求往往更复杂。你可能需要根据场景动态选择是否保留换行符。下面这个函数就提供了这样的灵活性，它算是一个“增强版”的解决方案。

import re

def normalize_spaces(s, preserve_newlines=True):
    """
    标准化空格
    :param s: 输入字符串
    :param preserve_newlines: 是否保留换行符
    :return: 处理后的字符串
    """
    if preserve_newlines:
        # 先按行分割，处理每行的空格，再合并
        lines = s.split('\n')
        processed_lines = [re.sub(r' +', ' ', line) for line in lines]
        return '\n'.join(processed_lines)
    else:
        # 替换所有连续空白字符为单个空格
        return re.sub(r'\s+', ' ', s)

# 测试
text = """Hello    World
This  is   a    test
With    multiple     spaces"""

result1 = normalize_spaces(text, preserve_newlines=True)
print("保留换行符:")
print(result1)
print()

result2 = normalize_spaces(text, preserve_newlines=False)
print("不保留换行符:")
print(result2)

这个函数的聪明之处在于它的条件逻辑。当需要保留换行符时，它先按行切分，然后只清理每行内部的多余空格，最后再把行拼接回去。这样一来，段落结构就得以完整保留。

方法四：同时处理开头和结尾的空格

文本清理通常是个系统工程，光处理中间部分还不够，字符串首尾的空白字符也经常需要被“修剪”掉。下面这个方法就实现了“一站式”清理。

import re

def clean_and_normalize_spaces(s):
    """
    清理字符串：去除首尾空格，并将中间多个空格替换为一个空格
    """
    # 先替换连续空白字符为单个空格
    s = re.sub(r'\s+', ' ', s)
    # 去除首尾空格
    return s.strip()

# 测试
text = "   Hello    World   This  is   a    test   "
result = clean_and_normalize_spaces(text)
print(f"原始: {repr(text)}")
print(f"处理后: {repr(result)}")
# 输出: 'Hello World This is a test'

流程很清晰：先用re.sub把内部所有空白“压缩”成一个空格，再用strip()方法把开头和结尾的空白彻底去掉。经过这两步，字符串就从里到外都整洁了。

方法五：使用 split() 和 join()（无需正则）

如果你不想和正则表达式打交道，这里有一个更直观的“经典组合技”。它利用字符串内置的方法，同样能达到目的，而且代码非常简洁。

def replace_spaces_simple(s):
    """
    使用 split() 和 join() 方法替换多个空格
    """
    # split() 默认按空白字符分割，并自动去除空字符串
    # join() 用单个空格连接
    return ' '.join(s.split())

# 测试
text = "Hello    World   This  is   a    test"
result = replace_spaces_simple(text)
print(f"原始: {repr(text)}")
print(f"处理后: {repr(result)}")
# 输出: 'Hello World This is a test'

s.split()在不传入参数时，默认会按任意空白字符分割，并自动过滤掉产生的空字符串。然后，‘ ‘.join()再用单个空格把切分后的单词重新连接起来。一行代码，干净利落。

完整示例对比

说了这么多方法，到底哪个适合你？不如把它们放在一起，用同一个文本测试一下，效果一目了然。

import re

def compare_methods(text):
    print(f"原始文本: {repr(text)}\n")
    
    # 方法1: 正则替换所有空白字符
    result1 = re.sub(r'\s+', ' ', text)
    print(f"方法1 (替换所有空白字符): {repr(result1)}")
    
    # 方法2: 正则只替换空格
    result2 = re.sub(r' +', ' ', text)
    print(f"方法2 (只替换空格): {repr(result2)}")
    
    # 方法3: split/join
    result3 = ' '.join(text.split())
    print(f"方法3 (split/join): {repr(result3)}")
    
    # 方法4: 清理并标准化
    result4 = re.sub(r'\s+', ' ', text).strip()
    print(f"方法4 (清理并标准化): {repr(result4)}")

# 测试
test_text = "  Hello    World\t\tTabbed\n\nNewLine  "
compare_methods(test_text)

输出示例

原始文本: ‘ Hello World\t\tTabbed\n\nNewLine ’

方法1 (替换所有空白字符): ‘ Hello World Tabbed NewLine ’

方法2 (只替换空格): ‘ Hello World\t\tTabbed\n\nNewLine ’

方法3 (split/join): ‘Hello World Tabbed NewLine’

方法4 (清理并标准化): ‘Hello World Tabbed NewLine’

从输出可以清楚地看到差异：方法2保留了制表符和换行；方法1去掉了所有特殊空白但首尾仍有空格；方法3和方法4则得到了最“干净”的结果，但原理略有不同。

性能对比

在处理海量文本时，效率就成了不得不考虑的因素。我们来简单对比一下这几种方法的执行速度。

import timeit

text = "Hello    World   This  is   a    test" * 1000

# 方法1: 正则替换所有空白字符
def method1():
    return re.sub(r'\s+', ' ', text)

# 方法2: 正则只替换空格
def method2():
    return re.sub(r' +', ' ', text)

# 方法3: split/join
def method3():
    return ' '.join(text.split())

print("正则替换所有空白字符:", timeit.timeit(method1, number=1000))
print("正则只替换空格:", timeit.timeit(method2, number=1000))
print("split/join方法:", timeit.timeit(method3, number=1000))

通常情况下，split()和join()的组合由于是Python内置的字符串操作，且避免了正则表达式的编译和匹配开销，在处理大规模文本时会显示出性能优势。当然，对于简单的、一次性的小任务，这种差异可以忽略不计。

产品推荐

售后无忧
立即购买>

DAEMON Tools Lite 10【序列号终身授权 + 中文版 + Win】

￥150.00
office旗舰店
售后无忧
立即购买>

DAEMON Tools Ultra 5【序列号终身授权 + 中文版 + Win】

￥198.00
office旗舰店
售后无忧
立即购买>

DAEMON Tools Pro 8【序列号终身授权 + 中文版 + Win】

￥189.00
office旗舰店
售后无忧
立即购买>

CorelDRAW X8 简体中文【标准版 + Win】

￥1788.00
office旗舰店

正版软件

debian deluser如何指定删除用户的shell

在Debian系统中删除用户并指定其默认Shell 在Debian系统里管理用户账户，有时不只是简单地删除，还需要精细地控制其“身后事”——比如，你想在删除用户的同时，顺手把他的默认Shell也改成一个特定的值。这事儿用deluser命令就能办到，关键就在于那个--shell选项。下面咱们就一步步拆

9分钟前 0
正版软件

如何优化Linux LAMP中的PHP代码

优化Linux LAMP中的PHP代码：从基础到高阶的性能提升策略在Linux LAMP（Linux, Apache, MySQL, PHP）环境中，PHP代码的性能表现直接决定了网站的响应速度和用户体验。一套经过优化的代码，往往能让服务器资源发挥出数倍的效能。今天，我们就来系统性地梳理一下那些经

9分钟前 0
正版软件

SecureCRT怎样保障连接安全

SecureCRT保障连接安全的关键做法在远程运维和管理的世界里，连接安全是那条不容有失的底线。SecureCRT作为一款经典工具，其安全性并非默认全开，而是依赖于一系列关键配置。下面，我们就来梳理一下那些让连接固若金汤的核心做法。加密与协议一切安全的基础，始于连接本身。这一步没走对，后续所有

10分钟前 0
正版软件

Debian系统中C++版本如何管理

Debian 系统中 C++ 版本管理一核心概念与范围在 Debian 环境下，当我们谈论“C++版本”时，其实涉及两个相互关联但又彼此独立的部分。首先是编译器前端，也就是 GCC/G++ 的版本；其次，是在编译时具体启用的 C++ 语言标准，比如 C++17、C++20 或 C++23。这两

10分钟前 0
正版软件

如何在Debian上编译C++开源项目

在Debian上编译C++开源项目在Debian系统上编译一个C++开源项目，其实有一套相当标准化的流程。只要跟着步骤走，大多数项目都能顺利搞定。当然，细节上总有些差异，但核心路径是清晰的。 1. 安装必要的工具和库万事开头难？其实不然。第一步通常很简单：打开终端，用apt包管理器把基础编译环境

11分钟前 0