C++模糊搜索实现_编辑距离Levenstein算法案例

　　发布于2026-04-09　阅读（0）

扫一扫，手机访问

Levenshtein距离用动态规划二维表实现，dpi表示s1前i字符到s2前j字符的最小编辑距离，初始化边界后按相等/不等转移，时间O(mn)，空间可优化至O(min(m,n))。

c++怎么实现字符串的模糊搜索_c++ 编辑距离算法Levenstein实现【案例】

Levenshtein 距离函数怎么写（C++ 基础实现）

直接用动态规划填二维表是最清晰、最易调试的写法。核心是定义 dp[i][j] 表示 s1.substr(0, i) 到 s2.substr(0, j) 的最小编辑距离，状态转移只依赖左、上、左上三个格子。

注意边界初始化：空字符串到长度为 j 的字符串需要 j 次插入；同理，长度为 i 到空字符串需 i 次删除。

int levenshtein(const std::string& s1, const std::string& s2) {
    int m = s1.size(), n = s2.size();
    std::vector> dp(m + 1, std::vector(n + 1));
for (int i = 0; i <= m; ++i) dp[i][0] = i;
for (int j = 0; j <= n; ++j) dp[0][j] = j;

for (int i = 1; i <= m; ++i) {
    for (int j = 1; j <= n; ++j) {
        if (s1[i-1] == s2[j-1]) {
            dp[i][j] = dp[i-1][j-1];
        } else {
            dp[i][j] = 1 + std::min({
                dp[i-1][j],    // 删除
                dp[i][j-1],    // 插入
                dp[i-1][j-1]   // 替换
            });
        }
    }
}
return dp[m][n];
}

如何用 Levenshtein 实现模糊搜索（带阈值匹配）

编辑距离本身不是“搜索”，而是衡量相似度的工具。模糊搜索的关键在于：对候选字符串批量调用 levenshtein()，再按距离排序或过滤。

阈值建议设为 std::min(s1.size(), s2.size()) / 3 或固定小整数（如 1~3），避免长串误匹配
若候选集很大（>1000 条），别暴力遍历——先用长度差预筛：abs((int)s1.size() - (int)s2.size()) > threshold 直接跳过
区分大小写？确保输入前统一调用 std::tolower 转换，否则 "Apple" 和 "apple" 距离为 1（首字母替换），而非 0

为什么不用 std::string::find 或正则做模糊匹配

std::string::find 只支持精确子串匹配，不处理错字、漏字、顺序颠倒；std::regex 虽可写通配模式（如 "a.*b.*c"），但无法量化“多像”，也不能自然表达“替换一个字符”这种语义。

例如搜索 "recieve"（拼错）想命中 "receive"：

find("receive") 失败（不相等）
正则 R"([rR][eE][cC][eE][iI][vV][eE])" 仍要求完全匹配，没解决错位
Levenshtein 返回 1，明确告诉你：“只差一次修改”

性能和内存要注意什么（尤其嵌入式或高频调用场景）

原版二维 DP 时间 O(m×n)，空间 O(m×n)。实际工程中容易成为瓶颈：

空间可优化到 O(min(m,n))：只需保存上一行和当前行，用两个一维 std::vector 轮换
提前终止：如果某一行中所有值都 > 阈值，可立即返回“超限”，无需算完
避免临时 std::string 构造：传参用 const std::string&，内部别做 s1 + "x" 这类拼接
短字符串（≤8 字节）可考虑 SSE 加速版本，但 C++ 标准库无内置，需手写或引入第三方（如 simd-string）

真正卡住的往往不是算法本身，而是反复构造 std::vector 和频繁内存分配。如果搜索逻辑固定且候选集不变，把距离矩阵预计算好、查表会更快。

本文转载于：互联网如有侵犯，请联系zhengruancom@outlook.com删除。
免责声明：正软商城发布此文仅为传递信息，不代表正软商城认同其观点或证实其描述。

上一篇：喜马拉雅历史记录怎么查

下一篇：手机视频转音频方法详解

产品推荐

售后无忧
立即购买>

DAEMON Tools Lite 10【序列号终身授权 + 中文版 + Win】

￥150.00
office旗舰店
售后无忧
立即购买>

DAEMON Tools Ultra 5【序列号终身授权 + 中文版 + Win】

￥198.00
office旗舰店
售后无忧
立即购买>

DAEMON Tools Pro 8【序列号终身授权 + 中文版 + Win】

￥189.00
office旗舰店
售后无忧
立即购买>

CorelDRAW X8 简体中文【标准版 + Win】

￥1788.00
office旗舰店

正版软件

Go godoc 文档分页查看方法

本文旨在解决Go语言godoc命令在命令行输出大量文档时无法分页查看的问题。通过利用操作系统自带的管道符和more命令，用户可以轻松实现godoc输出内容的逐页浏览，提高阅读效率。这种方法不仅适用于godoc，也适用于任何产生大量文本输出的命令行工具，是提高命令行使用效率的通用技巧。

13分钟前 0
正版软件

Go 实现 AJAX 动态网页爬虫方法解析

Go原生HTTP客户端无法执行JavaScript，因此直接请求会获取到空容器（如<divclass="content"></div>）；要抓取AJAX渲染后的真实内容，需模拟浏览器行为或逆向分析接口，本文详解两种可行方案。

28分钟前 0
正版软件

Java 解析 JSON 报错原因有哪些

Java解析JSON报错主因是类型、编码、结构或依赖未对齐：JSON语法须严格（双引号、无末尾逗号等）；读取需显式指定UTF-8编码；Java类字段名/类型/嵌套须与JSON一致；Jackson需jackson-core、-annotations、-databind三版本统一。

43分钟前 0
正版软件

Java多数组处理订单与索引管理教程

本教程详细阐述了如何在Java中有效利用多个数组来处理订单数据。通过一个具体的订单预览场景，我们展示了如何将商品名称、价格与订单详情（包含1-based索引和数量）关联起来，并解决了索引转换的关键问题。文章提供了清晰的代码示例，指导读者实现数据整合、计算总价及格式化输出，同时强调了数组越界检查的重要性，旨在提升Java数组操作的实践能力。

58分钟前 0
正版软件

宝塔开启Redis缓存，提升网站加载速度

Redis服务必须运行且状态为“运行中”，配置才生效；需检查端口、密码、安全组、PHP扩展版本、wp-config.php位置、超时设置、IP地址、多实例隔离及连接验证。

1小时前 12:00 0