统计HashMap中单词出现次数及键值方法

　　发布于2025-08-13　阅读（0）

扫一扫，手机访问

Java中统计HashMap值内特定单词出现次数并记录键值的方法

本文旨在介绍如何在Java中高效统计HashMap值（字符串）内特定单词的出现次数，并针对每次出现，将对应的键值添加到结果列表中。通过分析传统方法的局限性，文章重点阐述了如何利用Java的正则表达式（java.util.regex）API，结合Pattern和Matcher类，实现精确且多次的单词匹配与计数，从而满足复杂的数据处理需求，确保输出结果准确反映单词的实际出现频率。

1. 问题背景与传统方法局限性

在处理包含文本数据的HashMap时，我们常常需要统计特定单词在每个条目值中出现的频率。例如，一个HashMap可能存储了以整数为键、以句子为值的记录，我们希望统计某个单词（如“car”）在每个句子中出现的次数，并根据其出现次数重复记录对应的键。

考虑以下初始数据结构：

Map<Integer, String> carHashMap = new HashMap<>();
carHashMap.put(1, "this car is very fast car");
carHashMap.put(2, "i have a old car");
carHashMap.put(3, "my first car was an mercedes and my second car was an audi");
carHashMap.put(4, "today is a good day");
carHashMap.put(5, "car car car car");

如果采用简单的String.contains()方法来判断单词是否存在，并记录对应的键，会遇到一个问题：

ArrayList<Integer> showCarsInMap = new ArrayList<>();
for (Map.Entry<Integer, String> entrySection : carHashMap.entrySet()) {
    if (entrySection.getValue().contains("car")) {
        showCarsInMap.add(entrySection.getKey());
    }
}
System.out.println("Car : " + showCarsInMap);
// 当前输出: Car : [1, 2, 3, 5]

上述代码的输出是[1, 2, 3, 5]。这表明它只能识别出包含“car”的键，但无法区分“car”在键1的值中出现了两次，在键5的值中出现了四次。contains()方法仅返回布尔值，无法提供出现次数的信息，因此无法满足将键重复记录的需求。

2. 解决方案：利用正则表达式进行精确匹配与计数

为了解决上述问题，我们需要一种能够查找字符串中所有匹配项的方法。Java的java.util.regex包提供了强大的正则表达式功能，其中的Pattern和Matcher类正是为此目的而设计。

核心思想是：

定义一个正则表达式模式，精确匹配目标单词。
使用Matcher对象在字符串中查找所有符合模式的子序列。
通过while (matcher.find())循环，每找到一个匹配项，就执行一次操作（例如，将键添加到列表中）。

2.1 正则表达式模式的选择

为了确保只匹配完整的单词“car”，而不是“cartoon”或“scar”中的“car”部分，我们需要使用单词边界。一个常用的模式是 (?:^|\\W)car(?:$|\\W)。

car: 匹配字面字符串“car”。
\\W: 匹配任何非单词字符（包括空格、标点符号、换行符等）。
^: 匹配字符串的开头。
$: 匹配字符串的结尾。
(?:...): 这是一个非捕获组。它将内部的模式组合在一起，但不会创建单独的捕获组，这在只需要分组而不需要提取匹配内容时很有用。
(?:^|\\W): 匹配字符串开头或一个非单词字符。这确保了“car”前面要么是字符串开头，要么是一个非单词字符。
(?:$|\\W): 匹配字符串结尾或一个非单词字符。这确保了“car”后面要么是字符串结尾，要么是一个非单词字符。

这个模式有效地定义了“car”作为一个独立单词的边界。

2.2 代码实现

将正则表达式应用于HashMap值的完整代码如下：

import java.util.ArrayList;
import java.util.HashMap;
import java.util.Map;
import java.util.regex.Matcher;
import java.util.regex.Pattern;

public class WordCounterInHashMap {

    public static void main(String[] args) {
        Map<Integer, String> carHashMap = new HashMap<>();
        ArrayList<Integer> showCarsInMap = new ArrayList<>();

        carHashMap.put(1, "this car is very fast car");
        carHashMap.put(2, "i have a old car");
        carHashMap.put(3, "my first car was an mercedes and my second car was an audi");
        carHashMap.put(4, "today is a good day");
        carHashMap.put(5, "car car car car");

        // 目标单词
        String targetWord = "car";
        // 编译正则表达式模式
        // (?:^|\\W)word(?:$|\\W) 确保匹配的是整个单词
        Pattern p = Pattern.compile("(?:^|\\W)" + Pattern.quote(targetWord) + "(?:$|\\W)", Pattern.CASE_INSENSITIVE);

        for (Map.Entry<Integer, String> entrySection : carHashMap.entrySet()) {
            // 为当前字符串创建Matcher
            Matcher m = p.matcher(entrySection.getValue());
            // 循环查找所有匹配项
            while (m.find()) {
                // 每找到一个匹配项，就将对应的键添加到列表中
                showCarsInMap.add(entrySection.getKey());
            }
        }

        System.out.println("Car : " + showCarsInMap);
        // 期望输出: Car : [1, 1, 2, 3, 3, 5, 5, 5, 5]
    }
}

代码解析：

Pattern.compile(...): 这一行将正则表达式字符串编译成一个Pattern对象。Pattern.quote(targetWord)用于确保如果targetWord本身包含特殊正则表达式字符，它们会被正确地转义，从而按字面意义匹配。Pattern.CASE_INSENSITIVE标志使得匹配不区分大小写，例如“Car”和“car”都会被匹配。
Matcher m = p.matcher(entrySection.getValue());: 对于HashMap中的每一个值（即每个句子），我们都创建一个新的Matcher对象。Matcher对象用于对输入字符串执行匹配操作。
while (m.find()): 这是实现多次计数的关键。m.find()方法尝试在当前字符串中查找下一个匹配给定模式的子序列。如果找到，它返回true并将Matcher的状态更新到下一个匹配的起始位置；如果没有找到，则返回false。通过在一个while循环中使用它，我们可以遍历字符串中的所有匹配项。每次找到一个匹配，我们就将对应的entrySection.getKey()添加到showCarsInMap列表中。

运行上述代码，将得到期望的输出：Car : [1, 1, 2, 3, 3, 5, 5, 5, 5]，这准确反映了“car”在每个键对应的值中出现的次数。

3. 注意事项

正则表达式的精确性与复杂性：
- 上述正则表达式"(?:^|\\W)" + Pattern.quote(targetWord) + "(?:$|\\W)"能够很好地处理单词边界。但请注意，\\W会匹配任何非字母、数字、下划线的字符。如果你的“单词”定义更复杂（例如，包含连字符），或者需要处理不同语言的单词边界，你可能需要调整正则表达式。
- 对于更严格的单词边界，可以使用\\b（单词边界）元字符："\\b" + Pattern.quote(targetWord) + "\\b"。但请注意，\\b在某些情况下（如数字或下划线连接的字符串中）的行为可能与预期不同。在大多数自然语言文本中，\\b是匹配完整单词的更简洁和推荐方式。例如，"car"在"cars"中不会被"\\bcar\\b"匹配。
大小写敏感性： 默认情况下，正则表达式是大小写敏感的。如果你希望不区分大小写地匹配，可以在编译Pattern时添加Pattern.CASE_INSENSITIVE标志，如示例所示。
性能考量： 对于非常大的文本数据集和大量的HashMap条目，正则表达式的匹配操作可能会有性能开销。在大多数常见场景下，这种开销是可以接受的。如果性能成为瓶颈，可以考虑其他方法，例如先将字符串分词（tokenize）为单词数组，然后遍历数组进行计数。然而，对于本例中的需求，正则表达式通常是最高效且简洁的解决方案。
多线程环境： 如果carHashMap或showCarsInMap在多线程环境中共享，需要考虑线程安全问题。例如，ArrayList不是线程安全的，在并发修改时需要同步机制（如使用Collections.synchronizedList或CopyOnWriteArrayList）。

4. 总结

通过利用Java的java.util.regex包，我们能够有效地解决在HashMap值中统计特定单词出现次数并根据出现频率重复记录键的问题。Pattern和Matcher类的组合提供了强大的文本模式匹配能力，特别是while (matcher.find())循环，它允许我们遍历字符串中的所有匹配项，从而实现精确的计数。理解正则表达式模式的构建及其在Java中的应用，是处理复杂文本数据的重要技能。

本文转载于：互联网如有侵犯，请联系zhengruancom@outlook.com删除。
免责声明：正软商城发布此文仅为传递信息，不代表正软商城认同其观点或证实其描述。

上一篇：十款实用日历软件推荐指南

下一篇：虚拟内存是什么？详解电脑运行原理

产品推荐

售后无忧
立即购买>

DAEMON Tools Lite 10【序列号终身授权 + 中文版 + Win】

￥150.00
office旗舰店
售后无忧
立即购买>

DAEMON Tools Ultra 5【序列号终身授权 + 中文版 + Win】

￥198.00
office旗舰店
售后无忧
立即购买>

DAEMON Tools Pro 8【序列号终身授权 + 中文版 + Win】

￥189.00
office旗舰店
售后无忧
立即购买>

CorelDRAW X8 简体中文【标准版 + Win】

￥1788.00
office旗舰店

正版软件

小青账如何隐藏默认账本?小青账隐藏默认账本教程

小青账如何隐藏默认账本？小青账是一款非常实用且强大的记账软件，为广大用户提供了方便的记账功能。不少用户对如何隐藏默认账本感到困惑，下面小编将介绍小青账隐藏默认账本的操作方法。还不知道的小伙伴快来看看吧！

昨天 03-22 13:05 0
正版软件

如何使用讯飞星火生成ppt?利用讯飞星火AI生成高质量ppt教程

讯飞星火怎么生成高质量ppt？你是否曾经在深夜里为第二天的工作汇报而焦头烂额，翻遍互联网寻找灵感和模板，又或者因为繁琐的排版和设计而感到力不从心？现在，有了讯飞星火AI生成PPT，你的所有烦恼都将一扫而光！

昨天 03-22 12:52 0
正版软件

搜狐视频怎么投屏到电视播放?搜狐视频app电视投屏方法教程

搜狐视频怎么投屏到电视播放？有时候我们在看电视的时候会觉得怕屏幕不够大，看的不大清楚，这时候就会想如果有个大屏幕就好了，今天小编教你们如何用搜狐视频投屏到电视上，彻底的解放双手。搜狐视频app电视投屏教程1、首先打开搜狐视频app，搜索想看的视频或影视剧2、进入详情页后点击有TV字样的图标3、然后搜索附近的设备连接我们的电视4、当电视上出现了手机正在播放的

昨天 03-22 12:38 0
正版软件

豆瓣怎么设置主页不可见?豆瓣设置隐私主页教程

豆瓣怎么设置主页不可见？大家在使用豆瓣的时候，经常会在主页发布自己的心情状态、吐槽等等内容，然后其他用户进我们的主页的时候就能很轻松的看到我们发过的内容，那么我们能不能设置主页的隐私呢？要怎么设置呢？下面小编就为大家介绍一下豆瓣个人主页设置隐私的办法。

昨天 03-22 10:50 0
正版软件

夸克浏览器怎么设置电脑模式?夸克浏览器设置成电脑模式教程

夸克浏览器怎么设置电脑模式？嘿，兄弟们，你是否曾经需要在手机上看网页，但又要让页面显示效果如同在电脑上的体验？如果是，那么恭喜您，夸克浏览器就是您的不二之选！它不仅拥有简洁明了的界面设计，而且夸克浏览器手机版也可以轻松设置成电脑版，让你在手机端也能够享受到如同在电脑上的浏览体验。

前天 03-21 12:02 0