商城首页欢迎来到中国正版软件门户

您的位置:首页 >统计字典中值列表的唯一组合及其出现频次,可以通过以下步骤实现:方法一:使用 collections.defaultdict 和 tuple将每个值列表转换为元组

统计字典中值列表的唯一组合及其出现频次,可以通过以下步骤实现:方法一:使用 collections.defaultdict 和 tuple将每个值列表转换为元组

  发布于2026-04-21 阅读(0)

扫一扫,手机访问

如何统计字典中值列表的唯一组合及其出现频次

本文介绍如何准确统计字典中所有值列表(如 ['x', 'y'])的标准化组合(排序后去重)及其出现次数,并按频次降序输出形如 n=5: ('x', 'y') 的结果,避免因字典键重复导致的覆盖问题。

本文介绍如何准确统计字典中所有值列表(如 `['x', 'y']`)的标准化组合(排序后去重)及其出现次数,并按频次降序输出形如 `n=5: ('x', 'y')` 的结果,避免因字典键重复导致的覆盖问题。

在处理类似 {'HH1': ['x'], 'HH2': ['y', 'x'], 'HH3': ['x', 'z'], ...} 这样的数据时,核心目标是:将每个值列表标准化为有序元组(如 ['y', 'x'] → ('x', 'y')),然后统计每种标准化组合在整个字典中出现的精确次数。常见错误包括:

  • 对子集组合(如 combinations(..., r))进行计数 → 导致统计的是“子集出现频次”,而非“原始列表匹配频次”;
  • 用 n=count 作为字典键 → 因多个不同组合可能具有相同频次(如两个组合都出现 1 次),造成后写入覆盖前写入;
  • 未对列表排序即转元组 → ['x','y'] 和 ['y','x'] 被视为不同键,无法合并。

✅ 正确解法的关键在于:以标准化元组为字典键,频次为值。以下是推荐实现(简洁、高效、语义清晰):

from collections import defaultdict

HH_dict = {
    'HH1': ['x'], 'HH2': ['y', 'x'], 'HH3': ['x', 'z'], 'HH4': ['x'], 'HH5': ['x'],
    'HH6': ['x'], 'HH7': ['x'], 'HH8': ['x', 'y', 'z'], 'HH9': ['x'], 'HH10': ['x', 'y'],
    'HH11': ['x'], 'HH12': ['x'], 'HH13': ['x'], 'HH14': ['x'], 'HH15': ['x', 'y'],
    'HH16': ['x', 'y'], 'HH17': ['x', 'y'], 'HH18': ['x']
}

# 步骤1:统计每种标准化组合(排序后转tuple)的出现次数
combination_count = defaultdict(int)
for lst in HH_dict.values():
    # 标准化:去重 + 排序 + 转元组(确保 ['y','x'] 和 ['x','y'] 视为同一组合)
    key = tuple(sorted(set(lst)))
    combination_count[key] += 1

# 步骤2:按频次降序输出(频次相同时可选按元组字典序升序,增强可读性)
for combo, count in sorted(combination_count.items(), key=lambda x: (-x[1], x[0])):
    print(f"n={count}: {combo}")

输出结果:

n=11: ('x',)
n=5: ('x', 'y')
n=1: ('x', 'z')
n=1: ('x', 'y', 'z')

? 关键说明:

  • set(lst) 消除列表内重复元素(虽本例无重复,但属健壮性保障);
  • sorted(...) 确保顺序一致,使等价组合映射到同一键;
  • 使用 defaultdict(int) 或原生 dict 手动判断(如答案中所示)均可,避免 Counter 在此处的误用;
  • sorted(..., key=lambda x: (-x[1], x[0])) 实现主序按频次降序、次序按组合升序,使输出稳定且易读。

⚠️ 注意事项:

  • 不要使用 n=count 作为输出字典的键(如 renamed_lists[f"n={count}"]),这会丢失信息;
  • 避免遍历 combinations(..., r)——本题要求的是完整列表的匹配,而非其幂集;
  • 若原始数据中存在空列表 [],需单独处理(tuple(sorted(set([]))) 得 ()),根据业务决定是否纳入统计。

该方法时间复杂度为 O(N×M log M),其中 N 为字典长度,M 为单个列表平均长度,兼顾效率与可维护性,适用于中等规模数据场景。

本文转载于:互联网 如有侵犯,请联系zhengruancom@outlook.com删除。
免责声明:正软商城发布此文仅为传递信息,不代表正软商城认同其观点或证实其描述。

热门关注