您的位置:首页 >如何快速根据属性查找数组对象
发布于2026-04-21 阅读(0)
扫一扫,手机访问

本文介绍如何将线性搜索的患者对象数组优化为基于哈希表的字典索引,将 O(n) 查找降为平均 O(1),显著提升日志解析中按 patient_id 关联治疗计划的性能。
本文介绍如何将线性搜索的患者对象数组优化为基于哈希表的字典索引,将 O(n) 查找降为平均 O(1),显著提升日志解析中按 patient_id 关联治疗计划的性能。
在处理大规模医疗日志文件(如含数十万条就诊记录)时,原始代码中反复使用 any() 和遍历 patient.all_patients 列表进行 pat_id 匹配,会导致时间复杂度高达 O(n × m)(n 为患者数,m 为日志行数),性能瓶颈明显。根本问题在于:用列表模拟查找表,违背了“按键快速访问”的设计原则。
✅ 优化核心思路:用字典(dict)替代类变量列表,以 pat_id 为键直接索引 Patient 实例。Python 字典底层基于哈希表,平均查找、插入、更新均为 O(1),可彻底消除循环遍历开销。
以下是重构后的高效实现:
class Patient:
def __init__(self, pat_id: int):
self.pat_id = pat_id
self.plans = [] # 存储去重后的治疗计划名(如 "RT_PLAN_001")
# 使用字典管理所有患者:{pat_id → Patient 实例}
patients = {}
total_plans = 0
# 假设 index 是当前日志行切分后的列表(如 index = line.strip().split('|'))
patient_id = int(index[4]) # 确保类型一致,避免字符串/数字混用
plan_name = index[11]
# ① 检查患者是否存在 —— O(1) 字典键查找
if patient_id not in patients:
patients[patient_id] = Patient(patient_id)
# ② 直接定位患者并添加计划(自动去重)
current_patient = patients[patient_id]
if plan_name not in current_patient.plans:
total_plans += 1
current_patient.plans.append(plan_name)
# 最终统计
print(f"总患者数: {len(patients)}")
print(f"总唯一治疗计划数: {total_plans}")? 关键优化点说明:
⚠️ 注意事项:
此方案将日志解析的核心操作从「大海捞针」升级为「查电话簿」,实测在百万级日志中可提速 5–20 倍,是面向性能敏感型数据处理的 Python 工程实践范例。
售后无忧
立即购买>office旗舰店
售后无忧
立即购买>office旗舰店
售后无忧
立即购买>office旗舰店
售后无忧
立即购买>office旗舰店
正版软件
正版软件
正版软件
正版软件
正版软件
1
2
3
7
9