LSTM异常检测方法及实现步骤

　　发布于2025-11-09　阅读（0）

扫一扫，手机访问

1.基于LSTM的异常检测核心思路是利用模型对时序数据的预测能力，通过训练正常数据学习模式，预测新数据并比较误差判断异常；2.实现步骤包括：数据准备与预处理（标准化、滑动窗口生成序列）、构建LSTM模型（LSTM层+Dense层）、预测与误差计算（MSE或MAE）、设定异常阈值（如99%分位数）；3.LSTM优势在于捕捉时序依赖性、处理非线性模式、适应无监督学习场景；4.数据预处理关键步骤包括清洗、缺失值处理、标准化、序列化及训练测试集划分；5.设定阈值的最佳实践包括基于误差分布统计、可视化辅助、结合业务知识，并通过调整阈值平衡误报与漏报。

Python中如何实现基于LSTM的异常检测？循环神经网络

在Python中实现基于LSTM的异常检测，核心思路是利用LSTM对时序数据的预测能力。我们通常会用正常数据训练LSTM模型，让它学习数据的内在模式和时序依赖性。当有新的数据进来时，模型会尝试预测下一个时间点的值，如果实际值与模型的预测值之间存在显著差异（即预测误差很大），那么这个数据点就很可能是异常。这个过程，在我看来，就像是让一个经验丰富的“老手”去判断新来的事物是否符合常规，不符合的，自然就值得我们多看一眼。

解决方案

要实现基于LSTM的异常检测，我们通常会遵循以下步骤：

数据准备与预处理： 这是任何机器学习任务的基石，对于时序数据尤为关键。你需要将原始数据转换为LSTM模型能够理解的序列格式。这通常涉及数据的标准化（例如，Min-Max Scaling或Z-score标准化），以及通过滑动窗口技术将一维时间序列数据转换成多维的序列样本（例如，[t-n, ..., t-1]作为输入，预测t）。

import numpy as np
import pandas as pd
from sklearn.preprocessing import MinMaxScaler
from tensorflow.keras.models import Sequential
from tensorflow.keras.layers import LSTM, Dense, Dropout
from tensorflow.keras.callbacks import EarlyStopping

# 假设 df 是你的时间序列数据，只有一列 'value'
# data = df['value'].values.reshape(-1, 1)

# 示例数据生成
np.random.seed(42)
data = np.sin(np.linspace(0, 100, 1000)) + np.random.randn(1000) * 0.1
# 插入一些异常
data[200:205] += 5
data[700:702] -= 8
data = data.reshape(-1, 1)

scaler = MinMaxScaler(feature_range=(0, 1))
scaled_data = scaler.fit_transform(data)

# 创建序列函数
def create_sequences(data, seq_length):
    xs, ys = [], []
    for i in range(len(data) - seq_length):
        x = data[i:(i + seq_length)]
        y = data[i + seq_length]
        xs.append(x)
        ys.append(y)
    return np.array(xs), np.array(ys)

SEQ_LENGTH = 50 # 序列长度，可以根据数据特性调整
X, y = create_sequences(scaled_data, SEQ_LENGTH)

# 训练集通常只包含“正常”数据
# 这里我们简单地取前80%作为训练集，后20%作为测试集（可能包含异常）
train_size = int(len(X) * 0.8)
X_train, y_train = X[:train_size], y[:train_size]
X_test, y_test = X[train_size:], y[train_size:]

构建LSTM模型： 使用Keras或TensorFlow构建一个序列到序列或序列到单值的LSTM模型。一个常见的结构是LSTM层后面接一个或多个Dense层。模型的输入形状需要匹配你创建的序列数据 (样本数, 序列长度, 特征数)。

# 构建LSTM模型
model = Sequential([
    LSTM(units=128, activation='relu', input_shape=(X_train.shape[1], X_train.shape[2]), return_sequences=True),
    Dropout(0.2),
    LSTM(units=64, activation='relu', return_sequences=False),
    Dropout(0.2),
    Dense(units=X_train.shape[2]) # 输出维度与输入特征维度一致
])

model.compile(optimizer='adam', loss='mse')

# 设定早停，防止过拟合
early_stopping = EarlyStopping(monitor='val_loss', patience=10, restore_best_weights=True)

# 训练模型，只用正常数据训练
history = model.fit(X_train, y_train,
                    epochs=100,
                    batch_size=32,
                    validation_split=0.1, # 从训练数据中划分一部分用于验证
                    callbacks=[early_stopping],
                    verbose=1)

预测与误差计算： 模型训练完成后，用它来对包括潜在异常的整个数据集（或新的数据流）进行预测。然后，计算实际值与模型预测值之间的误差。常用的误差指标有均方误差（MSE）或平均绝对误差（MAE）。

# 对所有数据进行预测
X_all, y_all = create_sequences(scaled_data, SEQ_LENGTH) # 重新生成所有数据的序列
predictions = model.predict(X_all)

# 计算重构误差 (这里是预测误差)
# 预测值和真实值都是归一化后的
mse_errors = np.mean(np.square(y_all - predictions), axis=1)

# 将误差映射回原始数据点
# 注意：这里的误差对应的是序列的最后一个点，所以需要对齐
# 简化的对齐方式：将误差与原始数据的对应点关联
# 实际应用中，需要更精细地处理序列长度带来的数据点对齐问题
# 这里我们让误差数组的长度与原始数据点数相同，前面填充NaN
full_errors = np.full(len(data), np.nan)
full_errors[SEQ_LENGTH:] = mse_errors

设定异常阈值： 根据训练数据（正常数据）的预测误差分布，设定一个阈值。超过这个阈值的误差，我们就将其标记为异常。这个阈值的选择很关键，它直接影响到误报率和漏报率。

# 仅使用训练数据部分的误差来确定阈值
train_errors = mse_errors[:len(X_train)]

# 设定阈值：例如，取训练误差的99%分位数
threshold = np.percentile(train_errors, 99)
print(f"设定的异常阈值: {threshold:.4f}")

# 识别异常点
anomalies = full_errors > threshold

# 将异常点在原始数据上标记出来
# original_data_with_anomalies = data.copy()
# for i, is_anomaly in enumerate(anomalies):
#     if is_anomaly and not np.isnan(full_errors[i]):
#         print(f"数据点 {i} 可能是异常: 误差 {full_errors[i]:.4f}")

为什么选择LSTM进行异常检测？它比其他方法有何优势？

在我看来，选择LSTM进行异常检测，最核心的原因在于它处理时序数据的“天赋”。我们面对的很多异常，并非仅仅是某个点的值偏离了常规，更多的是它所处的序列上下文出现了不寻常的模式。比如，一个传感器数据突然在几分钟内急剧下降，这在单点检测中可能被忽略（因为绝对值还在正常范围内），但LSTM能捕捉到这种“下降趋势”的异常。

相比其他方法，LSTM的优势体现在几个方面：

捕捉时序依赖性： 这是LSTM的看家本领。它能够学习数据点之间的长期和短期依赖关系，而这是传统统计方法（如ARIMA）或一些非序列机器学习模型（如Isolation Forest、One-Class SVM）难以直接做到的。后者通常需要大量的手动特征工程来提取时序特征，而LSTM能自动完成。
处理非线性模式： 现实世界的数据往往是非线性的，LSTM作为深度学习模型，天生就能学习并建模复杂的非线性关系，这比线性模型更具优势。
无监督或半监督学习： 在异常检测场景下，我们通常只有“正常”数据，异常数据非常稀少或根本没有标签。LSTM可以通过学习正常数据的模式，利用重构误差来识别异常，这完美契合了这种无监督或半监督的特性。Autoencoder也有类似能力，但LSTM在处理时序数据的记忆力上更胜一筹。
适应性强： 只要数据有时间序列的特性，LSTM就能派上用场，无论是网络流量、服务器日志、传感器读数还是金融交易数据。

当然，它也不是万能的，训练时间长、对数据量有要求是其固有挑战。但对于那些需要深入理解时间上下文的异常，LSTM无疑是一个强有力的工具。

如何有效地准备数据以供LSTM模型使用？数据预处理的关键步骤是什么？

数据预处理，说实话，是机器学习项目里最费时间也最容易出错的环节，但它又决定了模型性能的上限。对于LSTM，这尤为如此，因为它的输入格式是序列化的。

数据清洗与缺失值处理：
- 异常值初步剔除/平滑： 在训练模型前，如果数据中已经存在明显的、已知类型的异常值，可以考虑先进行初步处理（例如，替换为均值、中位数或使用插值法），以避免它们干扰模型对“正常”模式的学习。但要注意，不要把潜在的真实异常也“洗掉”了。
- 缺失值填充： 时序数据中缺失值很常见。你可以选择前向填充（ffill）、后向填充（bfill）、线性插值或基于更复杂模型（如KNN、均值/中位数）进行填充。选择哪种方法取决于你的数据特性和缺失模式。我个人倾向于线性插值或更复杂的模型，因为它们更能保持数据的连续性。
数据标准化/归一化：
- 为什么需要： LSTM，以及大多数神经网络，对输入数据的尺度非常敏感。不同特征之间的量纲差异过大，会导致训练过程不稳定，收敛速度慢，甚至无法收敛。
- 方法： 最常用的是MinMaxScaler（将数据缩放到[0, 1]或[-1, 1]区间）和StandardScaler（将数据转换为均值为0，标准差为1的正态分布）。对于异常检测，如果你的数据分布偏斜严重，RobustScaler（使用中位数和四分位数范围）可能更稳健，因为它不易受极端值影响。我通常会先尝试MinMaxScaler，因为它能把数据压缩到固定范围，对LSTM的激活函数比较友好。
序列化（滑动窗口）：
- 核心操作： 这是将一维时间序列转换为LSTM所需的多维输入（[samples, timesteps, features]）的关键。通过定义一个“滑动窗口”大小（即seq_length或timesteps），我们将连续的数据点组合成一个序列作为模型的输入，并通常将序列的下一个点作为模型的预测目标。
- 举例： 如果seq_length是10，那么[t-9, t-8, ..., t-1]会作为输入，模型预测t。窗口会沿着时间轴滑动，生成下一个序列[t-8, ..., t]预测t+1。这个窗口大小的选择很重要，它决定了LSTM能够“记忆”多长时间的历史信息。太短可能无法捕捉长期依赖，太长则会增加计算负担并可能引入不必要的噪声。通常需要根据数据的周期性、事件持续时间等进行实验性选择。
训练集与测试集划分：
- 关键原则： 在异常检测中，训练集应该只包含“正常”数据。如果训练集中混入了大量异常，模型就会把异常当成正常模式来学习，导致检测效果不佳。
- 划分方式： 你可以简单地将数据按时间顺序划分，例如，前80%作为训练集（假设这段时间数据是正常的），后20%作为测试集（其中可能包含异常）。更严谨的做法是，确保训练集的数据是经过人工确认的正常数据。

这些步骤听起来可能有点繁琐，但它们是构建一个鲁棒的LSTM异常检测系统的基石。忽视其中任何一步，都可能导致模型表现不佳，甚至得出误导性的结论。

设定异常阈值的最佳实践有哪些？如何避免误报和漏报？

设定异常阈值，这活儿其实是个艺术活儿，不像模型训练那样有明确的数学公式。它直接关系到你对“异常”的定义有多宽容或多严格，也就是我们常说的误报（False Positives）和漏报（False Negatives）之间的平衡。

基于训练误差分布统计：
- 最常见方法： 在我们只用正常数据训练模型后，我们可以用这些正常数据去预测，并计算它们的预测误差（MAE或MSE）。这些误差应该会比较小。然后，我们可以分析这些误差的分布。
- 百分位数法： 这是我个人最常用的。例如，取训练误差的95%或99%分位数作为阈值。这意味着只有当新数据的预测误差大于95%（或99%）的正常误差时，才会被标记为异常。这个百分比的选择，很大程度上取决于你对误报和漏报的容忍度。
- 均值+标准差法： 计算训练误差的均值和标准差，然后设定阈值为均值 + k * 标准差。这里的k是一个乘数，通常取2或3。这假设误差服从正态分布，但实际中可能不总是如此。
- IQR法： 基于四分位数间距（IQR）。阈值可以设为Q3 + 1.5 * IQR，这在处理偏态分布的误差时可能更稳健。
可视化辅助决策：
- 将训练误差的分布绘制出来（例如，直方图或核密度估计图）。你可以在图上直观地尝试不同的阈值，看看它们会如何切割误差分布，从而初步判断哪些误差值看起来更像是异常。
- 同时绘制原始数据和标记的异常点。这能让你直观地看到被标记为异常的点在时间序列中的位置，以及它们是否真的看起来“不正常”。这对于初期调试和理解模型行为非常有帮助。
结合业务知识和领域专家意见：
- 这是最关键的一点。一个纯粹统计学上的“异常”可能在业务上毫无意义，或者一个看似不大的波动却预示着严重的系统故障。
- 与领域专家沟通，了解他们对“异常”的定义、历史上的异常事件的特征以及他们对误报和漏报的容忍度。例如，在一个关键的工业控制系统中，漏报一个潜在故障的代价可能远远高于误报几次。
- 阈值可能需要迭代调整。你可能需要先设定一个初步阈值，观察一段时间的检测结果，然后根据实际反馈（有多少是真异常，有多少是误报）进行微调。
避免误报和漏报的策略：
- 平衡Precision和Recall： 如果你有少量带标签的异常数据（即使是历史数据），你可以计算模型的精确率（Precision）和召回率（Recall）。
  - 高阈值 → 高Precision，低Recall： 误报少，但可能漏掉一些真实异常。
  - 低阈值 → 低Precision，高Recall： 能捕捉更多异常，但误报也会增多。
  - F1-Score： 如果你希望同时兼顾两者，F1-Score是一个不错的综合指标。
- 引入多模态检测： 不要只依赖单一指标。除了预测误差，你还可以结合其他特征（如数据的变化率、偏度、峰度等）来共同判断。
- 异常得分而非二元分类： 有时候，输出一个“异常得分”比直接输出“是/否异常”更有用。这样，用户可以根据自己的需求动态调整决策点。
- 动态阈值： 对于数据模式会随时间变化的场景，固定阈值可能不够用。你可以考虑实现动态阈值，例如，每隔一段时间重新计算一次正常误差的分布，并更新阈值。

总之，阈值设定不是一蹴而就的，它是一个需要不断观察、评估和调整的过程，是技术与实际业务需求相结合的体现。

本文转载于：互联网如有侵犯，请联系zhengruancom@outlook.com删除。
免责声明：正软商城发布此文仅为传递信息，不代表正软商城认同其观点或证实其描述。

上一篇：B站动态屏蔽关键词设置方法

下一篇：微信如何@所有人？微信群@所有人方法

产品推荐

售后无忧
立即购买>

DAEMON Tools Lite 10【序列号终身授权 + 中文版 + Win】

￥150.00
office旗舰店
售后无忧
立即购买>

DAEMON Tools Ultra 5【序列号终身授权 + 中文版 + Win】

￥198.00
office旗舰店
售后无忧
立即购买>

DAEMON Tools Pro 8【序列号终身授权 + 中文版 + Win】

￥189.00
office旗舰店
售后无忧
立即购买>

CorelDRAW X8 简体中文【标准版 + Win】

￥1788.00
office旗舰店

正版软件

讯飞输入法怎么用?讯飞输入法使用技巧教程

讯飞输入法的好多功能都不知道怎么用？只会切换9键、26键、手写等功能？那其实你错过了很多使用小技巧，只要你学会这些技巧，不止可以带你玩转讯飞输入法，还能有效提高你的打字速度、聊天话术、DIY漂亮话、自制表情包、发颜表情等，轻松体验更多有趣有意思的小玩法，让输入变得既高效又有趣！

33分钟前 0
正版软件

小青账如何隐藏默认账本?小青账隐藏默认账本教程

小青账如何隐藏默认账本？小青账是一款非常实用且强大的记账软件，为广大用户提供了方便的记账功能。不少用户对如何隐藏默认账本感到困惑，下面小编将介绍小青账隐藏默认账本的操作方法。还不知道的小伙伴快来看看吧！

昨天 03-22 13:05 0
正版软件

如何使用讯飞星火生成ppt?利用讯飞星火AI生成高质量ppt教程

讯飞星火怎么生成高质量ppt？你是否曾经在深夜里为第二天的工作汇报而焦头烂额，翻遍互联网寻找灵感和模板，又或者因为繁琐的排版和设计而感到力不从心？现在，有了讯飞星火AI生成PPT，你的所有烦恼都将一扫而光！

昨天 03-22 12:52 0
正版软件

搜狐视频怎么投屏到电视播放?搜狐视频app电视投屏方法教程

搜狐视频怎么投屏到电视播放？有时候我们在看电视的时候会觉得怕屏幕不够大，看的不大清楚，这时候就会想如果有个大屏幕就好了，今天小编教你们如何用搜狐视频投屏到电视上，彻底的解放双手。搜狐视频app电视投屏教程1、首先打开搜狐视频app，搜索想看的视频或影视剧2、进入详情页后点击有TV字样的图标3、然后搜索附近的设备连接我们的电视4、当电视上出现了手机正在播放的

昨天 03-22 12:38 0
正版软件

豆瓣怎么设置主页不可见?豆瓣设置隐私主页教程

豆瓣怎么设置主页不可见？大家在使用豆瓣的时候，经常会在主页发布自己的心情状态、吐槽等等内容，然后其他用户进我们的主页的时候就能很轻松的看到我们发过的内容，那么我们能不能设置主页的隐私呢？要怎么设置呢？下面小编就为大家介绍一下豆瓣个人主页设置隐私的办法。

前天 03-22 10:50 0