Python实现SVM单类异常检测方法

　　发布于2025-08-21　阅读（0）

扫一扫，手机访问

One-Class SVM通过仅学习正常数据的边界来识别异常。步骤包括：1. 生成正常与异常模拟数据并标准化；2. 使用OneClassSVM模型训练，设置nu和kernel参数；3. 对数据进行预测并计算决策分数；4. 可视化结果并评估模型性能。适用场景如质量控制、网络入侵检测等，调参时nu控制异常比例，gamma影响边界复杂度，评估依赖专家判断或少量标签。

如何用Python实现基于SVM的异常检测？单类分类器

用Python实现基于One-Class SVM的异常检测，核心在于利用scikit-learn库中的OneClassSVM模型。它不像传统分类器那样需要正负样本，而是通过学习“正常”数据的分布边界，将偏离这个边界的数据点识别为异常。这在只有正常数据可用，或异常样本极其稀少且难以获取时，显得尤为实用。

解决方案

import numpy as np
import matplotlib.pyplot as plt
from sklearn.svm import OneClassSVM
from sklearn.preprocessing import StandardScaler
from sklearn.datasets import make_blobs

# 1. 生成模拟数据：正常数据和少量异常数据
# 模拟正常数据（一个紧密的集群）
X_normal, _ = make_blobs(n_samples=300, centers=[[0, 0]], cluster_std=0.5, random_state=42)

# 模拟异常数据（远离正常集群的点）
X_outliers, _ = make_blobs(n_samples=30, centers=[[3, 3], [-2, -2]], cluster_std=0.8, random_state=42)

# 将正常数据和异常数据合并，但训练时只用“正常”数据
X_combined = np.vstack([X_normal, X_outliers])

# 为了One-Class SVM更好地工作，通常需要对数据进行标准化
scaler = StandardScaler()
X_scaled = scaler.fit_transform(X_combined)

# 2. 初始化并训练One-Class SVM模型
# nu: 控制异常值比例的参数，这里假设我们期望有0.05（5%）的异常值。
# kernel: 'rbf'是径向基函数核，适合处理非线性边界。
# gamma: rbf核的参数，控制单个训练样本的影响范围。'auto'会使用1 / n_features。
model = OneClassSVM(nu=0.05, kernel="rbf", gamma='auto')

# 注意：One-Class SVM通常只在“正常”数据上进行训练
# 这里我们用X_normal_scaled来训练，模拟只有正常数据可用的情况
X_normal_scaled = scaler.fit_transform(X_normal)
model.fit(X_normal_scaled)

# 3. 对所有数据进行预测
# decision_function返回每个样本到超平面的有符号距离
# 距离越小（负值越大），越可能是异常
y_pred = model.predict(X_scaled)
scores = model.decision_function(X_scaled)

# 4. 结果可视化
# 识别出被模型标记为异常的点（y_pred = -1）
# 正常点（y_pred = 1）
anomalies = X_combined[y_pred == -1]
normals = X_combined[y_pred == 1]

plt.figure(figsize=(10, 7))
plt.scatter(normals[:, 0], normals[:, 1], c='blue', marker='o', s=50, label='正常数据 (模型判断)')
plt.scatter(anomalies[:, 0], anomalies[:, 1], c='red', marker='x', s=100, label='异常数据 (模型判断)')
plt.title('One-Class SVM 异常检测结果')
plt.xlabel('特征1')
plt.ylabel('特征2')
plt.legend()
plt.grid(True)
plt.show()

print(f"模型识别出的异常点数量: {np.sum(y_pred == -1)}")
print(f"模型识别出的正常点数量: {np.sum(y_pred == 1)}")

理解One-Class SVM的工作原理及其适用场景

One-Class SVM，顾名思义，它只关注一类数据——我们认为是“正常”的数据。它的核心思想是在一个高维特征空间中，找到一个最优的超平面，将所有正常数据点尽可能地包含在一个区域内，同时将这个区域与原点（或数据转换后的原点）分开。简单来说，它学习的是正常数据的“轮廓”或“边界”，任何落在边界之外的点，或者说，在边界内部但离边界很近的点，都有可能被标记为异常。

这和我们熟悉的二分类SVM有本质区别。二分类SVM需要正负两类样本来划定一个决策边界，将它们分开。而One-Class SVM通常在只有“正常”样本的情况下训练，它不需要知道异常样本长什么样。这使得它在很多实际场景中非常有用，比如：

工业生产中的质量控制： 生产线上的产品绝大多数都是合格的，只有极少数是不合格品。我们有大量的正常产品数据，但很少甚至没有不合格品的样本。
网络入侵检测： 大部分网络流量是正常的，异常攻击流量相对稀少。我们很难收集到所有类型的攻击样本。
金融欺诈检测： 绝大多数交易是合法的，欺诈交易是少数。
系统日志异常监控： 正常运行的系统日志模式相对稳定，偏离这些模式的日志可能预示着问题。

它的优势在于能够处理高维数据，并且通过核函数（如RBF）可以捕捉非线性的复杂边界。但它也有其局限性，比如对参数nu和gamma的敏感性，以及在异常模式与正常模式界限模糊时可能表现不佳。毕竟，它没有见过“坏人”长什么样，只能通过“好人”的共同特征来推断。

One-Class SVM在实际应用中的参数选择与调优技巧

One-Class SVM的性能很大程度上取决于其核心参数的设置，尤其是nu和gamma（对于RBF核）。这就像是给一个不识字的人画一张地图，你得告诉他“正常”区域大概有多大，以及边界应该画得有多精细。

nu参数： 这个参数是One-Class SVM最关键的。它有两个含义：

它是训练错误（即模型将训练数据中的正常点错误地判断为异常）的上限比例。
它也是支持向量（即决定决策边界的那些点）的下限比例。 nu的取值范围是(0, 1]。

如何选择？ 这是一个经验值，通常需要根据你对数据中异常值比例的先验知识来设定。比如，如果你认为数据集中大约有5%的异常值，那么可以尝试将nu设置为0.05。如果设置得太小，模型可能会过于宽松，导致漏报（假阴性）；如果设置得太大，模型可能会过于严格，导致误报（假阳性）。在没有先验知识的情况下，可以尝试在0.01到0.1之间进行网格搜索或随机搜索。

kernel参数：

rbf (Radial Basis Function)： 这是最常用的核函数，因为它能够处理非线性边界，非常灵活。在大多数情况下，如果你不确定数据的分布形态，rbf是一个很好的起点。
linear： 如果你确信正常数据点可以用一个线性边界与异常点分离，或者数据维度非常高且数据量大时，可以考虑使用线性核。
poly (Polynomial) 和 sigmoid： 这些核函数在某些特定场景下有用，但通常不如rbf通用，且参数调优更复杂。

gamma参数（仅适用于rbf, poly, sigmoid核）：gamma定义了单个训练样本的影响范围。

gamma值越大： 影响范围越小，模型会更关注单个数据点的局部特征，导致决策边界更复杂、更“锯齿状”，容易过拟合。这就像是用非常精细的笔触去描绘边界，可能会把一些噪声也当作特征。
gamma值越小： 影响范围越大，模型会考虑更广阔的区域，决策边界更平滑、更通用，可能欠拟合。这就像是用粗犷的笔触去描绘边界，可能会忽略一些细节。
如何选择？ gamma通常与nu一起进行网格搜索或随机搜索。'auto'或'scale'是scikit-learn提供的默认策略，它们会根据特征数量或数据方差自动计算一个值，这在初步探索时很有用。但为了获得最佳性能，手动调优是必要的。

调优技巧：

数据预处理： 在将数据输入SVM模型之前，强烈建议进行特征缩放（如StandardScaler），因为SVM是基于距离的算法，特征的尺度差异会严重影响模型性能。
交叉验证（有限制）： 由于One-Class SVM是无监督的，传统的交叉验证（需要标签）难以直接应用。但如果你能获取到少量带标签的异常样本，可以构建一个小的验证集，用F1-score、AUC等指标来评估不同参数组合的性能。
领域知识： 业务专家对异常的定义和容忍度是参数选择的重要依据。例如，如果误报成本很高，你可能需要一个更保守的模型（更小的nu值，更平滑的边界）。
可视化： 对于低维数据，可视化决策边界和异常点是理解参数影响的直观方式。

如何评估One-Class SVM异常检测模型的性能？

评估One-Class SVM模型性能是一个挑战，因为我们通常没有大量的真实异常标签。这不像传统的监督学习，可以直接计算准确率、精确率、召回率等指标。但我们仍然有几种方法来“摸索”模型的表现：

1. 当存在少量已知异常样本时（最理想的情况）： 如果你的数据集中，即使训练时没有用到，但在测试或验证阶段能获取到一部分真实异常样本的标签，那么评估就变得相对容易。

混淆矩阵： 可以计算出真阳性（TP，真正异常且被识别为异常）、假阳性（FP，正常但被误判为异常）、真阴性（TN，真正正常且被识别为正常）、假阴性（FN，真正异常但被漏判为正常）。
精确率 (Precision)： TP / (TP + FP)，衡量模型识别出的异常点中有多少是真正的异常。
召回率 (Recall)： TP / (TP + FN)，衡量所有真正的异常点中有多少被模型成功识别。
F1-Score： 精确率和召回率的调和平均，综合考虑两者的指标。
ROC曲线和AUC值： One-Class SVM会输出一个决策分数（decision_function），可以根据这个分数设置不同的阈值来得到不同的TP/FP率，从而绘制ROC曲线。AUC值越高，模型区分正常与异常的能力越强。

2. 当完全没有已知异常样本时（更常见的情况）： 这才是One-Class SVM的真正用武之地，但评估也更棘手。

领域专家验证： 这是最实用也是最直接的方法。将模型识别出的“异常”数据点提交给业务或领域专家进行人工审核。如果专家认为这些点确实是异常，那么模型就是有效的。这通常是一个迭代过程，模型会不断调整，直到专家满意为止。
基于阈值的评估： One-Class SVM会给每个样本一个决策分数。分数越低（负值越大），表示该样本越“异常”。你可以根据业务需求，设定一个阈值，例如，将分数最低的N%样本标记为异常。然后，通过观察这些被标记为异常的样本的特征，判断它们是否符合对异常的直观认知。
密度或距离分析： 如果你假设异常点是远离正常数据群的，可以计算被识别为异常的点与正常数据集群中心（或其K近邻）的距离。如果距离普遍较大，说明模型可能捕捉到了异常模式。
可视化检查： 对于低维数据（2D或3D），可以将数据点和模型划分的边界可视化出来。通过观察异常点是否确实远离正常数据群，来直观判断模型的合理性。即使是高维数据，也可以通过PCA、t-SNE等降维技术映射到低维空间进行可视化辅助判断。
稳定性分析： 尝试用不同的nu和gamma参数训练模型，观察被识别为异常的点的重叠度。如果不同参数下识别出的核心异常点集合相对稳定，说明这些点很可能是真正的异常。

总的来说，评估One-Class SVM更像是一门艺术，而不是纯粹的科学。它往往需要结合量化指标（如果可能）、领域知识、人工审查以及对数据分布的直观理解。最终目标是构建一个能够有效帮助我们发现潜在问题的工具，而不是一个在所有指标上都“完美”的模型。

本文转载于：互联网如有侵犯，请联系zhengruancom@outlook.com删除。
免责声明：正软商城发布此文仅为传递信息，不代表正软商城认同其观点或证实其描述。

上一篇：墨迹天气 vs 苹果天气哪个更准

下一篇：小米商城官网入口地址一览

产品推荐

售后无忧
立即购买>

DAEMON Tools Lite 10【序列号终身授权 + 中文版 + Win】

￥150.00
office旗舰店
售后无忧
立即购买>

DAEMON Tools Ultra 5【序列号终身授权 + 中文版 + Win】

￥198.00
office旗舰店
售后无忧
立即购买>

DAEMON Tools Pro 8【序列号终身授权 + 中文版 + Win】

￥189.00
office旗舰店
售后无忧
立即购买>

CorelDRAW X8 简体中文【标准版 + Win】

￥1788.00
office旗舰店

正版软件

饿了么app怎么绑定银行卡?饿了么app绑定银行卡方法教程

饿了么app如何绑定银行卡？亲爱的美食家们，有没有在点外卖时因为忘记钱包余额不足而懊恼？有没有因为支付不便而放弃心爱的美食？为了解决您的这些烦恼，小编特别为您准备了这个教程——饿了么app如何绑定银行卡。

4小时前 13:57 0
正版软件

微博怎么查看自己经常访问的人?微博查看频繁访问的人方法教程

微博怎么查看自己经常访问的人？微博是很多小伙伴都在使用的一款社交软件，这个软件功能强大，导致很多功能需要自己去挖掘，很多小伙伴反映想知道要怎么查看频繁访问的人，那么今天小编就来教一教大家查看方法，感兴趣的小伙伴一起来了解一下吧。

5小时前 13:14 0
正版软件

抖音怎么关闭在线状态?抖音关闭在线状态方法教程

抖音怎么关闭在线状态？我们在刷抖音短视频的时候，一些好友之间为了分享有趣的视频通常会互相关注，但互相关注了之后你的在线状态就会在好友那边显示出来，想必很多朋友都会被这个问题所困扰吧，那么怎么关闭抖音在线状态呢，接下来让小编来给大家详细介绍一下吧。

昨天 03-26 12:40 0
正版软件

纷玩岛如何预约抢票?纷玩岛预约抢票方法教程

纷玩岛如何预约抢票？纷玩岛是一款购票软件，用户可通过该app查询歌手演出情况并下单购票。为了避免错过演唱会门票的开票，用户可提前预约，软件会在开票前发送推送通知。但很多小伙伴不知道怎么预约抢票呢？今天小编将给大家带来的是纷玩岛预约抢票的方法，快来看看吧！

昨天 03-26 12:02 0
正版软件

qq怎么改防沉迷实名认证?qq防沉迷实名认证改绑方法教程

qq怎么改绑防沉迷实名认证？随着网络游戏的普及，越来越多的人会使用qq账号来登录游戏，游戏中的防沉迷实名认证系统自然就会与所登录的qq账号绑定在一起，那么想要更改防沉迷实名认证怎么办呢？下面小编就给大家带来了qq防沉迷实名认证改绑方法步骤，希望能对大家有所帮助。

昨天 03-26 11:48 0