什么是 AI 异常检测?

Michael Chen | 高级撰稿人 | 2025 年 6 月 26 日

异常检测旨在发现数据中的反常现象。然而,在今天,随着企业从越来越多的位置收集越来越丰富的信息,识别数据中偏离常态的异常可能会变成一件非常困难的事情。这时候,AI 上场了!如今,企业可以快速扫描大规模数据集,查找偏离常态的数据模式,识别异常。AI 驱动的异常检测在识别财务欺诈、特定医疗状况及网络入侵等诸多应用场景中均具有实用价值。

什么是 AI 异常检测?

AI 异常检测是指人工智能 (AI) 模型审查数据集、识别潜在偏离基线(代表正常行为,可作为对比参考点)的异常值的一个过程。其中,数据集基线是在 AI 模型训练过程中,在综合了历史数据、行业预期、项目目标的基础上确定的。

关于异常检测,传统数据分析方法在某些情况下也能胜任,只不过需要手动设置相关规则。这类规则是静态的且覆盖范围有限,会滋生一系列问题。对此,AI 异常检测赖以运行的 AI 模型可通过持续演进和调整予以解决。此外,AI 异常检测还适用于无基线数据的场景 — 当系统处理半监督和无监督数据时。

异常检测既适用于行业特定应用,也适用于运营场景,例如信用卡交易分析、安全日志分析和生产数据分析。如今,随着各种企业和组织转向 多云环境和生成式 AI,AI 异常检测的价值愈发突出。例如,当一个 IT 部门使用多云技术时,面对多云环境的原生复杂性(例如多层和多种类型的安全协议、多种配置,以及旨在提供互操作性的自定义 API),AI 模型能够有效简化并增强问题检测过程。

关键要点

  • AI 可以提高异常检测的速度、准确性和适用性。
  • 传统的基于规则的异常检测方法需要频繁更新规则,而 AI 异常检测可以自动化适应新模式和新趋势。
  • 当使用合成数据训练 GenAI 模型时,企业可通过 AI 异常检测识别异常值,为进一步的合成数据集指明方向。
  • AI 异常检测还有助于验证(用于训练用途的)合成数据集。

AI 异常检测详解

异常检测起源于统计学,尤其是 20 世纪早期制造业应用中的统计学。起初,密码员使用手动异常检测方法,通过观测字母或符号中的异常模式或偏离预期统计分布的异常来破解密码。随后,随着数据越来越丰富,计算机驱动的异常检测流行开来,成为了欺诈检测、库存管理和质量控制等领域的一项标准实践。

如今,AI 异常检测的到来,驱动异常检测从静态统计规则时期迈入了更灵活的 AI 模型(可在经过适当训练后创建数据“常态”基线)阶段。通过使用数据训练 AI 模型,AI 模型可以更精准、更优化地界定符合预期的数据常态 — 训练数据越丰富,结果越准确。这使其能够更好地反映一项应用的各个方面,尤其是在复杂使用场景下,例如监视会生成大量数据且数据点间可能存在隐晦关系的 IoT 设备和系统。

生成式 AI 进一步展示了 AI 异常检测将如何赋能一系列项目和服务。几乎所有 GenAI 项目都离不开数据采集、存储和处理领域的重大突破。具体到异常检测,传统的基于规则的检测方法虽然依旧适用,但通常缺乏足够的精度和细粒度来洁净地处理大规模数据。由此,AI 异常检测凸显了其必要性,它将在训练数据源的数据转换和归一化,在识别异常值和捕捉数据偏差,甚至在生成用于算法训练的合成数据方面发挥不可或缺的重要作用。

AI 异常检测的工作原理

AI 异常检测过程与所有 AI 模型的工作过程高度相似,都包括数据寻源、训练和迭代。它与其他 AI 模型工作过程的主要区别体现在目标上,例如 AI 异常检测专注于识别异常值。以下是 AI 异常检测的一般步骤:

  1. 采集和预处理数据:与其他 AI 项目一样,所有 AI 异常检测项目都必然存在一个项目方向。首先,需明确该项目的整体目标:数据的正常状态是什么?待考量数据的范围又是什么?然后,各团队应界定用于训练的数据源,构建用于收集和进行数据分类(哪些是正常记录和哪些是异常记录)的信息库。企业和组织可通过在训练数据源和训练信息库之间构建自动化的数据转换工作流来简化这一过程。
  2. 选择算法:除项目总体目标外,各团队还可以基于更精细的项目目标和约束条件来选择数据特征,识别数据属性,选择适合项目场景的理想算法。统计算法(回归)、聚类算法 (K-means) 和神经网络算法尤其适合 AI 异常检测。总体而言,应用于 AI 异常检测的所有算法都意在对数据记录分类,而理想算法一般都使用神经网络,通过更高级方式完成这一工作。例如,它们可能将财务交易记录按账户分为“正常”和“高价值”两类,然后进一步按位置分为“预期位置”和“新位置”两类,再进一步细分为“正常支出”和“异常支出”两类。当一笔交易同时表现出两种异常状态时,它就涉嫌欺诈。同时表现出三种异常状态时,则大概率属于欺诈交易。经过适当训练,AI 算法可跨众多分类执行这种分析工作,应用权重来判断是否需要做进一步核查。
  3. 训练和选择模型:完成以上操作后,各团队就可以启动模型训练了,具体步骤包括建立架构、选择基础模型、准备训练数据和使用训练数据训练模型。随后,各团队可使用另一数据集来测试训练后的模型,衡量其在异常检测上的表现。如表现不佳,须进一步训练,直至模型满足预期要求。某些情况下,模型还可以基于真实数据持续学习,提升性能 — 这取决于底层算法。
  4. 实时或批次处理检测:按照应用需求,AI 异常检测的工作方式分为实时处理和批次处理两种。其中,实时检测可能会消耗大量的专用计算和处理资源。它可以快速输出结果,但在洞察价值和详细程度上可能逊于受控批次检测。换言之,实时检测以牺牲细微异常的检测能力为代价来换取检测速度。

AI 异常检测的优势

相比传统基于规则的异常检测方法,AI 异常检测无疑是一次巨大进步和飞跃。它赖以运行的 AI 系统虽然需要更强大的计算基础设施做后盾,但通常表现也更出色。以下是 AI 异常检测的一些常见优势:

  • 更高准确性和更高精度:经过适当训练后,神经网络可基于训练数据开发出数千个类别或簇,洞悉簇中成员资格如何指示相互关联的数据,进而识别人工编写规则无法识别的数据异常。此外,这类模型还可以查找更细微的异常,能够基于适当的上下文做出判断。所有这些都有助于构建一个更准确的检测流程。
  • 可扩展性:AI 模型和基于规则的系统都可以处理大型数据集,但 AI 模型还能处理更复杂的数据集。如今,适用于超大型、超复杂数据集的算法会为每条复杂记录创建向量表示,然后通过相似度搜索来查找最近邻。如果一条记录的向量表示的最近邻位于已知包含欺诈记录的簇中,则其大概率为欺诈记录。这一方法可自由扩展,满足包含数十亿条记录且每条记录都包含复杂数据的数据集的需要。
  • 实时监视功能:上述可扩展性方法还能驱动 AI 异常检测系统实时运行。换言之,AI 异常检测系统能够非常快速地运行相似度搜索 — 即使在复杂数据场景下。
  • 更出色的新模式适应性:可创建数据记录簇的算法能够查找新的记录簇,识别潜在的新异常。此外,这些新簇中除了潜藏着新异常,还可能潜藏着模式变化。例如,当一家门店的一项产品在社交媒体上爆火时,数据中就会出现一个新簇。这种情况下,异常是良性的,门店/生产商可以通过分析背后原因来再造一个爆款。当热度消退时,新簇将不再增长,门店/生产商同样可以挖掘数据来捕获洞察。
  • 更少假阳性:如上例所示,记录漂移对企业而言可能是良性的,但静态规则可能会将上例中的“爆火”归类为欺诈。相比之下,AI 系统通常能以更精细的方式审查数据,减少这种分类错误。

AI 异常检测中的关键技术

与其他 AI 开发项目一样,AI 异常检测模型遵循一些通用步骤和规则,但根据具体用途,不同模型可能采用不同的方法。AI 异常检测使用的关键技术包括:

  1. 监督或无监督学习:各团队需要按照 AI 异常检测项目的需求来选择监督学习还是无监督学习。这两种方法都适用。不过,考虑到数据集中的带标注异常通常较为稀少,数据标注过程可能耗费大量时间和成本。因此,大多数情况下无监督学习由于速度更快且成本更低成为了人们的优选。选择无监督学习,可以对数据记录聚类,识别异常,但这需要通过进一步训练或编程来判断异常属于良性还是必须予以解决的威胁。
  2. 聚类方法:聚类是指按照重叠特征和其他显著相似度进行数据点分组,是异常检测领域中的一种常见 AI 技术。数据点聚类过程可以捕捉异常值,标记异常。常见聚类算法包括 K 均值 (K-Means)、孤立森林 (Isolation Forest) 和高斯混合模型 (GMM)。如今,向量表示越来越多地应用于复杂或高维记录。可创建和处理向量的多模态数据库可以促进针对复杂数据的异常检测。
  3. 神经网络:神经网络可以识别复杂模式和分析非线性关系,有助于查找异常。在 AI 异常检测上,一些神经网络采用自编码器架构,可在重构阶段检测异常;一些则采用生成对抗网络 (GAN) 架构,可使用生成器/判别器模型,通过判别器来识别异常值。
  4. 时间序列异常检测技术:以上技术都适用于随时间发展而记录的数据,但要想选出适当技术,还要考虑资源、目标、数据点以及其他因素。例如,聚类算法可以评估信用卡交易数据,通过数据分组(按地理位置、购买类别和成本)来识别欺诈。而对于复杂生产设备,神经网络可以观测输出精度与使用周期之间的关系。通过评估各种监控指标间关系,识别那些代表着可能需提前开展维护工作的数据点组合。

AI 异常检测的使用场景

AI 异常检测适用于广泛的应用和行业。在使用 AI 异常检测时,企业需要考虑许多问题,包括是否要使用内部或外部数据(或同时使用这两者),以及是否需要实时检测异常。

AI 异常检测的常见用例包括:

  • 网络安全:对于全面、持续地监视企业 IT,异常检测可以识别可能代表网络攻击的信号。在多云配置下,AI 异常检测能够有效帮助 IT 团队解决一些重叠系统和配置带来的问题。对于多云设置,AI 可自动监视各个云环境运营过程中(依赖专业知识的)IT 操作的详细信息。
  • 金融:欺诈检测是异常检测领域中历史最悠久的使用场景之一。随着金融数据规模的增长,AI 能够为欺诈检测注入强劲动力。使用 AI 异常检测,金融机构可以充分利用大型数据集,获得更准确的模型。同时,随着金融诈骗者不断开发新技术,AI 模型能够持续演进,通过更广泛的上下文来更好地检测新模式。
  • 医疗卫生:AI 可以分析医院数据来识别那些代表效率低下、设施利用率不足或欺诈的潜在异常。
  • IT 运营:随着企业 IT 越来越复杂,网络监视范围越来越广泛,AI 异常检测能够为人类专家提供强大支持,尽可能减少“警报疲劳”。例如,AI 可以分析应用日志来识别可能代表性能退化(例如响应速度下降和错误)的异常。
  • 制造业:制造业 AI 异常检测系统可以评估规模显著增长的数据点,持续查找和解决潜在问题,提前规避代价高昂的停机、缺陷或安全风险。例如,设备温度异常波动可以提醒企业可能存在过热问题,AI 摄像头可以在向客户发货前检测产品缺陷。
  • 市政管理和工程建设:异常检测能够为所有需要监视基础设施的用户和机构提供强大支持 — 尤其是当使用无人机时。对于市政管理,AI 可以分析所捕获的桥梁、道路和能源线路图像,识别异常,驱动主动式维护。同样,搭载了 AI 异常检测功能的无人机可以监视工程建设项目的进度、识别安全风险(例如设备缺失或物料放置错误)、检测在建建筑的结构性缺陷。

使用 Oracle Cloud AI 服务进行异常检测

基于 Oracle Cloud Infrastructure (OCI) 的 AI 服务提供了一个全面的预构建工具、模型和特性套件,支持将 AI 技术(包括特定于各种异常检测方案的特性)集成到各种应用和工作流。使用 OCI,企业和组织可以在一系列行业和使用场景中融入 AI 的学习能力和适应性。

考虑到各行各业不断增长的数据规模和数据复杂性,以及主动识别欺诈和其他问题的现实需求,AI 异常检测的未来前景十分广阔。未来,我们有望目睹更多高级 AI 模型不断涌现出来,包括深度学习和无监督技术。它们无需访问广泛的带标注数据就能检测细微异常,将在异常检测过程中发挥更重要的核心作用。当下,很多企业和组织也正在积极增强实时分析能力,优化 AI 与现有系统的集成,在边缘位置部署异常检测。

了解 OCI Anomaly Detection 服务的实际应用

OCI Anomaly Detection AI 服务简介 (6:15)

强大的 AI 服务可为您赋予各种重要优势,例如从您组织的数据中检测异常,自动化处理复杂工作,提高安全性,显著提升工作效率,等等。了解更多信息。

AI 异常检测常见问题解答

AI 异常检测与传统方法有何区别?

传统的异常检测方法依赖各团队来设置规则和数据阈值。虽然这能够检测异常,但却存在很大的局限性,例如无法适应持续不断的行业变化,还可能忽视非线性关系。AI 异常检测则具有更高的数据变化适应性,可以处理更多类型的数据。

企业应如何判断是否需要使用 AI 异常检测?

相比传统的异常检测方法,AI 异常检测通常更强大、更准确且速度更快,对很多企业和组织来说是一个强大的业务工具。然而,传统的异常检测方法仍有其用武之地。要想判断哪种方法适合自己,企业应考虑数据的复杂性、监管要求的严苛程度以及安全风险。此外,可用资源也是一个重要因素。例如,企业是否能在采购和优化预训练模型上提供充足的支持,是否拥有所需计算和数据资源。云技术是最佳选择吗?很多情况下,云技术可提供出色的成本效益。

AI 异常检测的基本步骤是什么?

AI 异常检测的基本步骤包括:

  • 定义目标,界定数据源,识别限制条件
  • 选择适当的 AI 算法
  • 训练、准备和调优 AI 模型 — 无论是预训练的 AI 模型还是企业内部开发的 AI 模型
  • 对真实数据应用 AI 模型,持续监视 AI 模型的输出结果
  • 评估结果,判断是否能发现意料之外的趋势

注:为免疑义,本网页所用以下术语专指以下含义:

  1. 除Oracle隐私政策外,本网站中提及的“Oracle”专指Oracle境外公司而非甲骨文中国 。
  2. 相关Cloud或云术语均指代Oracle境外公司提供的云技术或其解决方案。