异常检测(二)——MVTec AD -A Comprehensive Real-World Dataset for Unsupervised Anomaly Detection

阅读量：4074 次

发布时间：2019-05-25

本文共 1061 字，大约阅读时间需要 3 分钟。

MVTec AD ：一个针对无监督异常检测的全面的真实世界的数据集

摘要：

在计算机视觉领域，自然图像的异常结构检测是十分重要的任务。无监督异常检测方法的发展需要数据来训练和评估新的方法和想法。我们介绍了包含5354张不同对象和纹理类别的高分辨率彩色图像的MVTec异常检测(MVTec AD)数据集。它包含用于训练的图像的正常的，即无缺陷的图像，和用于测试的异常图像。异常表现在超过70种不同类型的缺陷，如划痕，凹痕，污染，和各种结构变化。此外，我们为所有异常提供像素级精确的真值区域（ground-truth)。我们还对当前最先进的基于深度学习的无监督异常检测方法进行了全面评估，如卷积自编码器、生成对抗网络，以及使用预先训练的卷积神经网络和经典计算机视觉方法的特征描述符。这个初始基准表明还有相当大的改进空间。据我们所知，这是第一个全面、多目标、多缺陷的异常检测数据集，提供像素级精确的真实区域，并专注于现实世界的应用。

绪论：

人类非常善于识别一幅图像是否与他们之前观察到的相似，或者它是否是新奇的或异常的。然而，到目前为止，机器学习系统似乎很难完成这些任务。

有许多相关的应用必须依赖于无监督算法来检测异常区域。例如，在制造工业中，光学检测任务经常缺乏缺陷样本，或不清楚会出现哪种缺陷。在主动学习系统中，被识别为异常的结构可能表明需要包括一个特定的图像来进行训练。因此，最近人们对利用现代机器学习结构在自然图像数据中进行新奇检测的兴趣越来越大也就不足为奇了。大量算法被提出来测试网络是否能够检测新的输入数据和训练数据的分布相匹配的。然而，这些算法中的许多都关注于内部分布和离群分布显著不同的分类设置。这通常被称为离群点检测或单类分类。一种常见的评估范式是从现有目标分类数据集中任意标记许多类作为离群类，并且使用余下的类别作为内类。然后测量训练过的算法区分之前没有见过的离群值和内样本有多好。

虽然图像级别上的分类很重要，但目前最先进的方法在我们所谓的异常检测任务如何表现还不清楚。

问题的设定是在与训练数据非常接近的图像中寻找新奇，并且在可能非常小的受限区域中只存在细微的偏差。显然，要为这样或其他具有挑战性的场景开发机器学习模型，我们需要合适的数据。奇怪的是，对于这类场景，缺乏全面的现实世界数据集。

在过去几年里，大规模数据集在计算机视觉的许多领域都取得了令人难以置信的进展。只要想想新分类方法的发展与MNIST[16]、CIFAR10[14]或ImageNet[15]等数据集的引入是多么紧密地交织在一起。

转载地址：http://lxwni.baihongyu.com/

你可能感兴趣的文章