ac ap 测评,ac ap 区别

  

     

  

  引用   

  

  孟力,李宇,陈力,等.度量区分度促进多种深度学习模型的比较测试//2021 IEEE/ACM第43届国际软件工程会议(ICSE).IEEE,2021: 385-396。   

  

  摘要   

  

  深度学习技术的爆炸式发展促进了大规模深度学习模型的构建和共享,也促进了深度学习模型的获取和重用。因此,给定一个任务,我们往往会有很多功能性能相同的可选深度模型,测试人员需要根据测试上下文选择更合适的模型。由于数据标注的效率限制,测试人员的目标是选择有效的样本子集,并尽可能准确地估计这些模型的排名。   

  

  为了解决这一问题,提出了一种基于样本区分的数据采集算法,以收集和选择足够的样本集来区分模型。同时,为了评估SDS,本文基于三个广泛使用的图像数据集和八十个真实世界深度模型进行了广泛的实验研究。结果表明,SDS是一种有效的区分多模型的数据选择算法。   

  

  引言   

  

  深度学习支持一个寻找输入样本高维表示的通用目标学习过程,在面对复杂的分类任务和错综复杂的高维数据结构时,已经表现出明显的优越性。随着计算机计算能力和数据集规模的增加,深度学习技术通过建立更深、更高效的模型和层,大大增强了其在分类任务中的抽象能力和性能,甚至在许多领域超越了人类专家和传统的机器学习算法。但与此同时,深度模型的可靠性也引起了人们的关注,这就需要一些新的测试方法来应对深度学习带来的新场景和挑战。   

  

  现有的深度学习测试技术大多尝试在调试和运行两种测试场景下验证模型质量。前者将深度学习模型视为一种需要发现缺陷以提高可靠性的技术,通过各种测试标准(如各种覆盖率)的指导,生成或收集能够诱发错误的输入数据;后者是在客观测试环境下评估深度模型的可靠性。   

  

  深度学习的爆炸式发展给这个领域带来了前所未有的规模和复杂性。复杂的深度模型往往结合了各种原始模型派生的各种功能,开发者可以通过共享、重用数据和模型文件来重用和扩展模型。一项研究表明,Github上至少有13.7%的复杂模型重用了至少一个原始模型。这种“即插即用”模式的优势在于,极大地推动了复杂深度模型的构建和应用。另一方面,由于一个任务有大量来自不同第三方的开发人员,基于不同分布式数据集的相同功能模型解决方案,无法确切知道哪个解决方案适用于目标应用领域,这些模型的实际效果有待检验。   

  

  基于上述背景和原因,提出了一种全新的测试场景,名为“对比测试”,旨在对同一问题的各种深度学习解决方案进行评估和排序,以选择最适合当前应用场景的模型。它与现有的深度模型试验主要有两个不同之处:1)试验对象是多个模型而不是单个模型;2)测试的目的是比较多个模型的性能,而不是改进或评估单个模型的性能。图1展示了一个典型的深度学习对比测试场景,其中样本标注往往是流程的瓶颈,并且受限于数据标注的效率,测试人员只能标注测试环境中的一小部分数据,这就要求测试人员在标注效率的限制下,选择一个足够大的能够尽可能区分多个模型的子集,这也是对比测试带来的深度学习测试的新问题。本文提出了一种样本鉴别和选择算法SDS。该算法的关键点是通过模型分类行为,关注对模型样本最有效的判别。特别地,SDS结合了两种技术思想:整合学习中的多数投票和测试分析中的项目区分度(提出在没有实际标签的情况下估计样本区分度)。   

  

     

  

  图1典型的深度学习对比测试场景   

  

  本文对SDS算法的评测基于MNIST、时尚-MNIST和CIFAR10数据集,以及Github上基于MNIST数据集的28个模型、基于时尚-MNIST数据集的25个模型和基于CIFAR-10的27个数据集,并将SDS效果与现有的DeepGini、CES和SRS三种数据选择算法形成的基线进行比较。   

  

  主要贡献   

  

  1.本文开启了深度学习测试的一个新维度,即对比测试,将测试对象从单一的深度学习模型扩展到多个深度学习模型的对比。   

  

  2.为了提高模型识别效率,提出了一种新的样本数据识别和选择算法。   

  

  3.本文对SDS算法进行了广泛的实验研究,并与三种基线方法进行了比较,证明了SDS在对比测试中的有效性和高效性。   

  

  方法论   

>   

研究问题

  

本文用于比较深度模型性能的评估指标主要依赖于精度 Accuracy,即模型预测成功的样本数占总样本数的比例,于是,可以将本文的研究问题形式化表述为如下图所示:

  

  

图 2 研究问题的形式化表述

  

基于样本区分度的样本挑选

  

SDS 算法主要基于下述两个技术思想:

  

1) 多数投票。多数投票是集成学习中的一种简单权重方法,它将获得最多数投票的类别作为最终决策。本算法的场景具有数据无标注的预先条件,因此使用该方法来解决实际缺少预测标签的问题。

  

2) 条项区分度。它是用于描述一个测试项可以区分好被测对象和坏被测对象的程度的一项指标,本文使用这个概念以度量样本区分度,即通过计算好模型和坏模型的性能差异来估计区分度。

  

去除了变量等环境初始化的 SDS 算法如图 3 所示,它可以被分为以下五步:

  

1) 提取预测结果。将所有模型在测试环境下进行测试,得出每一个样本输入每一个模型从而得到的预测结果标签,并记录在结果矩阵 Ap 中。

  

2) 为估计标签进行投票。对于每一个样本,统计所有被测模型的预测结果标签,并将出现频率最高的预测结果标签作为该样本的估计真实标签。

  

3) 根据上一步得到的估计真实标签统计每一个模型的表现得分,对于每一个样本预测正确的模型得到一分并不断累加,最终将所有模型的得分进行降序排序,从而以此将模型分为三类:顶部模型(得分最高的 27%)、底部模型(得分最低的 27%)和其他模型。

  

4) 研究顶部模型和底部模型,对于每一个样本,计算顶部模型中预测正确的模型数量与底部模型中预测正确的模型数量的差,并得到它的区分度度量。最后会对所有样本的区分度进行标准化及存储。

  

5) 这一步根据样本区分度度量对样本进行挑选,为了消除高区分度的离群样本的影响,这一步并不直接挑选样本,而是在头部 25%的样本中进行随机采样。这里将选取头部 25%的样本的原因是四等分在软件工程的数据集分区中较为常见。

  

  

图 3 SDS 算法(不包括初始化步骤)

  

实验设置

  

被试数据集和模型

  

实验数据集使用 MNIST、Fashion-MNIST 和 CIFAR-10,这三个数据集均包含 10000 个测试样本,这些样本将在后续实验中被当作测试环境。针对上述三个数据集,本文挑选了 Github 上的 28 个基于 MNIST 数据集的模型、25 个基于 Fashion-MNIST 数据集的模型以及 27 个基于 CIFAR-10 的数据集模型作为被测模型。为了模拟相同任务的不同具体实现,本文刻意挑选了在星标数、模型结构和模型准确率上都有很大不同的模型。对于这些模型,若其模型.h5 文件已被提供,实验直接使用这些文件,否则,使用原代码和数据集重新进行训练得到结果模型。具体的被试模型如下图 4 所示,其中,一些模型源于同一个 Github 仓库,但它们在精度和参数量上都具有差别。

  

实验设置

  

本文设置的目标采样数据集大小(问题定义中的 ε)被设置得较小,大小取值从 35 至 180 变化,变化间隔为 5。在方法基线方面,本文使用了两个现有的最为先进的样本挑选方法 CES 和 DeepGini 算法,以及简单随机采样算法(SRS)。其中,CES 算法基于减少标签损失的思想,意图寻找最具代表性的样本子集,由于它针对单个模型,因此,实验中会得到 n 个自己,而本实验将会挑选出其中的最优子集进行比较;DeepGini 算法基于最大化错分类概率的思想挑选样本的最优子集,由于 CES 和 SDS 均带有随机性,因此实验中通过随机采样错分类可能性最高的前 25%的样本来在该方法中添加随机性,为区分这种随机性,将原算法和带随机性的算法分别称为 DDG 和 RDG。实验基于 python3.6.3、Tensorflow2.3.0 及 Keras 2.4.3,硬件环境为一台具有 8 个 Tesla V100 SXM2 32GB GPU 的 Ubuntu 18.04 服务器。

  

  

图 4 实验涉及的 80 个被试模型

  

另外,本文使用两项评估指标以评价样本价值的估计排序和测试环境中的实际样本价值排序的相同程度:Spearman 秩相关系数和 Jaccard 相似系数。Spearman 秩相关系数公式如下所示,它用于评估两个随机变量的相关性,值域为-1 到 1,且取值越接近 1(-1)意味着这两组变量越正(负)相关。Jaccard 相似系数在最优的 k 个模型中进行计算,其中,k 的取值在实验中分别有 1,3,5,10。至于分析方法,本文首先使用 Wilcoxon 秩和检验验证 SDS 算法和其他基线方法的排序表现的差异。当 p 值小于 0.05 时,认为两组数据具有显著差异。然后,本文使用 Cliff’s deltaδ 方法通过度量效应量以比较两个有序数据列表,并通过以下策略评价两个数据集的差异:当|δ|<0.147 时,差异细微;0.147≤|δ|<0.330 时,差异较小;0.330≤|δ|<0.474 时,差异中等;|δ|≥0.474 时,差异较大。最后,本文使用“W/T/L”对 SDS 算法和基线算法的结果进行比较,其中,W 代表 SDS 算法取胜,T 代表打平,L 表示 SDS 失败。打到两个标准则视为本方法取胜:Wilcoxon 秩和检验中的 p 值小于 0.05 或 Cliff’s delta 的 δ 大于 0.147。实验整体意图验证 SDS 算法的有效性和高效性,前者代表 SDS 算法表现优于现有算法,后者表示 SDS 算法的整体效率更高。

  

  

图 5 Spearman 秩相关系数

  

有效性

  

本文使用上述五种算法(SDS、SRS、CES、DDG、RDG)在三种数据集下在上述目标样本集大小区间内分别运行了 50 次,并最终计算得出其平均结果,图 6 展示了这一结果,可以看出 SDS 不仅显著优于其他算法,且其表现十分稳定,相比之下,一些基线方法表现出强易变性,如 DDG 在 Jaccard 相关系数指标上表现出了强烈的上下浮动。图 7 展示了数据表格形式的实验结果。

  

  

图 6 SDS 有效性实验结果(图表)

  

  

图 6 SDS 有效性实验结果(表格)

  

高效性

  

图 7 展示了每种算法在三种数据集下运行的总时间,可以看出本算法运行时间稍长于随机算法,因为它包含样本排序及基于矩阵的操作,其运行时间与其他基线方法相近。

  

  

图 7 每种算法的运行总时间对比

  

采样率

  

图 8 展示了本方法在在 15%、20%、25%、30%和 35%的采样率下的实验结果,实验表明 SDS 算法效果与采样率之间并不具有太大的关系,算法效果随采样率的变化是无规律的。本文选择 25%的采样率一是因为惯例,二是因为该采样率下算法在 CIFAR-10 数据集的各种目标样本大小下均表现得更好。

  

关于 Jaccard 的 k 值选择

  

实验结果如图 9 所示,实验表明在 k 值分别取 1,3,5,10 的情况下,本算法均明显优于其他算法,而这也验证了 SDS 算法的有效性。

  

  

图 8 不同采样率下的 SDS 算法评估

  

  

图 9 不同 K 值下的 Jaccard 相关系数

  

算法分析

  

本文为分析 SDS 算法对其进行了两阶段分析。首先,作者分析了本方法通过多数投票得出的标注的准确率,得到结果如图 10 所示。实验表明,投票得出的结果在 MNIST、Fasion-MNIST 和 CIFAR-10 上取得的准确率分别为 0.9924、0.9433 和 0.8613,换言之,多数投票预测的标签与真实标签十分接近,而这也表明在比较测试中,模型预测标签分布有助于解决缺少真实数据集标注的问题,而设计更好的分布估计策略也是后续比较测试中的一个很有前景的方向。第二步,作者试图对样本区分度和排名表现是否呈正相关关系进行分析。为此,本文进行了一次附加实验,将区分度排名前 25%、25%-50%、50%-75%和 75%-100%的样本的表现进行了对比,实验结果如图 11,所示,可见更高的区分度的确对样本排序模型更有帮助。

  

  

图 10 不同数据集下多数投票的准确率

  

  

图 11 不同排名次序下的数据集的表现

  

少数模型下的效果

  

图 12 展示了 SDS 算法在模型集合仅包括 4 个模型的情况下的效果,可以看出此时 SDS 算法仍然具有较大优势。

  

  

图 12 少数模型集合下的 SDS 算法效果对比

  

当直接使用多数投票

  

得到了多数投票的预测标签后,一个直观的想法是直接通过这些标签衡量模型。本文将这种方法与 SDS 进行了对比,对比结果如图 13 所示,可见当样本大小超过 105(约测试集总大小的 1%)后,,SDS 算法即优于此方法,且仍然具有很强的上升趋势,因此可以说 SDS 算法采用的方式仍然是有用且更优于这种直观方法的。

  

  

图 13 多数投票真实标签方法与 SDS 方法对比

  

有效性威胁

  

首先,数据集选择是一种威胁,因为本文涉及的三种数据集虽然非常常用但却比较简单,后续工作可能会引入更复杂的数据集。其次,模型选择过程也是一种可能威胁,因为即使已尽量囊括各类模型,这些被测模型还是可能没有完全覆盖到真实情况。最后,模型实现可能存在威胁,对于那些无.h5 文件提供的模型,本文进行了重新训练,这导致了环境的不一致,但作者将训练得到的精度与原精度进行了比较,认为其中差异非常细微。

  

总结与展望

  

深度学习技术的爆炸式发展导致了深度模型的大规模重用,因此产生了一种新的深度模型测试场景:比较测试。比较测试的效率往往限于数据集标注的效率瓶颈,为解决此问题,本问题出了一种基于样本区分度的样本筛选方法 SDS,并通过一个广泛实验证明了其有效性和高效性。

  

致谢

  

本文由南京大学软件学院 2021 级硕士研究生顾明政翻译转述,刘佳玮审核。

相关文章