9亿迷你币激活码永久不过期,怎样获取50亿迷你币

  

  机器心脏报告   

  

  机器之心编辑部   

  

  来自微软的研究人员采取了一种不同的方法,并提出了一种新的计算机视觉基本模型,佛罗伦萨。在大范围的视觉和视觉语言基准测试中,Florence明显优于以往的大规模预训练方法,并取得了新的SOTA结果。   

  

  面对多样化、开放的现实世界,要实现AI的自动视觉理解,要求计算机视觉模型能够很好地泛化,具体任务所需的定制能够最小化,最终实现类似于人的视觉的人工智能。计算机视觉的基本模型是在各种大规模数据集上训练的,可以适应各种下游任务。这对计算机视觉在现实世界中的应用非常重要。   

  

  现有的visual basic模型,如CLIP(等,2021)、ALIGN(贾等,2021)和Enlightenment 2.0,主要侧重于将图像和文本表示映射为跨模态的共享表示。最近,微软的研究提出了一个新的计算机视觉基础模型——Florence,它将表示从粗粒度(场景)扩展到细粒度(对象),从静态(图像)扩展到动态(视频),从RGB扩展到多模态。   

  

  通过结合来自网络规模的图像-文本数据的通用视觉语言表示,Florence模型可以轻松适应各种计算机视觉任务,包括分类、检索、目标检测、视觉问答(VQA)、图像描述、视频检索和运动识别。此外,Florence还在许多迁移学习中表现出色,如全采样微调、线性探测、小样本迁移和零样本迁移,这些都是基本视觉模型用于一般视觉任务所必不可少的。Florence在44个表征基准测试中的大部分都取得了新SOTA的成绩,比如ImageNet-1K零样本分类任务,top-1的准确率为83.74,top-5的准确率为97.18;可可微调任务获得62.4地图,VQA任务获得80.36地图   

  

     

  

  地址:https://arxiv.org/pdf/2111.11432v1.pdf   

  

  Florence model在嘈杂的Web规模数据上以相同的目标进行端到端训练,这使得该模型在广泛的基准测试中取得了同类产品中的最佳性能。在大范围的视觉和视觉语言基准测试中,Florence明显优于以往的大规模预训练方法,并取得了新的SOTA结果。   

  

  方法   

  

  构建Florence生态系统包括数据管理、模型预训练、任务适配和训练基础设施,如图2所示。   

  

     

  

  数据管护   

  

  由于大规模数据多样化对基础模型非常重要,本研究提出了一个包含9亿个图文对的新数据集进行训练。由于web爬行数据通常是带噪声的自由形式文本(如单词、短语或句子),为了获得更有效的学习,本研究使用了杨等人最近提出的“统一图像文本对比学习对象”UniCL,该方法已被证明优于对比和监督学习方法。   

  

  模型预训练   

  

  为了从图像-文本对中学习良好的表示,本研究使用了包括图像编码器和语言编码器的双塔结构。对于图像编码器,本研究选择了分层视觉变换器。该架构不仅继承了Transformer自关注的运算性能优势,还模拟了图像的尺度不变性,并具有相对于图像大小的线性计算复杂度,这是密集预测任务的必要属性。   

  

  任务适配   

  

  在本研究中,使用了动态头部适配器(戴等人,2021a)、从静态图像到视频的时间(建议的视频CoSwin适配器)以及从图像到语言的仪表适配器的模态变化。通过上面的研究,学习到的特征表示沿着空间扩展(从场景到物体)。Florence旨在通过小样本和零样本迁移学习,有效适应开放世界,通过小纪元训练(例如在检索中)进行有效部署。用户可以根据自己的需求进行定制。   

  

     

  

  动态头(Dai et al .2021a)适配器用于对象级视觉表征学习。   

  

     

  

  你好4.米(窦等人,2021年)伯公曰佛罗伦萨?佛罗伦萨   

V+L 适配模型,使用图像文本匹配 (ITM) 损失和掩码语言建模 (MLM) 损失进行训练。

  

训练基础设施

  

从能源和成本方面考虑,以尽可能低的成本构建基础模型是至关重要的。该研究开发了可扩展的训练基础设施,以提高训练效率。Florence 训练基础设施由 ZeRO 、激活检查点、混合精度训练、梯度缓存等多项关键技术组成,从而大大减少了内存消耗,提高了训练吞吐量。

  

实验结果

  

该研究进行了多项实验,表明了 Florence 显著优于之前的大规模预训练方法。

  

分类中的零样本迁移

  

该研究在 ImageNet-1K 数据集和 11 个下游数据集上评估了 Florence 模型。表 1 显示了这 12 个数据集的结果,比较的模型包括 CLIP ResNet 、CLIP Vision Transformer 模型以及 FILIP-ViT,结果显示 Florence 在其中 9 个数据集上表现出色。该研究在 ImageNet-1K 上的零样本迁移方面取得了显着的提高,即 top-1 准确率为 83.74%(比 SOTA 结果高 5.6%),top-5 准确率为 97.18%。

  

  

线性评估

  

线性评估考虑了 11 个分类基准,这些基准同样也适用于零样本分类迁移。该研究将 Florence 与具有 SOTA 性能的模型进行了比较,包括 SimCLRv2、ViT、Noisy Student 和 CLIP 。

  

结果表明,Florence 优于现有的 SOTA 结果,不过在 CIFAR10、CIFAR100 这两个数据集上性能不如 EfficientNet-L2 。

  

  

ImageNet-1K 微调评估

  

该研究在 ImageNet ILSVRC-2012 基准(Deng et al., 2009)上评估了持续微调的性能,Florence 与几种模型的比较结果如下表 3 所示。Florence 模型的 Top-1 和 Top-5 准确率均优于 BiT(Kolesnikov et al., 2020)和 ALIGN(Jia 等人,2021 年)。Florence 的结果比 SOTA 模型(Dai et al., 2021c)稍差,但其模型和数据规模都比 Florence 大了 3 倍。

  

  

小样本跨域分类

  

下表 4 显示了 Florence 模型适应 CDFSL 基准的结果。与采用集成学习(ensembes learning)和直推学习(transductive learning)的挑战基准获胜者(Liu et al., 2020,下表中用 CW 指代)相比,Florence 采用单一模型,没有对测试数据进行转换,但获得了更优的结果。

  

  

图像 - 文本检索

  

表 5 展示了 Florence 在 Flickr30k 和 MSCOCO 数据集上在文本和图像检索任务上的零样本迁移和微调性能。结果表明,在这两个数据集上,Florence 优于之前所有的微调结果。此外,该方法对检索微调更有效。

  

  

目标检测和零样本迁移

  

目标检测是计算机视觉中最突出的应用之一。与现有的大规模预训练模型(如 CLIP、ALIGN 和 Wu Dao 2.0)相比,Florence 更适用于目标检测任务,因为它的适应性有助于学习对象级视觉表征。研究者通过微调目标检测和零样本迁移任务对来 Florence 的对象级视觉表征性能进行评估。

  

具体地,研究者在 3 个流行的目标检测数据集上评估了微调性能,它们分别是 COCO(Lin et al., 2015)、Object365(Shao et al., 2019)和 Visual Genome(Krishna et al., 2016)。下表 6 展示了与 SOTA 结果的比较,可以看到,Florence 在这些目标检测基准上取得了新的 SOTA 结果。

  

  

为了评估 Florence 对新的、多样性和面向应用的任务的迁移性,研究者遵循 (Li et al., 2021b) 设计了一个「开放式目标检测基准」,该基准聚合了来自 Roboflow2 的 11 个公共数据集,涵盖了细粒度鱼类 / 象棋检测、无人机视野检测和 thermal 目标检测等多样性场景。下表 7 表明,Florence 模型能够有效地实现到这些任务的零样本迁移。

  

  

视觉语言(V+L)表示学习

  

研究者在具有挑战性的 VQA (Goyal et al., 2017) 任务上对预训练模型进行了微调,该任务是根据图像上下文来回答问题。下表 8 展示了与当前方法的比较,结果表明 Florence 实现的了新的 SOTA 性能。与使用了 1.8B 图像到文本对的 SimVLM 模型(Wang et al., 2021)相比,Florence 仅使用 900M 数据即可以预训练图像编码器,20M 数据即可以预训练视觉语言预训练(VLP),但取得的结果更好。这也证明了 Florence 的数据效率。

  


  

  


  

零样本文本到视频检索

  

研究者在 MSR-VTT (Xu et al., 2016) 数据集上执行了零样本文本到视频评估,他们报告了在 1K-A test(Yu et al., 2018,包含 1k 个视频和字幕对)上的结果, 并在下表 9 中与当前 SOTA 方法进行了比较。结果表明,CLIP6(Radford et al., 2021)和 Florence 这两个图像到文本预训练模型在 R@1 指标上远远优于其他所有 SOTA 方法。

  

  

视频动作识别

  

研究者在微调视频动作识别任务上对 Florence 进行评估。下表 10 展示了 Florence 与当前 SOTA 方法的比较,结果表明在 Kinectics-400 和 Kinectics-600 两个数据集上,分别比 SOTA 方法提升 1.1% 和 1.5%。

  

相关文章