0%

图文预训练综述

组会0715-多模态预训练 (maiimg.com)

组会四

ERNIE-ViL

  • keypoint

    • 从场景图中获得结构化知识来学习视觉语言的联合表示。
    • 建立视觉语言的语义联系:对象,对象属性,对象关系。
    • 预训练任务:
      • Object Prediction
      • Atrribute Prediction
      • Relationship prediction
    • 五个下游任务数据集:VQA,VCR,RefCOCO+,IR,TR尤其是VCR提升3.7%。
  • contrbutions:

    • first introduce structured knowledge
    • construct sence graph prediction,cross-modal detailed semantics alignments
    • 5 SOTA
  • 当前预训练模型发展的三驾马车

    • 模型结构:single-stream, two stream
    • 预训练任务: masked language model(MLM), masked region prediction(MRP),Image-Text Matching. 当前随机掩码预测,无法区分普通单词和描述语义的单词,无法捕捉跨模态细粒度语义对齐
    • 预训练数据:
      • (out of domain)CC,SBU
      • (in domain) MSCOCO,Visual-Genome
  • 场景图

    • 组成:object ,atrributes of objects, relationship
    • 场景图是描述图片和文本详细语义的良好先验,在图像字幕,图片检索,视觉问答,图片生成等任务达到SOTA
  • Approch

    • 模型结构:

      • Sentence Embedding: WordPiece Token。word embedding+segment embedding+sequence position embedding。

      • Image Embedding: region feature+location feature

      • Vision-Language Encoder: two-stream cross-modal Transformer

    • 场景图预测:

      • object:场景的基本元素。attribute:例如物体的形状、颜色。relationship:物体之间的空间联系和动作
      • image-20210714103742876
      • G(w)=<O(w), E(w), K(w)>
        • O(w):object;
        • E(w): 三元组,<object, relaton, object>
        • K(w):二元组,<object, atrribute>
        • Spice: Semantic propositional image caption evalu- ation.
      • Object Prediction:
        • 对象是视觉场景的主导元素,在构建语义信息的表征中起着重要作用。预测对象迫使模型在对象级别建立视觉语言连接。
        • 场景图中随机选30%进行mask, 选中的O(w),80%进行[mask],10%随机替换,10%保持。对应的文本进行mask。
        • image-20210714110059201
      • Attribute Prediction:
        • 属性表征了视觉对象的特定信息,如对象的颜色或形状,从而在更细粒度的层次上表示视觉场景中的详细信息。
        • image-20210714110524960
      • Relation Prediction:
        • 关系描述了视觉场景的对象之间的动作(语义)或相对位置(几何),这有助于区分对象相同但关系不同的场景。
        • image-20210714110947211

Oscar

  • Object-Semantics Aligned Pretraining

  • Motivation:当前的视觉-语言预训练简单地将图像特征和文本特征进行拼接,然后用自注意力蛮力学习图像和文本的语义对齐。图像中的显著对象在文本中经常被提及。

  • 输入:Triplet(文,tag, 图)-> (w,q,v)

  • image-20210714144347894
  • 两个预训练任务即两个损失函数。

    • Dictionary View——Masked Token Loss::
      • 把tag当做文本,[h= (w, q ), v ]. wq看做整体,视为token的集合,mask并且预测
      • image-20210714145022747
    • Modality View——Contrastive Loss:
      • 把tag当做图像模态,[ w , h=(q, v) ]. 构建反例:50%的概率替换q(q', v)。预测-> f(h,w)=1为正例,否则为反例。
      • image-20210714145804658

ViLT

  • motivation:当前的VLP,图像都依赖于特征提取,基本涉及到目标检测或者卷积结构。这会导致提取特征的计算量超过多模态交互的步骤。

  • 区域特征的提取在训练前已经被预先提取,所以学术上经常忽略image embedder较重的缺点,对于数据集外的查询,需要经历一个缓慢的提取过程。

  • 最小的VLP模型。减轻加速视觉嵌入。假设VLP中用于模态交互的Transformer也可以像提取文本特征那样来替代卷积提取视觉特征。

  • 视觉-语言模型分类:image-20210714161105524

    • a: VSE,VSE++,SCAN
    • b: CLIP(ResNet, Transformer)
    • c: ViLBERT,UNITER (token, faster r-cnn) PixelBERT (token, resnet )
    • d:ViLT (token ,patch)
  • 模态交互模式:

    • single stream----concact
    • dual stream-----coatten, 自己的q,另一个模态的k,v
  • 视觉嵌入模式:

    • Region Feature-----BoundingBox 的featuremap

    • Grid Feature-----全图的featuremap,pixel级别

    • Patch Projection-----简单的线性映射。2.4M参数,R50-25M, R101-44M

  • 模型图image-20210714154818823

    • 预训练的ViT来初始化Transformer
    • 文本->tokenize->Word Embedding; 图像->patch->patch projection(visual embedding)
      • +position embedding
      • concate modal-type embedding
    • 预训练任务:
      • image text matching(ITM):随机以0.5的概率将文本对应的图片替换成不同的图片,然后对文本标志位对应输出使用一个线性的ITM head将输出feature映射成一个二值logits,用来判断图像文本是否匹配。另外ViLT还设计了一个word patch alignment (WPA)来计算textual subset和visual subset的对齐分数。
      • masked language modeling(MLM):MLM的目标是通过文本的上下文信息去预测masked的文本tokens。随机以0.15的概率mask掉tokens,然后文本输出接两层MLP与车mask掉的tokens。
      • Whole Word Masking:另外ViLT还使用了whole word masking技巧。whole word masking是将连续的子词tokens进行mask的技巧,应用于BERT和Chinese BERT是有效的。比如将“giraffe”词tokenized成3个部分["gi", "##raf", "##fe"],那么可以mask成["gi", "[MASK]", "##fe"],模型使用[“gi”,“##fe”]来预测mask的“##raf”,而不使用图像信息。