您所在的位置：首页 - 教育 - 正文教育

浙大李玺团队：指代表达理解新方法，粗到细迭代消除视觉冗余

admin 08-21 【教育】 711人已围观

摘要AIxiv专栏是机器之心发布学术、技术内容的栏目。过去数年，机器之心AIxiv专栏接收报道了2000多篇内容，覆盖全球各大高校与企业的顶级实验室，有效促进了学术交流与传播。如果您有优秀的工作想要分享，欢迎投稿或者联系报道。投稿邮箱：liyazhou@jiqizhixin.com；zhaoyunfeng@jiqizhixin.com该论文作者均来自于浙江大学李玺教授团队，论文第一作者为博士生苏伟同学，通讯作者为李玺教授（IETFellow，国家杰青）。李玺教授团队近年来在国际权威期刊（如TPAMI

AIxiv专栏是机器之心发布学术、技术内容的栏目。过去数年，机器之心AIxiv专栏接收报道了2000多篇内容，覆盖全球各大高校与企业的顶级实验室，有效促进了学术交流与传播。如果您有优秀的工作想要分享，欢迎投稿或者联系报道。投稿邮箱：liyazhou@jiqizhixin.com；zhaoyunfeng@jiqizhixin.com

该论文作者均来自于浙江大学李玺教授团队，论文第一作者为博士生苏伟同学，通讯作者为李玺教授（IETFellow，国家杰青）。李玺教授团队近年来在国际权威期刊（如TPAMI、IJCV等）和国际顶级学术会议（ICCV、CVPR、ECCV等）上发表180余篇CV/AIGC相关的研究工作，和国内外知名高校、科研机构广泛开展合作。

作为基础的视觉语言任务，指代表达理解（referringexpressioncomprehension,REC）根据自然语言描述来定位图中被指代的目标。REC模型通常由三部分组成：视觉编码器、文本编码器和跨模态交互，分别用于提取视觉特征、文本特征和跨模态特征特征交互与增强。

目前的研究大多集中在设计高效的跨模态交互模块以提升任务精度，缺少对视觉编码器探索。常见做法是利用在分类、检测任务上预训练的特征提取器，如ResNet、DarkNet、SwinTransformer或ViT等。这些模型以滑动窗口或划分patch的方式遍历图像所有的空间位置来提取特征，其计算复杂度会随图像分辨率快速增长，在基于Transformer的模型中更加明显。

由于图像的空间冗余特性，图像中存在大量低信息量的背景区域以及与指代表达无关的区域，以相同的方式在这些区域提取特征会增加计算量但对有效特征提取没有任何帮助。更加高效的方式是提前预测图像区域的文本相关性和内容的丰富程度，对文本相关的前景区域充分提取特征，对背景区域粗略提取特征。对于区域预测，一个较为直观的方式是通过图像金字塔来实现，在金字塔顶层的粗粒度图像中提前辨识背景区域，之后逐步加入高分辨率的细粒度前景区域。

基于以上分析，我们提出了coarse-to-fine的迭代感知框架ScanFormer

，在图像金字塔中逐层scan，从低分辨率的粗尺度图像开始，逐步过滤掉指代表达无关/背景区域来降低计算浪费，使模型更多地关注前景/任务相关区域。

方法介绍

一、Coarse-to-fine迭代感知框架

为简化结构，我们采用统一文本和视觉模态的ViLT[1]模型，并将其沿深度维度分为Encoder1和Encoder2两部分以用于不同的任务。

首先，提取文本特征并将其存入KVCache；然后构造图像金字塔并从金字塔顶层依次往下迭代，在每次迭代中，输入当前尺度被选择的patch，Encoder1用于预测每个patch对应的下一个尺度的细粒度patch的选择情况，特别地，顶层图像的patch全部被选上，以保证模型能获得粗粒度的全图信息。Encoder2进一步提取特征并基于当前尺度的[cls]token来预测该尺度的boundingbox。

与此同时，浙大李玺团队：指代表达理解新方法，粗到细迭代消除视觉冗余Encoder1和Encoder2的中间特征会被存入KVCache以方便被后续的尺度利用。随着尺度的增加，细粒度特征被引入，位置预测会更加准确，同时大部分无关的patch被丢弃以节省大量计算。

此外，每个尺度内部的patch具有双向注意力，同时会关注前序尺度所有的patch和文本特征。这种尺度间的因果注意力可以进一步降低计算需求。

二、动态patch选择

每个patch的选择情况由前一尺度生成的选择因子决定，对于应用的位置有两种方案，其一是用于Encoder每层MHSA的所有head中，然而，对于N层H头的Encoder，很难获得有效的的梯度信息来更新，因此学到的选择因子不太理想；其二是直接用于Encoder的输入，即patchembedding上，由于只用在这一个位置，因此更容易学习，本文最终也采用了此方案。

另外，需要注意的是，即使输入patchembedding被置0，由于MHSA和FFN的存在，该patch在后续层的特征仍然会变为非0并影响其余patch的特征。幸运的是，当token序列中存在许多相同token时，可以简化MHSA的计算，实现实际的推理加速。此外，为了增强模型的灵活性，本文并没有直接将patchembedding置0，而是将其替换为一个可学习的常量token。

因此，patch的选择问题被转换成patch的替换问题。patch选择的过程可以分解为常量token替换和token合并两步。未被选择的patch会被替换为同一个常量token。由于这些未被选择的token是相同的，根据scaleddotproductattention的计算方式，这些token可以被合并为一个token并乘上总数，等价于将加到维度上，因此点积注意力的计算方式不变，常见的加速方法依旧可用。

实验结果

本文方法在RefCOCO、RefCOCO 、RefCOCOg和ReferItGame四个数据集上取得了和state-of-the-art相近的性能。通过在大规模数据集上预训练并在具体数据集上微调，模型的性能可以进一步大幅提升，并达到和预训练模型如MDETR[2]和OFA[3]等相近的结果。

在推理速度上，提出的方法达到了实时的推理速度，同时能保证较高的任务精度。

此外，实验部分也对模型的patch选择情况以及每个尺度（scale1和scale2）定位精度的分布做了统计。

如左图所示，随着尺度的增加，细粒度的图像特征被加入，模型精度逐步提升。因此可以尝试加入早退机制，在定位精度满足要求时及时退出，避免进一步在高分辨率图像上计算，实现根据样本自适应选择合适的分辨率的效果。本文也进行了一些初步的尝试，包括加入IoU、GIoU和不确定性等预测分支，回归earlyexit的指标，但发现效果不太理想，如何设计合适且准确的earlyexit指标有待继续探索。

右图展示了不同尺度的patch选择情况，在所有的尺度上，被选择的patch占均比较小，大部分的patch都可以被剔除，因此可以有效地节省计算资源。对于每个样本（图像指代表达），实际选择的patch数量相对较少，大概占总数的65%。

最后，实验部分展示了一些可视化结果，随着尺度的增加（红→绿→蓝），模型的定位精度逐步提高。另外，根据由被选择的patch重建的图像，可以看出模型对于背景区域只关注了粗尺度的信息，对于相关的前景区域，模型能够关注细粒度的细节信息。

您所在的位置：首页 - 教育 - 正文教育

浙大李玺团队：指代表达理解新方法，粗到细迭代消除视觉冗余

目录[+]