1.ICCV 2023 | 旷视研究院入选论文亮点解读
2.单目标追踪论文阅读系列(八)——《DIMP(ICCV2019)》
3.捋一捋Swin Transformer
4.细粒度语义分割:ICCV2019论文解析
5.论文ICCV美文:从过拟合到欠拟合?
6.ICCV2023论文阅读(4)——分类识别
ICCV 2023 | 旷视研究院入选论文亮点解读
ICCV 旷视研究院亮点论文概览 国际计算机视觉大会(ICCV)年盛况空前,论文论文共收到篇论文,源码旷视研究院凭借其深厚研究实力,下载一举入选篇作品,论文论文涉及3D目标检测、源码多模态3D检测等多个领域,下载知识产品平台源码展现了其在视觉技术领域的论文论文卓越贡献。以下是源码亮点论文的深度解读:PETRv2: 3D位置编码,多任务与鲁棒性
论文链接:[3D位置编码,下载多任务,论文论文鲁棒性];代码库:GitHub。源码PETRv2研究了如何在3D空间中进行更精准的下载定位,同时支持多种任务需求,论文论文提升模型的源码稳健性。StreamPETR: 目标为中心的下载时序建模与高效检测
论文链接:[目标为中心的时序建模,高效检测];代码库:GitHub。StreamPETR创新性地引入了时序分析,提升目标检测的实时性和准确性。Cross Modal Transformer: 鲁棒融合与快速处理
论文链接:[快速鲁棒,多模态融合];代码库:GitHub。该模型通过跨模态融合,实现了高效、鲁棒的多信息处理。 此外,还有更多创新成果值得关注:OnlineRefer: 视频对象分割新框架
- RVOS任务中的SOTA,Deformable DETR与查询传播技术的应用,论文[Ref: .],代码GitHub。
Uncertainty-guided stereo matching提升效率与鲁棒性
- CREStereo++在Robust Vision Challenge 中胜出,论文[Link: .]。
OccNet: 3D空间估计增强图像匹配鲁棒性
- 通过3D占用率估计处理遮挡,论文[Link: .]。
知识蒸馏优化
- DOT关注任务和知识转移损失,论文[Link: .],以及CSKD技术将CNN知识注入ViT,无需中间特征。
旷视研究院的这些成果涉及视频分割、提示驱动的分割、单应性矩阵生成、多曝光融合、事件相机光流、高斯注意力机制以及知识蒸馏等多个关键技术。通过这些创新,推广项目源码怎么写他们不仅解决了现实世界中的视觉挑战,还为未来的研究提供了强大的基础。欲了解更多计算机视觉领域的最新动态和实用教程,请关注我们的公众号CV技术指南,加入我们的交流群,一起探索视觉技术的无限可能。单目标追踪论文阅读系列(八)——《DIMP(ICCV)》
马丁·丹尼尔詹在年的突出成果——《DIMP(ICCV)》论文备受瞩目,该作品荣膺ICCV 口头报告荣誉。此篇研究沿袭了他在CVPR的ATOM系列,如今训练和测试代码已公开。相较于CVPR中流行的SiamRPN系列,DIMP针对Siamse系列在区分背景和目标方面的不足进行了革新。作者针对Siamese模型的局限,提出了创新解决方案。 首先,作者采用模型预测网络,配合具有辨别能力的损失函数进行优化。此外,作者设计了快速迭代策略,具体步骤如下:每次梯度下降时,向梯度最陡峭的方向移动,并使用计算得出的最优步长下降。
引入权重预测模块,为模型提供更精准的初始化。
实验结果显示,DIMP在NFS、UAV、OTB、TrackingNet、LaSOT、GOTk和VOT等多数据集上表现出State-of-the-Art性能,且速度约为帧每秒。以下是作者团队在ICCV大会分享的部分PPT内容概述。 论文中的网络结构着重于增强Siamese网络的鲁棒性。原始Siamese方法仅依赖目标区域特征,导致在复杂场景中表现不佳。为改善这一情况,作者设计了新框架,通过多帧训练和随机样本选择,利用背景信息进行优化。 在Loss设计上,作者引入了权重调整,龙晶版本源码借鉴SVM的Hinge Loss,以减少负样本对模型学习的干扰。通过学习目标区域的mask、空间权重和正则化因子,模型能够在背景和目标区域分别使用不同的损失函数,提高区分能力。 论文中,通过最速梯度算法的迭代优化,作者找到了优化滤波器的方法,尽管计算量大,但能有效提升性能。实验对比显示,DIMP的迭代策略显著提升了鲁棒性和速度,超越了ATOM和SiamRPN++。 总的来说,《DIMP》论文深入分析了Siamese追踪器的问题,并通过技术创新改进了目标预测和损失设计,显著提升了跟踪的鲁棒性和速度,是一篇具有深度的顶尖会议论文。捋一捋Swin Transformer
Swin Transformer是ICCV 的最佳论文,它证明了Transformer在视觉领域的通用性,特别体现在Swin-T模型上。其结构区别于ViT,采用4x4的初始切分和Window Attention,允许获取多尺度信息,适用于目标检测和语义分割。下面,我们通过源码解析Swin Transformer的工作原理。
首先,Swin Transformer的架构包括PatchEmbed层,将图像切割成小patch,之后通过多个BasicLayer处理,每个BasicLayer由Swin Transformer Block和Patch Merging组成。与ViT不同,Swin-T的PatchEmbed使用4x4切分并逐渐增大patch尺寸,以实现多尺度变化。BasicLayer中的核心模块Swin Transformer Block包含两个Window Attention,一个在窗口内操作,另一个解决窗口间信息交流问题。
Window Attention通过将输入分割成小窗口,降低计算复杂度,但通过shift操作引入了窗口之间的源码视界-健康饮食课信息交互。Shifted Window Attention通过调整窗口位置并使用掩码来控制注意力,使得并行计算更高效。此外,Window Attention还包括了相对位置编码,增强对局部上下文的理解。
Patch Merging则模仿CNN,通过合并小patch以提取不同分辨率的特征,有助于多尺度特征的提取。在实验中,Swin Transformer在图像分类、目标检测和语义分割等多个领域展现了出色性能,尽管面临如Convnext的竞争,但它在视觉领域的创新性和多模态潜力仍值得关注。
细粒度语义分割:ICCV论文解析
细粒度语义分割:ICCV论文解析
Fine-Grained Segmentation Networks: Self-Supervised Segmentation for Improved Long-Term Visual Localization
本文提出了一种新的神经网络FGSN,用于提供大量标签,并通过自监督方式训练,以改善长期视觉定位。FGSN允许创建更多类的内部分割,对语义视觉定位算法有积极影响,集成到现有定位算法中显著提升性能。通过大量实验,证明了利用FGSN产生的细粒度分割能显著提高定位性能。FGSN通过聚类索引实现高密度分割,无需人工定义类,数据驱动定义,确保稳定性。训练FGSNs在季节变化中输出一致标签,使用2D-2D对应数据集进行训练。方法的代码公开。FGSNs创建更多类内部分割,对现有定位方法带来实质性改进。实验结果显示,FGSNs能提高定位性能,尤其是在具有挑战性的条件下。实验表明使用带有更多标签的分段能提高本地化性能,验证了利用更多分割标签创建更具区分性但仍然健壮的语义视觉定位表示的动机。
论文ICCV美文:从过拟合到欠拟合?
论文ICCV美文:从过拟合到欠拟合的奥秘
深入理解ICCV论文,如年的O2U-Net论文,它揭示了神经网络学习过程中的样本角色及其挑战。O2U-Net特别关注于处理带噪数据,通过观察网络从欠拟合到过拟合的训练动态来检测噪声样本。简单来说,怎么样阅读源码网络在早期快速记住简单样本,而噪声和难样本则在后期被学习,过拟合问题由此产生。文章提出了一种创新方法,Cyclical Training,通过反转常规训练过程,即在过拟合阶段使用大学习率使网络转入欠拟合,以此来识别噪声。 O2U-Net的训练过程分为三个步骤:首先让网络过拟合,然后通过大学习率使其返回欠拟合,再逐步训练至过拟合。这种方法利用了损失指标的动态变化,因为在过拟合阶段,噪声样本的loss与干净样本接近,通过监测损失变化,可以识别噪声样本。 然而,依赖loss指标的挑选策略并非始终有效。如co-teaching等方法在早期能有效选择高纯度样本,但随着训练的进行,模型会过拟合噪声,导致挑选出的样本纯度下降。这提示我们在处理噪声数据时,需要对损失指标有更深入的理解和巧妙应用。ICCV论文阅读(4)——分类识别
统一的非分布检测:从模型角度出发
Unified Out-Of-Distribution Detection: A Model-Specific Perspective
摘要:此研究提出了一种新颖的框架,旨在广泛识别不属于训练分布的测试样本,而不仅仅是语义转变。通过从部署的机器学习模型无法正确预测的样本中进行检测,该框架强调了“特定于模型”的检测过程。该框架统一了语义转变和协方差转变引起的OOD样例检测,关注于机器学习模型在不受控制环境中的应用。广泛分析涉及多种模型、OOD样例来源和检测方法,揭示了改进和理解OOD检测在不受控制环境中的见解。
Latent-OFER:使用潜在向量进行检测、屏蔽和重建,以实现遮挡的面部表情识别
Latent-OFER: Detect, Mask, and Reconstruct with Latent Vectors for Occluded Facial Expression Recognition
摘要:遮挡面部表情识别(OFER)面临挑战,尤其是在实际应用中,高度控制环境外性能不佳。所提出的潜在-OFER方法通过仅使用支持向量数据描述算法从未遮挡的补丁中训练潜在向量来检测遮挡部分,生成完整图像并进行识别,以提高准确度。该方法包括检测、恢复和识别三个步骤,使用视觉变换器和卷积神经网络实现,显著优势在于防止未见物体遮挡引起的性能下降,实验结果证明了其优越性。
用于细粒度识别的Gabor纹理特征学习
Learning Gabor Texture Features for Fine-Grained Recognition
摘要:此研究提出了一种新的纹理分支作为深度CNN的补充,用于细粒度识别。Gabor滤波器被用于提取多频特征和细节信息,通过约束参数值和设计学习方法来提高有效性。此外,引入统计特征提取器和门选择机制来提高计算效率。该方法融合了基于Gabor滤波器的纹理分支和基于CNN的语义分支特征,实验结果证明了在多个数据集上的有效性和先进性。
了解分布外检测的特征规范
Understanding the Feature Norm for Out-of-Distribution Detection
摘要:此研究揭示了训练神经网络在ID样本和OOD样本上的特征向量范数差异的根本原因。通过分析隐藏在中间层中的判别结构,发现特征范数与分类器置信度和类别无关性,以及在OOD检测中的应用。提出了一种新颖的负感知范式(NAN)来捕捉隐藏层神经元的激活和失活趋势,证明了其有效性和与现有OOD检测器的兼容性。
领域泛化的交叉对比特征扰动
Cross Contrasting Feature Perturbation for Domain Generalization
摘要:领域泛化旨在学习鲁棒模型,能够在未见过的目标域上具有良好泛化能力。通过生成扰动特征在潜在空间中模拟域转移,同时对模型预测进行正则化以防止域转移,提出了在线单阶段交叉对比特征扰动(CCFP)框架。实验结果表明,此方法优于之前的最先进方法,在标准领域泛化基准上具有优越性能。
通过混淆和无知的证据建模实现灵活的视觉识别
Flexible Visual Recognition by Evidential Modeling of Confusion and Ignorance
摘要:此研究提出了一个明确地对混淆和无知进行建模的方法,以解决视觉识别系统在已知和未知类别上的问题。通过预测单例的狄利克雷浓度参数,实现对混淆和无知的量化,并在决策过程中进行比较。实验结果证明了此方法在量化不确定性和处理灵活识别的有效性。
通过图引导混合匹配增强少样本动作识别
Boosting Few-Shot Action Recognition with Graph-Guided Hybrid Matching
摘要:此研究提出了一种新的框架,通过图神经网络引导的混合匹配来增强小样本动作识别。在类原型构建过程中学习面向任务的特征,明确优化类内和类间特征相关性。设计混合匹配策略结合帧级和元组级匹配,增强视频特征的时间表示,以构建坚实的基础。实验结果证明了此方法在多个小样本数据集上的有效性和改进。
阅读更多 ICCV 有关分类识别的论文
ICCV 闭幕,来看看这些获奖论文!
顶级CV盛会ICCV(International Conference on Computer Vision)每两年在世界计算机视觉领域举行一次,今年在法国巴黎召开。投稿总数达篇,其中篇被接收,录用率为.8%。本次会议备受关注的获奖论文包括以下几篇:
最佳论文奖——马尔奖共有两篇。第一篇论文研究为扩散模型(如Stable Diffusion)添加额外的条件控制,通过在文本描述之外添加一些额外条件来控制扩散模型生成的图像的人物姿态、深度、画面结构等信息。第二篇论文内容关于如何同时在极端不同的时间尺度(从秒到皮秒)对动态场景进行成像,采用被动方式使用单光子相位检测器(SPAD)进行成像,并提出开发一种光子流探测理论,利用随机微积分的见解,从光子检测时间戳流中重建像素的时变光子流,以及推导出一种新颖的傅立叶域光子流重建算法。研究展示了这种异步成像方法的潜力,包括无需同步的情况下成像不同速度的光源,被称为被动非线性视野视频采集,以及记录超宽带视频,可回放以显示日常运动或以极慢速度播放以显示光的传播。
最佳论文奖提名论文——Segment Anything。这一备受关注的项目旨在通过使用提示等方式实现零样本迁移,实现对任何对象的分割。作者分享了相关模型和构建的数据集,成为CV研究社区的一大热门话题,目前基于该项目和数据的研究工作仍在不断被推出。
最佳学生论文奖——Tracking Everything Everywhere All at Once。这一研究内容关于一种用于估计视频中密集和远程运动的新测试时优化方法。该方法提出了一种全面且全局一致的运动表示方式,称为OmniMotion,可用于准确估计视频中每个像素的完整运动轨迹,包括处理遮挡、维持全局一致性,以及建模相机和物体运动。
ICCV作为计算机视觉领域的顶级盛会,汇聚了全球计算机视觉领域的顶尖学者和研究人员,为推动计算机视觉领域的研究与应用做出了重要贡献。趋动云作为领先的GPU云服务商,专注于为AI研究开发者提供强大的计算资源和全面的支持,对于计算机视觉研究人员具有独特的优势,助力科研成功。趋动云为计算机视觉研究者提供了强大的工具和资源,帮助他们加速研究进程、优化模型性能,取得更大的研究成果。无论是学术研究还是商业应用,趋动云都是计算机视觉领域研究者的理想合作伙伴。
ICCV 行人/车辆重识别相关论文和代码
作者:Zhaopeng Dou, Zhongdao Wang, Yali Li, Shengjin Wang
摘要:本文介绍了一种用于大规模无标注视频中学习领域泛化(DG)行人重识别(ReID)表示的方法。关键问题是如何从帧间图像中挖掘身份信息,为此提出了身份搜索自我监督表征学习(ISR)方法。ISR通过构建正对,使用可靠性指导的对比损失来抑制噪声影响,确保正对在学习过程中的主导地位。ISR的训练成本与数据大小呈线性关系,使得利用大规模数据进行训练成为可能。学习的表示具有出色的泛化能力,无需人工标注和微调,ISR在Market-和MSMT上的Rank-1排名分别达到了.0%和.4%,分别比最佳领域泛化方法高出了5.0%和.5%。在从预训练到微调的情况下,ISR在MSMT上的Rank-1达到了.4%,达到了最先进的性能。
作者:Feng Liu, Minchul Kim, ZiAng Gu, Anil Jain, Xiaoming Liu
摘要:本文提出了一种新的方法,用于将长期行人重识别(LT-ReID)扩展到更广泛的现实世界中的人类活动,同时考虑到长时间间隔内的换衣情况。为了解决人和服装的多样性导致的几何错位和外观模糊问题,提出了3DInvarReID方法,从三维穿衣人体的非身份组件中分离出身份,并重建精确的三维穿衣人体形状,以学习裸体人体形状的判别特征。为了评估研究,收集了一个名为CCDA的真实世界数据集,包含各种人体活动和服装变化。实验表明,该方法在行人重识别方面表现出卓越的性能。
作者:Bin Yang, Jun Chen, Mang Ye
摘要:无监督学习可见光-红外行人重识别(USL-VI-ReID)是一项极具挑战性的任务,旨在缓解跨模态注释的高成本问题。本文提出了一种层次框架,用于学习USL-VI-ReID的大统一表示(GUR),包括采用自下而上的领域学习策略探索分层领域,学习统一而稳健的表示以应对分层差异,以及开发跨模态标签统一模块,构建跨模态亲和矩阵以在两种模态之间传播标签。GUR框架优于现有的USL-VI-ReID方法,甚至超越了一些有监督的方法。
作者:Peng Xu, Xiatian Zhu
摘要:本文贡献了一个名为DeepChange的大型、真实的长期行人重识别基准,专注于解决服装变化的挑战。数据集包含多样化的服装变化和风格,以及从几分钟到四季、不同天气条件和事件的重现时间间隔。数据集由台不同分辨率的室外摄像机录制,提供了丰富的摄像机设置。实验表明,提出的融合模型在DeepChange上的表现优于各种最先进的模型。
作者:Chang Zou, Zeqi Chen, Zhichao Cui, Yuehu Liu, Chi Zhang
摘要:本文提出了一种差异和多实例代理方法,用于无监督行人重识别(Unsupervised Person Re-Identification)。该方法为一个簇保留差异簇代理和多实例代理,每个簇代理代表信息的一部分,而多个差异代理协作完整地代表整个簇。通过构建聚类对比损失和实例对比损失,利用差异聚类代理改进了特征表示,证明了方法的有效性,优于最先进的方法。
作者:Xingye Fang, Yang Yang, Ying Fu
摘要:本文提出了语义对齐和亲和推理框架(SAAI)以解决可见光-红外行人重识别(VI-ReID)中的异构数据问题。框架利用像素特征与可学习原型之间的相似性聚合潜在语义部分特征,并设计亲和推理模块利用行人关系优化推理。实验结果表明,SAAI框架在SYSU-MM和RegDB数据集上表现良好。
作者:Jianbing Wu, Hong Liu, Yuxin Su, Wei Shi, Hao Tang
摘要:本文提出了一种协和注意学习(Concordant Attention Learning,CAL)框架,用于学习语义对齐表征以解决可见光-红外行人重识别(VI Re-ID)中的模态间语义不对齐问题。CAL框架设计了目标感知协和对齐范式,允许在对齐异质样本时进行目标感知注意力调整。实验结果证明了CAL方法的有效性和优越性。
作者:Zhiyin Shao, Xinyu Zhang, Changxing Ding, Jian Wang, Jingdong Wang
摘要:本文提出了一种用于文本到图像的行人重识别(T2I-ReID)的统一预训练管道(UniPT),利用大规模文本标注行人数据集“LUPerson-T”和来自CLIP范式的伪文本描述。预训练过程明确调整了图像和文本模式的特征空间,保持了数据和训练层面的一致性。UniPT方法在CUHK-PEDES、ICFG-PEDES和RSTPReid上分别达到了具有竞争力的Rank-1准确率。
作者:Hao Yu, Xu Cheng, Wei Peng, Weihao Liu, Guoying Zhao
摘要:本文提出了一种模态统一网络(MUN)以解决可见光-红外行人重识别(VI-ReID)中的跨模态差异和类内差异问题。MUN通过结合跨模态学习器和模态内学习器生成辅助模态,并通过身份对齐损失和模态对齐损失发现辨别特征表征。实验表明,MUN方法在多个公共数据集上大大超过了目前最先进的方法。
作者:Geon Lee, Sanghoon Lee, Dohyung Kim, Younghoon Shin, Yongsang Yoon, Bumsub Ham
摘要:本文提出了一种用于行人重识别的无监督领域适应方法,通过引入摄像头驱动的课程学习(CaCL)框架,利用行人图像的摄像头标签逐步将知识从有标签源领域转移到无标签目标领域。CaCL框架通过调度规则逐步利用更多子集进行训练,同时生成目标域中行人图像的伪标签,以监督方式训练reID模型。实验结果证明了框架的有效性。
作者:Hao Ni, Yuke Li, Lianli Gao, Heng Tao Shen, Jingkuan Song
摘要:本文提出了一种纯转换器模型,用于领域泛化行人重识别(DG ReID),通过设计跨ID相似性学习(CSL)代理任务来挖掘不同ID共享的局部视觉信息。通过CSL任务,模型学习通用特征,从而减轻特定领域偏差的副作用。基于CSL中的局部相似性,提出了一种零件引导的自蒸馏(PSD)方法以提高全局特征的泛化能力。方法在大多数DG ReID设置下达到了最先进的性能。
作者:Jiangming Shi, Yachao Zhang, Xiangbo Yin, Yuan Xie, Zhizhong Zhang, Jianping Fan, Zhongchao Shi, Yanyun Qu
摘要:本文提出了针对半监督可见光-红外行人重识别(VI-ReID)的双伪标签交互式自我训练(DPIS)方法,用于单半监督和双半监督设置。DPIS将不同模型生成的两个伪标签整合为用于无标签数据的混合伪标签,同时引入噪声标签惩罚、噪声对应校准和不可靠锚学习模块以消除噪声伪标签的负面影响。实验结果表明,DPIS在两种半监督设置下取得了令人瞩目的性能。
作者:Shafiq Ahmad, Pietro Morerio, Alessio Del Bue
摘要:本文旨在对事件流进行匿名处理,以保护人类主体的身份免受基于事件相机的图像重建攻击。提出了一种端到端网络架构,针对保护隐私和执行下游任务(如行人重识别)的双重目标进行联合优化。网络学会扰乱事件,强制降低从隐私攻击者那里恢复图像的质量。实验验证了方法的有效性,并报告了从公开可用的SoftBio数据集和提出的Event-ReId数据集模拟出的合成事件数据的结果。
2024-12-28 13:44
2024-12-28 13:39
2024-12-28 12:33
2024-12-28 12:24
2024-12-28 11:50
2024-12-28 11:10