📝笔记：图像匹配挑战赛回顾(CVPR 2022)

Posted on 2022-07-10 Edited on 2025-01-27 Waline: Views:

笔者跟踪这项比赛较长时间，去年和前年已经写过两篇 2021, 2020, 主页, 比赛地址

其实，本来去年的比赛就要放在Kaggle上进行的，但是由于疫情以及数据准备较为耗时，于是这个决定就被推迟到了今年。

今年比赛共有3846人参与，共计642个队伍，其中128个用户是他们首次参与比赛（Top20中占有18个新用户），这些参与者来自60个国家，另外共有14170次提交记录。

通过下图可以看出：超过25倍的参与者以及150倍的提交记录：

Fun fact: 冠军方案在deadline前48小时才完成。

不同之处

相比往年的比赛，今年的不同之处具体表现在如下几个方面：

参赛者需要提交 notebooks 离线处理比赛用的数据
参赛者无法查看测试集：很难作弊
允许算法快速迭代

除此之外，还有几点差异：

砍掉了multiview track(多视图匹配赛道)，仅专注在stereo track。这么做的原因有很多，最主要的是“技术问题”，即很难在有限合理的时间内运行以及评价匹配性能。
新的数据集以及评价标准。往年的真值位姿的平移量没有尺度，仅能够评价旋转的精度；而今年的平移量拥有了尺度信息，这使得可以同时评价位姿旋转量与平移量。此外，今年使用了来自Google的非公开数据集（网上是搜不到滴）。
时间限制。总计算时长被限制在9小时（计算平台：Kaggle GPU virtual instance）以内，不能超时！这让参赛者要思考，什么算法能用什么算法不能用。一个简单的例子：使用语义分割mask对提升指标可能是有帮助的，但是需要的算力太大，那就不能使用！

有用的tricks

交换图像匹配顺序可提升 LoFTR-like 匹配器的精度
对 LoFTR-like 匹配器的位置编码归一化有效 (top2方案)
使用不同的 resize 图像的方法差异不大
使用 ECO-TR 对坐标进行优化有效 (未开源)
使用局部描述子+非学习的匹配器增加匹配数量并不奏效，如 DISK¹¹ , ALIKE¹² 等；
语义分割掩码（天空/人）也不奏效；

总结

"2-stage" 的方式对于图像匹配任务相当有效：首先找到共视区域，接着缩放进行匹配；
最好首先解决 "recall" 问题，即尽可能多的找到匹配，这个过程可以使用不同的匹配器；要相信现代的 RANSACs 可以使用较少的内点恢复位姿；
LoFTR⁵ 对输入图像大小非常敏感，这一点值得后续继续研究。

参考

1.Image Matching: Local Features & Beyond, homepage: https://image-matching-workshop.github.io↩︎
2.Image Matching Challenge 2022, homepage: https://www.kaggle.com/competitions/image-matching-challenge-2022↩︎
3.Image Matching Challenge 2022 Recap, Dmytro Mishkin, https://ducha-aiki.github.io/wide-baseline-stereo-blog/2022/07/05/IMC2022-Recap.html, homepage: http://dmytro.ai↩︎
4.Competition is Finalized : Congrats to our Winners, Recap, https://www.kaggle.com/competitions/image-matching-challenge-2022/discussion/329650↩︎
5.LoFTR: Detector-Free Local Feature Matching with Transformers, CVPR 2021, code: https://github.com/zju3dv/LoFTR, pdf: https://arxiv.org/abs/2104.00680↩︎
6.QuadTree Attention for Vision Transformers, ICLR 2022, code: https://github.com/Tangshitao/QuadTreeAttention, pdf: https://arxiv.org/abs/2201.02767↩︎
7.SuperGlue: Learning Feature Matching with Graph Neural Networks, CVPR 2020, code: https://github.com/magicleap/SuperGluePretrainedNetwork, pdf: https://arxiv.org/abs/1911.11763↩︎
8.DKM, Deep Kernelized Dense Geometric Matching, arxiv 2022, code: https://github.com/Parskatt/DKM, pdf: https://arxiv.org/abs/2202.00667↩︎
9.ANMS, Efficient adaptive non-maximal suppression algorithms for homogeneous spatial keypoint distribution, code: https://github.com/BAILOOL/ANMS-Codes, pdf: https://www.researchgate.net/publication/323388062_Efficient_adaptive_non-maximal_suppression_algorithms_for_homogeneous_spatial_keypoint_distribution↩︎
10.OANet, Learning Two-View Correspondences and Geometry Using Order-Aware Network, code: https://github.com/zjhthu/OANet, pdf: https://arxiv.org/abs/1908.04964↩︎
11.DISK: Learning local features with policy gradient, NeurIPS 2020, code: https://github.com/cvlab-epfl/disk, pdf: https://arxiv.org/abs/2006.13566↩︎
12.ALIKE: Accurate and Lightweight Keypoint Detection and Descriptor Extraction, Transactions on Multimedia 2022, code: https://github.com/Shiaoming/ALIKE, pdf: https://arxiv.org/abs/2112.02906↩︎
13.ASLFeat: Learning Local Features of Accurate Shape and Localization, CVPR 2020, code: https://github.com/lzx551402/ASLFeat, pdf: https://arxiv.org/abs/2003.10071↩︎

📝笔记：图像匹配挑战赛回顾(CVPR 2022)

不同之处

Top solutions

Top1 思路

Top2 思路

有用的tricks

总结

参考