“这个角色是黑百合,她有着一个非常夸张的大而圆的臀部,这让许多直男感到愉悦。然而,她臀部的大小不仅违背了人体比例,还挑战了基本的物理常识。这种设计为玩《守望先锋》的年轻女性创造了不现实的身体标准。因此,建议将她的臀部调整得更平、更不肌肉化,使其更符合真实的身体形象。”
《GTA6》发售,随后上线《GTA Online 2》
机器之心发布机器之心剪辑部
合成孔径雷达(Synthetic Aperture Radar, SAR)行为一种基于电磁波的主动探伤技能,具有全天时、全天候的对地不雅测智力,已发展成为一种不行或缺的对地不雅测器具,在军民许多领域均有着迫切的应用。
筹画识别(Automatic target recognition,ATR)是 SAR 图像智能解译的中枢问题,旨在对 SAR 图像中典型筹画(等闲为车辆、舰船和飞机等筹画)进行自动定位和分类,复杂、怒放、挣扎环境下的 SAR 筹画识别要作念到高精确、高敏捷、强老成、省资源,仍然濒临许多挑战。现时,SAR 筹画识别主要濒临两个层面挑战。
技能层面,SAR 筹画识别关节多为有监督、静态、单任务、单模子、单平台,对特定类别的检测和分类,齐需要各自的算法模子,每个任务齐必须从新脱手沉寂学习,这导致蓄意冗余、算法想象周期长、泛化智力严重不及、高标注依赖等问题。生态层面,由于 SAR 图像数据明锐性、标注代价崇高档成分,枯竭淡雅的、开源的代码、评估基准和数据生态,导致许多 SAR 筹画识别算法不开源、算法评估基准不长入、当今尚无公开的百万 / 千万级大范围高质地 SAR 筹画识别基准数据集等问题。
在东说念主工智能基础模子技能赶快发展的今天,SAR 图像解译领域技能改换与发展生态亟待糟蹋。
图 1. 各式特意的 SAR ATR 数据集和任务。SAR ATR 包括各式成像条款(即操作条款),如筹画、场景和传感器。但是,由于资本较高,等闲是在特定任务和诞生中汇注数据集。举例澳门六合彩,MSTAR 是 X 波段和草地场景中的 10 型车辆筹画分类数据集,SAR-Aircraft 是从三个机场和 C 波段卫星汇注的 7 型飞机检测数据集。不同的筹画特征、场景信息和传感器参数使现存算法的泛化贫窭。因此,团队旨在建立 SAR ATR 基础模子,一种用于各式任务的通用关节。
为了搞定上述技能挑战,国防科技大学电子科学学院刘永祥&刘丽教会团队建议首个公开荒表的SAR图像基础模子SARATR-X 1.0。
技能层面:①率先开展基于自监督学习的 SAR 筹画特征暗示学习;②改换性地建议了适用于 SAR 图像的聚拢镶嵌 - 预测自监督学习新框架(Joint Embedding Predictive Architecture for SAR ATR, SAR-JEPA),让深度神经汇注只是预测 SAR 图像疏淡且迫切梯度特征暗示,灵验地扼制了 SAR 图像算计斑噪声,幸免预测 SAR 图像含算计斑噪声的原始像素强度信息;③研制了首个 SAR 图像筹画识别基础模子 SARATR-X(0.66 亿参数,基于 Transformer),糟蹋了复杂场景中 SAR 筹画特征学习对大范围高质地标注数据高度依赖的瓶颈,大幅莳植了预锻练基础模子的通晓智力。
生态层面:团队努力于为 SAR 图像筹画识别创建一个淡雅开源生态,以促进 SAR 筹画识别技能快速改换发展。①法式和整合已有公开数据集,酿成较大范围 SAR 图像陆海筹画识别数据集 SARDet-180K;②为了取代 MSTAR(10 种车辆型号),耗时两年构建 SAR 车辆筹画识别数据集 NUDT4MSTAR(40 种车辆型号、更具挑战的本体场景、数据公开、范围跳跃同类型数据集十倍),进行了详确性能评测;③开源关联的筹画识别算法代码和评估基准。
斟酌后果以 “SARATR-X:面向 SAR 筹画识别的基础模子(SARATR-X: Towards Building A Foundation Model for SAR Target Recognition)” 和 “预测梯度更好:探索聚拢镶嵌-预测框架的 SAR ATR 自监督学习(Predicting gradient is better: Exploring self-supervised learning for SAR ATR with a joint-embedding predictive architecture)”,被外洋顶级学术期刊《IEEE Transactions on Image Processing》拜托和《ISPRS Journal of Photogrammetry and Remote Sensing》发表。
团队的代表性职责还是发表、拜托后,已经引起国表里同业留情,赢得积极评价。引文单元包括好意思国空军斟酌实验室、法国古斯塔夫・埃菲尔大学、新加坡南洋理工大学、北京大学、武汉大学、北京航空航天大学等。
举例,ISPRS Journal 主编、LASTIG 实验室主任 Clement Mallet 在其论文《AnySat: An Earth Observation Model for Any Resolutions, Scales, and Modalities》中觉得 “SAR-JEPA [41] 初次将聚拢镶嵌预测框架看法应用于对地不雅测,特意用于 SAR 数据。(引文原文:SAR-JEPA [41] introduces the first implementation of JEPA concepts for EO, focusing exclusively on SAR data. In this paper, we combine JEPA with a versatile spatial encoder architecture, allowing a single model to handle diverse data scales, resolutions, and modalities.)”
此外,该团队正在加紧研制 SARATR-X 2.0,展望参数范围 3 亿,SAR 筹画切片样本范围 200 万,其中汇注的数据将酿成开源数据集以行状生态开荒,近期将发布 SAR 车辆筹画识别数据集 NUDT4MSTAR。
技能决议
团队旨在构建一个通用 SAR 图像筹画识别基础模子以知足施行中千般的识别任务需求。行为首个公开荒布的 SAR 图像筹画识别基础模子 SARATR-X 1.0,该模子从大范围无标注 SAR 筹绘制像中学习到了较为通用的特征暗示,糟蹋了传统有监督算法相宜性局限,为各式下流任务的高效相宜提供基础。在系列职责中,团队斟酌了 SAR 图像筹画识别基础模子的预锻练集、模子架构、自监督学习和评估基准。
预锻练集,所使用的预锻练集包括不同的筹画类别和成像条款,以相宜各式下流任务,将大部分开源数据集行为预锻练的一部分,共纳入了 14 个具有不同筹画类别和成像条款的分类和检测数据集,行为新的预锻练数据集,以探索基础模子的后劲。
表 1. SARATR-X 用于预锻练的 14 个开源合成孔径雷达数据集。
模子架构,剿袭 HiViT 架构,旨在齐备更好的遥感图像空间暗示,极度是关于大图像中的小筹画。HiViT 具有 Swin Transformer 高分裂率输入的上风,且可在自监督学习的掩码图像建模中丢弃补丁提高锻练效劳。
自监督学习,SAR 算计成像中的散斑噪声会对图像质地产生负面影响。此外,SAR 幅度图像的视觉特征不像光学 RGB 图像那样理解。因此,SAR SSL 的主要任务是提高特征学习和筹画信号的质地。在前期职责 SAR-JEPA 中,要点斟酌了怎样针对 SAR 图像特质想象自监督学习关节。
SAR-JEPA 受 JEPA、MaskFeat、FG-MAE 等职责启发,这些职责足下特征空间进行自监督学习任务,而非在原始像素空间进行,这压缩了图像空间中信息冗余,且不错学习到不同特征,如筹画性质、深层语义特征。SAR-JEPA 针对 SAR 图像噪声问题,要点在一个降噪特征空间进行自监督学习,通过归拢传统特征算子去除散斑噪声干豫,索求筹画边际梯度信息用于自监督,从而齐备在 SAR 图像这种噪声数据中的大范围无标注自监督学习。其拆伙标明自监督学习模子性能可在不同 SAR 筹画分类数据集上跟着数据量而不停增长。这鼓舞了咱们基于大范围数据集构建一个通用 SAR 图像筹画识别基础模子,从而齐备在不同筹画、场景、传感器和识别任务中高效复用。
因此,SARATR-X 基于 SAR-JEPA 进行锻练,最先在 ImageNet 数据进行预锻练,以赢得更好的运行化模子千般性,第二步是足下 SAR-JEPA 中高质地的筹画信号对 SAR 图像进行预锻练。
图 2. 两步预锻练流程。第一步是对 ImageNet 数据进行预锻练,以赢得更好的运行化模子千般性。第二步是足下高质地的筹画信号对 SAR 图像进行预锻练,比如扼制散斑噪声和索求筹画边际的多方法梯度特征。
评估任务,针对全面评估基础模子的性能需求,团队足下 3 个开源筹画数据集,最先构建了一个包含 25 个类别的细粒度分类数据集 SAR-VSA,以评估所提改换措施的灵验性。然后,在公开分类和检测数据集上,对所提 SARATR-X 1.0 和现存关节进行了全面相比。
模子性能
受限于公开的 SAR 筹画识别数据集范围,研制的 SAR 图像筹画识别基础模子 SARATR-X 1.0 范围唯有 0.66 亿参数,但从大范围无标注 SAR 筹绘制像中学习到了较为通用的特征暗示。在多种下流筹画识别任务上(8 个基准筹画识别任务,包括小样本筹画识别、老成筹画识别、筹画检测等)的性能达到外洋先进约略最先水平(如下图 3 所示)。在细粒度车辆 MSTAR 数据集中,它的筹画分类性能优于现存的 SSL 关节(BIDFC),莳植 4.5%。
此外,它在推广操作条款 EOCs(擦地角 EOCs-Depression、筹画成就 EOCs-Config 和筹画版块 EOCs-Version)下发扬淡雅。SARATR-X 在各式类别(多类的 SARDet-100K 和 OGSOD、船舶 SSDD 和飞机 SAR-AIRcraft)的筹画检测下也具有竞争力,平均莳植约 4%。何况所提关节具有淡雅的数据量和参数目可推广性,具有进一步莳植后劲。
图 3. SARATR-X 1.0 分类和检测的拆伙。
检测拆伙分析,检测可视化如下图 4 所示,虚警和漏检在 SAR 图像中很常见,极度是在雷同的筹画类似和复杂的场景。固然所提关节通过学习图像中的凹凸文信息,灵验地提高了检测效果,但复杂场景和低质地图像的筹画检测仍然额外贫窭。
图 4. 在 SARDet-100K 上进行检测的可视化。
注眼力千般性分析,关于不同模子的注眼力范围进行可视化分析,如图 5 所示,通过模子架构(图 a v.s. 图 b),运行化权值(图 a v.s. 图 c)和 SSL (图 d v.s. 图 e)改换以确保 SAR 筹画识别的谛视范围不同,包括 HiViT 架构、ImageNet 权重和 SAR 筹画特征。
图 5. 不同谛视头的平均谛视距离(x 轴为谛视头层数,点款式代表不同的层,以便更好地可视化),谛视距离(Attention Distance)代表了一个接受域的范围。
可推广性,尽管掩码图像建模不错灵验地随数据资源和模子参数推广性能,但在处理噪声数据(如 SAR)时,所提关节是否不错确保其可推广性?图 6 从三个角度展示了实验的拆伙:数据集大小、模子参数目和锻练轮数。尽管预锻练集包含 18 万个图像,比 ImageNet-1K 小,但在图 6(a)和(b)中,跟着数据和参数目的加多,下流任务性能呈现显赫高涨弧线。这一拆伙标明,通过索求高质地的特征行为招引信号,基础模子不错充分说明其在 SAR 筹画识别中的后劲。但由于数据量截止,模子在推广锻练轮数时倾向于过拟合。此外,SAR 图像噪声和低分裂率进一步加重了过拟合。
图 6. SARATR-X 在数据集大小、模子参数目和锻练轮数方面的可推广性。固然关节受益于这三个方面,但需要注宗旨是,由于数据集的大小,过大的锻练轮数时时会导致过拟合。
更多图表分析可见原文。
论文传送门
SARATR-X
题目:SARATR-X: Towards Building A Foundation Model for SAR Target Recognition期刊:IEEE Transactions on Image Processing论文:https://arxiv.org/abs/2405.09365代码:https://github.com/waterdisappear/SARATR-X年份:2025单元:国防科技大学、上海东说念主工智能实验室作家:李玮杰、杨威、侯跃南、刘丽、刘永祥、黎湘
SAR-JEPA
题目:Predicting gradient is better: Exploring self-supervised learning for SAR ATR with a joint-embedding predictive architecture期刊:ISPRS Journal of Photogrammetry and Remote Sensing论文:https://www.sciencedirect.com/science/article/pii/S0924271624003514代码:https://github.com/waterdisappear/SAR-JEPA年份:2024单元:国防科技大学、上海东说念主工智能实验室、南开大学作家:李玮杰、杨威、刘天鹏、侯跃南、李宇轩、刘振、刘永祥、刘丽