Research Directions

Our research directions can be divided into:

     
包含机器人与自动驾驶两大主要分支,团队在2D、3D与重建领域展开深入探索。 团队深入探索了基于大模型的二维、三维感知优化与模型高效性,提升感知准确率、泛化性、运行效率。 团队总结了基于LLM构建的多模态大模型范式,并且细化分析其泛化到生物分析领域的亮点与难点。

具身智能

在具身智能领域,我们团队依托于在机器人技术和自动驾驶系统的丰富经验,逐步推出了一系列创新的Embodied AI模型。我们成功为机器人与自动驾驶开发出能够整合感知、决策与行动的多模态系统,这些系统在实际应用中展示了出色的性能和适应能力。团队发表的RoboMamba(NeuralPS'24)入选2024年具身智能科技前沿热点,并与北京亦庄国家地方共建具身智能机器人创新中心联合推出大规模多构型智能机器人数据集和Benchmark——RoboMIND,收到中央电视台报道。




(1) 在自动驾驶2D感知领域,在提高感知准确率方面,提出采用掩蔽自动编码器PiMAE (CVPR'23),利用其自监督学习能力对点云和RGB图像数据的交互进行深入探索,以增强模型对物体识别和图像恢复的准确率。在增强感知模型泛化性方面,提出MoFME混合专家结构 (AAAI'24),通过专家间的权重共享,可以以低开销扩大专家数量,并行去除多种不利天气效应,增强了模型在下游分割和分类任务中的泛化能力,实验证明MoFME在图像恢复质量上比基线性能高出0.1-0.2 dB,并且在节省了超过72%的参数和39%的推理时间的同时,达到了与最先进性能兼容的表现。提出TupleInfoNCE (ICCV'21),通过对比学习策略实现了多模态数据之间的有效融合,以及MTTrans (ECCV'22),通过领域查询基于特征对齐、双级图基原型对齐以及基于Token的图像特征对齐在局部、全局和实例级别对图像和对象特征进行对齐,增强了模型在面对不同任务和环境时的泛化能力。为进一步提升二维图像处理的效率,通过深度概率方法和对比损失进行表示学习 (IEEE TCD'22),优化算法生成高效的正负样本,显著降低了对大规模标注数据的依赖,提高了模型的处理速度和实时性。在视频数据的识别处理方面,提出了一种融合目标注意力掩蔽生成网络视频分割模型 (ICIP’20),结合了空间和时间信息,利用多支路网络学习对象的外观、位置和运动特征,并引入目标注意力模块进一步挖掘上下文信息,在多个视频语义分割数据集上表现出优越的分割准确率。提出了一种半监督视频目标分割方法 (ISCAS’20),利用混合编解码器网络结合光流信息生成像素级前景目标分割,并通过两阶段的方式交替训练,在视频目标分割任务上取得了领先的性能。在鸟瞰视图应用于自动驾驶方面,团队发现典型实际跨域场景中存在的显著领域差异,并全面解决了多视角3D物体检测的领域适应(DA)问题,提出了一个多空间对齐师生(MATS)框架来缓解领域偏移累积问题,在三个跨域场景上进行了BEV 3D物体检测实验,在性能上超越了目前业内最新水平。上述研究在全自主无人机电力巡检场景中部署应用 (ICRA’21),将二维感知方法部署在边缘端,无人机能够实时检测视野中兴趣目标的位置,并自动调节相机对准目标,拍摄清晰的巡检照片。申请团队提出了一系列的算法进行高效泛化地物体识别与追踪 (IJCV’21, TMM’21, IJCV’21, AAAI’20)。


(2) 在自动驾驶3D感知领域,针对三维感知技术,项目组创提出了BEV切片注意力网络BEV-SAN (CVPR'2023)和激光雷达引导知识蒸馏框架BEV-LGKD (IEEE TIV'23),通过深入分析三维空间中的局部与全局特征,显著提升了三维物体检测的准确率。此外,提出PVCL (ICRA'22)框架,用于学习稳定且具有辨识度的语义表示,平衡了系数表示仅建模局部特征和点云建模全局特征耗时的问题。在3D重建方面,项目组解决特定目标3D重建业界难题,提出NTO3D方法,利用SAM的多视角2D分割掩码提升到统一的3D占用场中。3D占用场被投影到2D空间,并为SAM生成新的提示之后,进一步将SAM编码器的2D特征提升到3D特征场中,以提高目标对象的重建质量。在模型泛化性方面,项目组引入了多级多空间对齐师生M2ATS框架 (ICRA'24),通过在不同领域之间对齐任务相关的多空间特征,有效缓解了领域偏移累积的问题,提升了模型在跨领域场景下的适应性;提出MLCNet (ICCV'21)利用点、实例和神经统计级别的一致性缓解跨域导致的几何不匹配问题。为了解决三维感知技术部署时的效率问题,项目组开发了量化感知的视图引导蒸馏方法QD-BEV (ICCV'23),在保持高准确率的同时显著提高了模型的运行效率和实时性。在克服PointDETR适配性不足,激光雷达天生局限性问题,团队提出Point-DETR3D,利用明确的位置查询初始化策略增强位置先验,通过一种新颖的跨模态可变形RoI融合(DRoI)整合了密集的图像数据,以增强检测器的感知能力,该技术性能在具有代表性的nuScenes数据集上得到验证,Point-DETR3D与之前的工作相比取得了显著改进,且仅使用5%的标注数据,Point-DETR3D就超过了其全监督对手90%的性能。在降低标注代价角度,采用体积渲染技术,提出RenderOcc (ICRA'24)实现二维语义和深度标签直接对三维监督的可能,显著降低了对昂贵三维标注的依赖。提出了一种基于对比学习的激光雷达点云分割方法 (ICME’22),首先通过预处理维持类别平衡,并引入有向对比学习机制,针对性地处理易混淆样本,在多个激光雷达点云语义分割数据集上的分割准确率达到了同时期领先水平。上述研究在无人机全自主三维扫描场景中部署应用 (ISMAR-Adjunct),通过分析目标区域三维点云的结构特征,生成目标区域的最佳拍摄视角,并引导无人机完成三维扫描所需的图像数据集采集。申请团队研发的多模态大模型智能机器人服务系统在新华网客户端、北京晚报、北京日报、新浪、网易、搜狐、量子位、36kr等20余家媒体上进行了报道,阅读量近百万次,人民日报评价为当“导游”的智能服务机器人。此外,申请团队在CVPR2023 3D Occupancy预测竞赛、ICCV2024 持续泛化学习竞赛中获得第三名与第一名的成绩。


(3) 在自动驾驶闭环仿真领域,针对自动驾驶场景仿真与重建,团队提出了首个基于3D Gaussian Splatting(3DGS)自监督重建方法S3Gaussian,在无需额外人工标注情况下实现了高精度城市街景重建。S3Gaussian为领域内首个开源可用自动驾驶场景重建模型,受到多家媒体的报道和业界广泛关注,展示出卓越的仿真性能与巨大的应用潜力。此外,团队进一步提出了可插拔的运动物体显性建模方法EMD,通过引入可学习嵌入对自动驾驶场景中动态物体的运动进行精细建模,实现了对行人与车辆等多类对象运动差异的有效表征。该方法作为即插即用模块,可无缝嵌入目前的自动驾驶仿真器中。在自动驾驶场景演化建模方面,团队提出了统一生成预训练驾驶模型GPD,将每个自动驾驶场景表征为token,并借助自回归Transformer与层次化位置编码器,实现了从场景生成、交通仿真到地图预测与运动规划等多任务的一体化解决,无需额外微调即可广泛应用于自动驾驶系统的闭环评估。在高保真自动驾驶场景构建与多模态数据生成方面,团队首次基于Diffusion Transformer架构提出了一种训练自由的区域提示方法(Training-free Regional Prompting),通过注意力操控实现了对长文本描述中多对象、多属性及复杂空间关系的精准还原,从而显著提升了图像的真实感和细节表现。以上项目目前GitHub已收获近1千个Stars,得到业界广泛关注。

多模态大模型

北京大学HMI实验室在大模型研发方面已经具备扎实的研究基础,深入探索了基于大模型的二维与三维感知优化,提出一系列基于自监督学习、对比学习和知识蒸馏等的算法框架和算法结构创新以提升感知准确率、泛化性、运行效率和标注成本,在CVPR/ICCV/NeurIPS/ICML等顶级会议上有60余篇论文发表,在CVPR2023 3D Occupancy预测竞赛、ICCV2024 持续泛化学习竞赛中获得第三名与第一名的成绩。




(1) 在大模型结构与算法研究领域,团队提出了一系列创新性结构和算法,以突破不同数据模态之间的界限,构建统一且高效的大模型架构。团队提出了多模态数据编码算法,设计了适用于2D、3D、语言、视频、图像等多种模态数据的大模型结构算法,突破模态鸿沟,构建了统一的大模型数据集,在2D领域向3D领域转移方面,针对数据集问题,团队创新型提出了FM-OV3D (AAAI’24),一种基于基础模型的跨模态知识融合方法,用于开放词汇的3D检测,通过融合多个预训练基础模型的知识,改善3D模型的开放词汇定位和识别能力,实现真正的开放词汇,而不受原始3D数据集的限制。团队提出了一种双向增强的多模态大模型结构,其性能在长尾视觉感知任务和细粒度多模态理解任务中均超越了现有的其他大模型算法。此外,团队进一步将3D点云数据与大语言模型融合,提出面向3D数据的Lidar-LLM (AAAI’25)多模态大模型结构,并在自动驾驶领域验证了其有效性。该工作首次通过充分发挥大型语言模型(LLMs)的推理能力,实现对户外3D场景的全面理解。其创新之处在于采用解释性语言建模,从根本上重新定义了3D场景认知问题。同时,我们收集了一组LiDAR-文本配对的数据集,包括420K的3D Captioning和280K的3D感知数据,为3D多模态大模型研究奠定了数据方面的基础。团队还提出了视角感知Transformer的设计,通过注入六个视角位置嵌入到3D特征中,有效地弥合了3D LiDAR和文本之间的模态差距,进一步增强了LLM对视觉特征的空间定位理解。在包涵1000多个场景的nuscenes数据集上,LiDAR-LLM在3D Captioning任务中达到了40.9的BLEU-1分数,领先于目前的多模态大模型。与此同时,我们还创新性的利用多模态大模型完成了3D定位任务,其中取得了63.1%的分类准确度和14.3%的BEV mIoU。这些结果清晰地显示了LiDAR-LLM在深度理解丰富的户外3D场景方面取得的显著效果。在模型性能验证方面,团队经过细致实验证明过往模型性能测试方法与人类评价存在隔阂,需要进一步的进展来弥合它们当前的有效性与人类评价质量之间的差距,团队提出多代理辩论框架ChatEval (ICLR’24) 的多代理裁判团队,自主地讨论和评估不同模型在开放式问题和传统自然语言生成(NLG)任务上生成响应的质量。分析显示,ChatEval提供了一个模仿人类的评价过程,以进行可靠的评估。团队研究不仅限于模型侧更侧重于用户侧,针对模型性能极大程度上依赖于文本输入的质量,团队提出PromptCoT (CVPR’24)技术,应用由高质量视觉内容描述组成的精选文本数据集来对预训练的大型语言模型(LLM)进行微调。通过独立微调微量参数的适配器即可将PromptCoT适应到新的数据集,同时训练成本和内存使用量的增加达到最小。相关研究成果已支持多篇CCF-A类会议文章投稿。


(2) 在大模型高效微调方面,团队提出了一种全新的参数高效微调范式GPS,基于梯度对模型参数进行筛选,相对于预训练大模型的全部参数,仅更新极少量的参数就可将预训练模型适应到对应的下游任务。GPS (CVPR'24)是模型结构无关的,可用于任意架构的大模型,并且具有任务特异性,可以根据不同的下游任务选出最适合的微调参数。我们的GPS不需要引入任何的额外模块,在训练与推理阶段均不会带来任何的额外计算开销。在包含自然与医疗场景的多达25个数据集上,我们的方法一致地以明显差距领先于目前所有的参数高效微调方法,以及全微调方法。适配器(Adapter)作为一种通用高效微调技术,被广泛应用于视觉、语言及多模态等各个领域,取得了较为不错的效果。然而,对适配器进行预剪枝的工作表明,适配器中仍存在着冗余参数,因此,我们提出了一种全新的适配器微调方案MoSA,通过多专家与稀疏训练的有机结合,充分挖掘适配器中全部参数的潜能。我们的MoSA通过随机激活的多专家系统在不增加计算量的情况下扩展了模型的能力,稀疏训练的方式缓解了随机激活带来的数据稀释问题,再通过深度特征对齐来避免合并阶段的参数冲突,无代价地实现了表现的稳定提升。MoSA在27个下游任务上一致地领先于所有其他适配器微调方法,同时可以很容易地扩展到提示调优(prompt tuning)、低秩适应(LoRA)等其他高效微调算法上。同时团队提出FreeKD (CVPR’24)新型知识蒸馏方法来促进高效微调技术发展,引入了Frequency Prompt吸收上下文语义频率与通过频率提示生成像素级频率掩码,以定位各种频率带中的关键像素,FreeKD在多个测试集上均取得业界领先水平。高效微调算法以其通用性,也可以用在多模态大模型和自动驾驶上,效果稳定理想,可以快速适应开放世界的OOD泛化。


(3) 在高效多模态大模型领域, 我们提出了一系列模型高效优化算法,提高多模态大模型的效率与稳定性。首先,团队创新型提出了多模态大模型端云协作框架(CVPR’24),分为三个组成部分:设备到云端的上行链路、基于云端的域适应、以及优化的云端到端侧的下行链路;上行阶段采用了一种基于不确定性引导的Token采样(UTS)策略,有效地过滤掉分布之外的Token,降低传输成本并提高训练效率;在云端,我们提出了基于Adapter的知识蒸馏(AKD)方法,将大模型的知识迁移至小模型中;动态权重更新压缩(DWC)策略用于下行链路,该策略自适应地选择和量化更新的权重参数,增强传输效率并减少云端和端侧模型之间的表征差异。此外,针对大模型存在回答不一致的问题,团队提出了ConBench (NeurIPS’24),一种基于多显著性Prompt的Benchmark,包含共四千个问答,一千张图片,对现有八种大模型进行评测;团队分析发现多模态大模型在准确率存在不一致性,错误且一致是罕见的,判别式问题的回答准确率与其生成式问题的一致性呈正相关关系,以及闭源模型相较于开源模型拥有更佳的一致性偏置;最后团队根据上述分析对Cpation的一致性进行优化,性能得到大幅提升。另外,团队还对多模态大模型冗余的视觉Token进行压缩,先后提出了SparseVLM以及FasterVLM: SparseVLM参考文本的意见,对视觉Token进行裁剪,并挑选出与合适的文本进行评判,它还借助矩阵的秩进行自适应剪枝,并对删除的视觉Token进行合并优化;FasterVLM则是发现了注意力机制存在偏移现象,根据[CLS] Token对视觉Token进行剪枝。最后,团队还提出了基于MoE结构的多视觉编码器的知识蒸馏方法,借助CLIP/SAM/ConNeXT等视觉编码器,提升多模态大模型的感知能力。

(4) 在大模型工具链领域,为了支持多模态大模型的研究,并加速大模型领域发展,团队基于LLaMA-Adapter系列开发了X-Accessory大模型综合开发套件。该套件覆盖预训练、单/多模态微调、量化及部署全套流程。基于该套件,团队已发布SPHINX, WeMix,OneLLM,Mixtral-MoE 等多项工作,已被字节跳动等机构使用。X-Accessory受到Community的广泛关注,目前GitHub已收获2千多个Stars。

AI for Science

针对多模态大模型在生物医疗领域的应用,团队得益于在通用领域多模态大模型强大的积累,陆续推出了多个针对AI for Life Science系列模型。 团队总结了基于LLM构建的成功多模态大模型范式,并且细化分析其泛化到生物医疗图像分析领域的亮点与难点,基于此,团队率先提出了五步走的策略,包括:1)大通量生物医疗图像源数据的压缩,分享工作流,用于桥接传统生物医疗相关研究团队与AI开发者; 2)数据高效的多模态,多维度,大尺度生物医疗源数据利用模式; 3)基于高效大模型的大规模预训练; 4)基于高效化微调的后训练下游知识引入; 5)基于as agent检索增强, 思维链和embodied smart microscope的测试时泛化。




(1) 基础通用模型预训练构建方面 High-level任务方面团队推出了面对的医疗通才多模态大语言模型,通过三个关键策略针对医疗领域的特殊需求进行优化:1) 提出了一种高效的特征表示方法,统一处理包括X-ray、CT、MRI在内的多种医疗影像模态;2) 引入了基于DINOv2的视觉编码器预训练、高分辨率多尺度输入、以及基于指令感知的视觉语言特征对齐模块,以提高对医疗影像特征提取的精度;3) 通过基于提示优化和基于检索增强的多模态上下文学习,提升了模型在新模态、任务和语言风格上的泛化能力。我们在医疗视觉问答和影像报告生成等任务上取得了显著成效,展现了模型的优越性能。Low-level 任务方面,团队推出了基于Mamba2的大规模预训练模型多任务基础模型Orochi,该项目利用线性复杂度的模型骨干降低训练和推理成本以大通量生物医疗数据处理,对比同规模的Transformer构架模型达到了约2倍的内存节省, 同时该模型基于多任务引导(图像融合、 修复、 超分、 配准)的自监督预训练方式来替代基于掩码的预训练,并且提供了高、 中、 低三档微调模式以支持适应不同规模,不同算力情况下的下游任务微调,这不仅增强了模型现实情况下的通用性,也进一步减少了单次推理/微调的开销。综上所述,团队进一步提出EfficientBioAI技术,旨在通过多种技术 (量化、 蒸馏、 剪枝) 以高效化给定的生物成像AI模型,达到压缩大图像处理时间、增强模型训练/推理效率,实现不损害准确性的前提下高效率信息交互,在CPU和GPU上运行时显著降低能源成本和推理时间。该技术经过多个不同的生物图像分析应用验证有2-5倍的加速,以及30-80%的能源节省。将大规模生物图像分析的运行时间从数天减少到数小时,将两分钟的生物成像AI模型推理在近乎实时内完成,有望为领域相关内容开发和生物医学发现打开新的大门 (Nature Methods’ 24)。


(2) 高效化模型后训练微调 团队基于SAM提出了一种多模态多任务的通用医疗微调方法,并自己构建了目前最大规模的通用医疗分割数据集,训练得到了通才医疗分割基础模型MedGSM,在各类医疗场景中均取得了很好的效果,并且展现出较强的泛化能力。我们根据人体器官层次将大量医疗数据组织成树状结构,并根据该结构设计了数据相关的任务嵌入作为知识指导,控制混合专家适配器进行高效微调。该方法适用于多模态多任务的场景,可以实现数据混合训练,保证不同任务之间相互促进而不产生冲突。同时具备数据高效性,仅需极少量的数据就可以将训练完成的模型适应到全新的任务上。 MedGSM在各类任务上的表现一致地超越了目前最先进的医疗分割模型。团队同时受到人脑启发,开发了一套全新的参数高效微调方法SAN。人脑在进入新环境,学习新知识时,展现出了无比的高效性与泛化性,研究表明,这与人脑形成神经印记的能力有关。 神经印记是人脑对针对性任务 (特定场景,特定知识) 形成的针对性神经调节方式,即学习下游任务时,神经元的调节程度符合幂律分布。而形成神经印记的一个重要机制则是长程激活/抑制, 若前层神经元持续受到激活/抑制,这会影响后续的相关神经元的生长。SAN则是模拟此机制,将前一层神经元在微调时的缩放分量进行分解,并且复用到后层当中,该方法在不增加训练参数量的情况下,提升了多种参数高效微调方法的的能力。 团队在多类任务上验证了其功能的普适性,包括视觉基础模型,大语言模型,视觉-语言大模型和视频生成世界模型微调任务上的卓越效果。


(3) 数据方面 我们构建了目前最大规模的通用医疗分割数据集,包含10种模态、74个数据集、264项分割任务、100余万张医疗影像,遍布全身所有器官与常见病灶。我们同时处理了目前规模最大的源数据级别,适用于大规模神经网络预训练的生物医疗图像数据库,源数据包括来自164+项研究,2-5D, 超200T总量的源图像数据和源图像相关的详细元信息。针对如此庞大和复杂的数据,团队配套的提出了基于隐式神经压缩的N维图像数据储存工作流,此方法以隐式神经网络为基础,保留其对N维数据统一压缩,可导,独立解码等优势,并且利用元学习优化器解决其表达力不足,训练缓慢,超参数搜索繁琐等劣势,完成了构建可控,下游任务引导的大压缩比压缩工作流。此方法在性能上超越成熟的商用压缩器如HEVC,并且其灵活性和可扩展性完美契合复杂的生物医疗图像场景,为后续的研究指出了一条更优的道路。

© Copyright 2025 HMI Lab - All rights reserved