阿里巴巴 高德视觉技术中心

高德视觉技术中心专注于以计算机视觉为核心的前沿研究与创新应用,致力于打造时空互联网领域的核心技术能力。
我们立足于现实世界与数字世界的交汇点,以AI驱动真实世界的智能化理解与生成,赋能智慧出行、生活服务与虚拟空间构建。

作为业界领航者,团队不仅在计算机视觉领域持续深耕,更将计算机视觉及AI技术应用在自主导航、高德打车、生活服务等多元化场景。
作为高德地图的核心技术驱动部门,我们的研究方向涵盖从感知到生成、从人本智能到世界建模的全链条技术体系,形成了六大研究领域:

高德视觉技术中心始终站在计算机视觉研究与应用的创新高地,是高德空间智能互联网的重要技术实践者。我们相信,AI对世界的理解能力,将决定未来出行与生活的智能化水平

最新动态

公开技术

🗺️
地图与自动驾驶
融合感知、地图与决策的核心技术,推动高精地图、自动驾驶感知与时空智能的深度融合。团队聚焦于构建下一代 3D 地图引擎、交通规则理解与场景级行为建模,让 AI 在真实城市道路中具备空间理解与可解释决策能力。
🛣 Online Navigation Refinement: Achieving Lane-Level Guidance by Associating Standard-Definition and Online Perception Maps
首个在线导航细化基准,提出路径感知Transformer将标准地图与在线感知关联,并统一了全局拓扑与实时几何信息,从而实现了低成本的车道级导航。
🚘 FutureSightDrive: Thinking Visually with Spatio-Temporal CoT for Autonomous Driving
在自动驾驶方向首次提出一种时空思维链的推理方法,提出了视觉生成与理解统一的预训练范式,允许模型可视化地思考,基于当前观察和预测的未来世界进行轨迹规划。
🗺 UniMapGen: A Generative Frameworkfor Large-Scale Map Construction from Multi-modal Data
一个生成式统一框架,可以通过自回归方式从多模态输入中生成平滑且拓扑一致的矢量化地图,实现可扩展的、对遮挡具有鲁棒性的大规模城市地图构建,同时无需昂贵的现场数据采集。
🛣️ PriorDrive: Enhancing Online HD Mapping with Unified Vector Priors
首个能够统一编码并融合多种矢量化先验地图(如SD地图、过期HD地图、历史地图),以增强在线高精地图构建的框架。
🚥 Persistent Autoregressive Mapping with Traffic Rules for Autonomous Driving
本文提出一种融合几何与规则的生成式联合推理范式(PAMR),它以自回归方式统一构建车道向量与持久化交通规则,赋予车辆跨越长时序的场景记忆与规则遵循能力。
📑 SeqGrowGraph: Learning Lane Topology as a Chain of Graph Expansions
一种以增量式构建邻接矩阵过程重新阐释车道网学习的生成框架。
🚗 Driving by the Rules: A Benchmark for Integrating Traffic Sign Regulations into Vectorized HD Map
交通标志中的车道级交通规则理解与绑路评测基准及多模态解决方案。
🕺🏻
数字人
以生成式AI为核心,探索数字人从“被驱动”到“自主行动”的进化。团队提出 Fantasy AIGC 系列模型,覆盖表情驱动、语音驱动、身份保持与动作生成,实现情感丰富、身份一致、物理合理的高保真数字人视频生成。
🗣️ FantasyTalking: Realistic Talking Portrait Generation via Coherent Motion Synthesis
首个基于 Wan 的高保真音频驱动虚拟人系统,通过双阶段音视对齐与可控运动调制,实现动态场景下面部表情、唇动与身体姿态的精准同步。
🎙️ FantasyTalking2: Timestep-Layer Adaptive Preference Optimization for Audio-Driven Portrait Animation
一种新颖的“时间步-网络层”自适应多专家偏好优化(TLPO)方法,在口型一致、动作自然、视觉效果三个维度上提升了音频驱动数字人动画的质量。
🗿 FantasyHSI: Video-Generation-Centric 4D Human Synthesis In Any Scene through A Graph-based Multi-Agent Framework
一种基于图结构的多智能体框架,将视频生成与三维世界动态相融合,使数字人具备感知、规划与自主行动的能力,从而在技术层面上成为连接人与世界的统一“感知–行动”推理桥梁。
🤡 FantasyPortrait: Enhancing Multi-Character Portrait Animation with Expression-Augmented Diffusion Transformers
一种全新的表情驱动视频生成方法,将情绪增强学习与掩码交叉注意力相结合,可在单人或多人肖像场景中生成高质量且富有表现力的动画。
🆔 FantasyID: Face Knowledge Enhanced ID-Preserving Video Generation
以3D面部先验、多视角增强以及层感知注入的提升运动场景下的ID保持视频生成框架。
💃🏻 HumanRig: Learning Automatic Rigging for Humanoid Characters in Animation
首个面向3D生成数字人的自动绑骨数据集以及基于变换器的端到端自动绑骨算法。
🧭
具身智能
研究智能体在虚拟与物理环境中的感知、思考与行动机制。通过视觉语言模型与强化学习的结合,构建可在三维空间中感知环境、规划目标、执行任务的具身智能体,为机器人与虚拟人提供统一的认知框架。
🧠 JanusVLN: Decoupling Semantics and Spatiality with Dual Implicit Memory for Vision-Language Navigation
首个具备双重隐式记忆的视觉语言导航智能体,解耦视觉语义和空间感知,并分别建模为紧凑的隐式神经表示。
CE-Nav: Flow-Guided Reinforcement Refinement for Cross-Embodiment Local Navigation
一个新颖的跨具身实体的局部导航框架,可用作一脑多形、可插拔的快系统。
OmniNav: A Unified Framework for Prospective Exploration and Visual-Language Navigation
OmniNav提出统一的机器人导航框架,以低延迟的连续航点策略与快慢协同规划结合多任务、通用视觉语言数据增强理解能力,在指令目标、物体目标、点目标及前沿探索任务上实现更高精度、泛化与成功率,并获真实部署验证。
🕵🏻‍♂️ FantasyVLN: Unified Multimodal Chain-of-Thought Reasoning for Vision-and-Language Navigation
一个统一的多模态链式思维推理框架,通过将世界模型的推演能力内化到 VLN 架构中,基于自然语言指令和视觉观察,实现高效且精确的导航。
Seeing Space and Motion: Enhancing Latent Actions with Spatial and Dynamic Awareness for VLA
融合空间结构与动态推理的视觉-语言-动作新范式。
🌐
世界模型
致力于构建动态、可交互的世界模型,用于理解、预测与生成物理一致的时空过程。通过跨模态数据建模与生成式学习,实现从感知到模拟的闭环,让AI具备理解真实世界的能力。
🌏 FantasyWorld: Geometry-Consistent World Modeling via Unified Video and 3D Prediction
一个统一视频先验信息和几何3D的世界模型,能够生成几何一致的、可探索的3D场景。
World-Env: Leveraging World Model as a Virtual Environment for VLA Post-Training
一个新颖的以世界模型为虚拟环境的VLA后训练框架。
🧊
3D生成与重建
探索3D世界的生成式建模与高保真重建。研究方向涵盖 Gaussian Splatting、NeRF、3D-aware diffusion 等技术,用于实现实时渲染、连续细节层次(LOD)控制与语义一致的三维场景生成。
🛰 Sat3DGen: Comprehensive Street-Level 3D Scene Generation from Single Satellite Image
一种基于几何优先策略的街景3D前馈式生成框架,无需3D标注,仅用单张遥感图像,通过几何优先约束统一实现高保真三维几何重建与街景视频生成。
💠 CLoD-GS: Continuous Level-of-Detail Gaussian Splatting for Real-Time Rendering
CLoD-GS 通过引入可学习的距离自适应透明度,为 3D 高斯喷溅表示实现单一模型内平滑、无存储冗余、无跳变伪影的连续细节层次渲染。
🧸 G3PT: Unleash the Power of Autoregressive Modeling in 3D Generative Tasks
首个基于多尺度自回归的原生 3D 生成基座大模型。
🏙 Global-Guided Focal Neural Radiance Field for Large-Scale Scene Representation
GF-NeRF 通过全局引导的双阶段架构,实现无需先验知识的大规模场景一致且高保真渲染。
🎨 MVPainter: Accurate and Detailed 3D Texture Generation via Multi-View Diffusion with Geometric Control
基于几何控制的多视角扩散模型,从单张参考图像生成高精度、细节丰富且几何一致的3D纹理及PBR材质。
🧠
通用深度学习
关注通用表示学习与模型优化,为多模态、跨任务AI系统提供统一基础。研究方向包括 Transformer架构优化、分布式训练、模型压缩 与 偏好对齐学习(DPO, RLHF),持续提升模型的泛化性与可解释性。
🎙️ A Study on the Adverse Impact of Synthetic Speech on Speech Recognition
合成语音干扰下,语音识别性能分析和新方案探索。
Doubly-Fused ViT: Fuse Information from Dual Vision Transformer Streams
DFvT 提出一种双融合视觉Transformer架构,兼顾全局上下文建模与精细空间细节保留,在保证高效率的同时实现高精度表现。
SCMT: Self-Correction Mean Teacher for Semi-supervised Object Detection
一种通过自我校正的教师架构来减少噪声伪标签影响的半监督目标检测新方法。
DPOSE: Online Keypoint-CAM Guided Inference for Driver Pose Estimation
针对DMS场景下的HPE任务,提出包含困难样本挖掘与在线关键点对齐Grad-CAM损失的优化方案。