12-技术路线

12-技术路线

路线总览

具身智能的技术栈不是单一路线,而是多条技术线并行。不同路线对能力背景的要求不同,适合不同背景的人切入。

六条核心技术线

1. 具身算法 / VLA(Vision-Language-Action)

用大模型驱动机器人理解和执行任务。当前最热也最卷。

  • 代表技术: VLA、VLM、多模态 Transformer、LoRA/P-tuning、分布式训练
  • 技术成熟度: 早期。模型在开放场景的泛化能力仍然有限,大部分 demo 在受控环境中完成
  • 难点: 真实场景数据稀缺、推理延迟高、模型幻觉在物理世界代价极大
  • 适合: AI/软件背景强、想做算法前沿的人。通常要求硕博
  • 工具栈: Python, PyTorch/TensorFlow, ONNX, TensorRT

2. 仿真与 Sim2Real

在虚拟环境中训练策略,再迁移到真机。

  • 代表工具: Isaac Gym/Isaac Sim, MuJoCo, Gazebo
  • 技术成熟度: 仿真侧较成熟,Sim2Real 迁移仍是核心难点
  • 难点: 物理建模精度不足、传感器噪声模拟困难、真机部署时需要大量调参
  • 适合: 工程能力强的软件背景,仿真到部署的全流程经验很有价值
  • 关键能力: 合成数据生成、领域随机化、策略迁移、真机标定

3. 感知与多传感器融合

让机器人理解周围环境。

  • 代表技术: 相机/LiDAR/IMU 标定、EKF/UKF/图优化、时空同步、数据对齐
  • 技术成熟度: 较成熟,但极端工况(弱光、雨雾、震动)下的鲁棒性仍是挑战
  • 难点: 多传感器时空对齐、动态环境下的稳定跟踪
  • 适合: 信号处理、控制、电子背景
  • 这是成都本地招聘需求最明确的方向之一

4. SLAM(定位与建图)

让机器人知道自己在哪、周围是什么。

  • 代表框架: ORB-SLAM, VINS, LIO-SAM 等
  • 技术栈: C++, ROS, Linux, 多视图几何, 状态估计, 视觉惯导, 回环检测
  • 技术成熟度: 学术上较成熟,工程上鲁棒性仍在持续改进
  • 适合: 计算机视觉、机器人的核心入口。成都本地 SLAM 岗位明确且持续
  • 与感知路线的差异: SLAM 更偏几何和状态估计,感知更偏语义和理解

5. 运动控制

让机器人稳定、高效地动起来。

  • 代表技术: MPC, LQR, NMPC, 全身控制(WBC), 力控, 自适应控制
  • 技术栈: MATLAB/Simulink, C++, ROS, MoveIt, OMPL
  • 适合: 机械、自动化、控制背景。越偏本体越需要控制底子
  • 与控制算法的差异: 运动控制更偏实时物理执行,具身算法更偏任务级决策

6. 模仿学习与强化学习

让机器人通过数据或试错学会技能。

  • 代表算法: PPO, SAC, GAIL, 离线 RL, 多智能体 RL
  • 难点: 样本效率低、奖励函数设计困难、收敛不稳定、真机训练成本高
  • 适合: 算法背景强、愿意做研究的人。工业界岗位比例不如 SLAM 和控制高

路线选择对用户的意义

如果你是软件/AI 背景

离岗位最近的切入点:

  • 机器人软件平台
  • 仿真与数据工具链
  • 感知 / SLAM / 部署工程
  • 3D 可视化、人机交互、测试验证

相对更远的切入点:

  • 运动控制(需要动力学和实时系统基础)
  • VLA/世界模型(需要硕博和论文积累)

如果你是机电/控制背景

离岗位最近的切入点:

  • 运动控制 / 规划控制
  • 机械本体设计
  • 嵌入式与实时系统

后面要补的:

  • Python + 深度学习基础
  • ROS/ROS2 平台经验
  • 论文复现和英文文献阅读

关键认知

招聘最看重的不是"只会调一个模型",而是:

  • 能不能复现论文
  • 能不能做仿真
  • 能不能上真机
  • 能不能在 ROS / Linux / C++ / Python 的混合工程环境里把东西跑通

"会训练模型"和"能把真机跑通"是两回事。后者才是当前行业最稀缺的。