12-技术路线
12-技术路线
路线总览
具身智能的技术栈不是单一路线,而是多条技术线并行。不同路线对能力背景的要求不同,适合不同背景的人切入。
六条核心技术线
1. 具身算法 / VLA(Vision-Language-Action)
用大模型驱动机器人理解和执行任务。当前最热也最卷。
- 代表技术: VLA、VLM、多模态 Transformer、LoRA/P-tuning、分布式训练
- 技术成熟度: 早期。模型在开放场景的泛化能力仍然有限,大部分 demo 在受控环境中完成
- 难点: 真实场景数据稀缺、推理延迟高、模型幻觉在物理世界代价极大
- 适合: AI/软件背景强、想做算法前沿的人。通常要求硕博
- 工具栈: Python, PyTorch/TensorFlow, ONNX, TensorRT
2. 仿真与 Sim2Real
在虚拟环境中训练策略,再迁移到真机。
- 代表工具: Isaac Gym/Isaac Sim, MuJoCo, Gazebo
- 技术成熟度: 仿真侧较成熟,Sim2Real 迁移仍是核心难点
- 难点: 物理建模精度不足、传感器噪声模拟困难、真机部署时需要大量调参
- 适合: 工程能力强的软件背景,仿真到部署的全流程经验很有价值
- 关键能力: 合成数据生成、领域随机化、策略迁移、真机标定
3. 感知与多传感器融合
让机器人理解周围环境。
- 代表技术: 相机/LiDAR/IMU 标定、EKF/UKF/图优化、时空同步、数据对齐
- 技术成熟度: 较成熟,但极端工况(弱光、雨雾、震动)下的鲁棒性仍是挑战
- 难点: 多传感器时空对齐、动态环境下的稳定跟踪
- 适合: 信号处理、控制、电子背景
- 这是成都本地招聘需求最明确的方向之一
4. SLAM(定位与建图)
让机器人知道自己在哪、周围是什么。
- 代表框架: ORB-SLAM, VINS, LIO-SAM 等
- 技术栈: C++, ROS, Linux, 多视图几何, 状态估计, 视觉惯导, 回环检测
- 技术成熟度: 学术上较成熟,工程上鲁棒性仍在持续改进
- 适合: 计算机视觉、机器人的核心入口。成都本地 SLAM 岗位明确且持续
- 与感知路线的差异: SLAM 更偏几何和状态估计,感知更偏语义和理解
5. 运动控制
让机器人稳定、高效地动起来。
- 代表技术: MPC, LQR, NMPC, 全身控制(WBC), 力控, 自适应控制
- 技术栈: MATLAB/Simulink, C++, ROS, MoveIt, OMPL
- 适合: 机械、自动化、控制背景。越偏本体越需要控制底子
- 与控制算法的差异: 运动控制更偏实时物理执行,具身算法更偏任务级决策
6. 模仿学习与强化学习
让机器人通过数据或试错学会技能。
- 代表算法: PPO, SAC, GAIL, 离线 RL, 多智能体 RL
- 难点: 样本效率低、奖励函数设计困难、收敛不稳定、真机训练成本高
- 适合: 算法背景强、愿意做研究的人。工业界岗位比例不如 SLAM 和控制高
路线选择对用户的意义
如果你是软件/AI 背景
离岗位最近的切入点:
- 机器人软件平台
- 仿真与数据工具链
- 感知 / SLAM / 部署工程
- 3D 可视化、人机交互、测试验证
相对更远的切入点:
- 运动控制(需要动力学和实时系统基础)
- VLA/世界模型(需要硕博和论文积累)
如果你是机电/控制背景
离岗位最近的切入点:
- 运动控制 / 规划控制
- 机械本体设计
- 嵌入式与实时系统
后面要补的:
- Python + 深度学习基础
- ROS/ROS2 平台经验
- 论文复现和英文文献阅读
关键认知
招聘最看重的不是"只会调一个模型",而是:
- 能不能复现论文
- 能不能做仿真
- 能不能上真机
- 能不能在 ROS / Linux / C++ / Python 的混合工程环境里把东西跑通
"会训练模型"和"能把真机跑通"是两回事。后者才是当前行业最稀缺的。