一年一度特斯拉 AI DAY, 开场就王炸!
马斯克只用 3 分钟简短热场,人形机器人擎天柱(Optimus)直接登台亮相。

不同于去年概念 PPT 上光滑圆润的外形,今年的擎天柱金属与线缆裸露在外,就像是电影中的终结者。
现场这台擎天柱,展示了稳步行走、转体俯身、挥手与台下观众打招呼。

录像中的一台还真正走入特斯拉办公室,浇花、帮员工搬运快递。

换到汽车工厂,也有模有样地搬起了砖。

然鹅,马斯克表示这还不是擎天柱机器人的完全形态,只是试做版原型机。
舞台大幕再次拉开,更接近最终产品的 " 带皮肤 " 机器人也被搬了上来(这台还要几周时间才能才能下地走路)。

早在特斯拉今年第一季度的财报电话会议上,马斯克就曾表示 " 擎天柱的价值将超过汽车业务,超过 FSD"。
今天他更是直言,达到预计数百万量产规模后,机器人每台售价会大大低于汽车,预计低于 2 万美元。

接下来,马斯克解释了举办这场活动的目的:
用最酷的技术演示,吸引最有才华的工程师,一起把成果量产,帮助千百万人。
在马斯克眼中,自动驾驶的未来可改善人类交通效率至少半个数量级。
而他对人形机器的野心更大,改善经济生产至少两个数量级。
为啥适合来特斯拉干事业?
马斯克认为,特斯拉作为上市公司,如果公众不认可特斯拉所作所为可以用股权投票。
如果我不合适,甚至可以投票把我开除。
我并不能随心所欲,尽管很多人是这么想的。
现场招聘工程师环节结束后,马斯克本人不再是这场发布会的主角。
而是由机器人各个环节的技术负责人轮番上阵,介绍自己的工作成果。
擎天柱一年,有何进展?

去年 8 月擎天柱概念首次公开,前面看到的开发平台版与今年 2 月完成,最新一代成果仍在持续改进中。
不变的是对模仿人类的追求,包括身高体重要与人类相仿,全身关节特别是手部高度自由,以及尽量向生物的低能耗靠拢。

最新版本的特斯拉擎天柱,大脑用的是特斯拉 SoC 芯片,能源靠的是 2.3 千瓦时电池组,全身 28 个执行器(Actuator)。另外手部 11 个自由度,五指可以独立运动。
不过这个 " 大脑 " 是装在胸口的,因为这里更安全,同时集中摆放也更省电。

执行器共设计了 6 种,旋转执行器与线性执行器各 3 种规格。

线性执行器中最高规格的一款可以提起一台三角钢琴。

这些执行器装配到机器人全身不同关节,还需要做细致的参数调整。
对双足形态机器人来说,行走是行业公认的第一大难关。
行走对人类是毫无难度的一件事,千百万年进化让你无需思考便能自动执行。
但对双足形态机器人来说,想用完全不同于生物的一套材料、靠人为设计去模仿逼近,工程难度可见一斑。
特斯拉工程师介绍,需要关注有四点:
物理上的自我感知,节省能源的步态、保持平衡不摔倒、全身协调运动。

特斯拉的方法与造车流程如出一辙,设计、仿真、验证。
拿膝盖举例,灵感从人类身上来,但因机械结构材料等问题不能完全模仿人类。除了屈膝迈步以外,还要考虑下蹲拣取物体等情况的受力。

结构设计好后,可以先到模拟环境中规划动作。

一旦来到现实世界的复杂性中,还是走不出三步就会倒。

通过传感器测量,将真实世界的复杂性引入训练环境成了解决问题的关键。

最终特斯拉擎天柱也像波士顿动力 Atlus 一样,反复训练,甚至适应了人类干扰后才学会在步行中保持稳定。

从迈出缓慢第一步到学会用脚趾离地,总共花费 6 个月。

而手部运动亦是如此流程,先捕捉人类搬箱子时的运动轨迹,再结合机器人自身特点规划。

特斯拉工程师介绍,双电机版特斯拉汽车只需要考虑有限几种速度和路况。
机器人则要完成行走、上台阶、蹲起、转身等更多身体动作,以及从拧螺丝到提重物等多样任务。

据马斯克此前所透露,擎天柱正式生产最早于明年开始,
不过既然是特斯拉 AI DAY,除了机器人以外,自动驾驶和自研超算进展也不能少,下面一起来看看。
自动驾驶
自动驾驶作为特斯拉一块招牌,他们的 FSD(Beta)用户数在一年内就从 2000 飙升到 16 万。

在 AI Day 现场篇幅自然不小,核心强调更面向复杂场景将技术做深做精。
比如在没有人行横道的路口左转,对面道路有直行车辆行驶,还得面对个把拉着孩子横穿马路的行人,如若让车从行人面前快速通过也会给对方带来惊吓,造成更多难以预判的行为。
特斯拉称,他们加入安全与舒适性等维度分析,通过树搜索算法并提供人类示范,让系统能找到「合适」通过的时机和路线,最终,从横穿马路的行人身后通过。

再比如六个方向的交叉路口,即便车上配 8 个摄像头,如遇到其他车遮挡,预测难度也不小。

基于种种复杂场景,特斯拉方公布一个详细架构,让各路摄像头信号通过 RegNets,却不同摄像头使用不同 RegNet,再进入 Special attention 层,该架构同样适用于车辆、行人行为预测等场景。

视觉路线一直在圈内质疑不断,现场特斯拉以一个案例作为回应。
他们公布了一种通过语义识别预测周边车辆的方式,即便高速路上,前车捡起雪花挡住视线,使摄像头无法「看见」前车,但算法仍能通过语义预测前车的存在并做出适当决策。

此外,为支撑种种复杂场景的模型训练,其全栈式开发平台已能做到每 8 分钟生产一路算法模型,以 1.4 万个 GPU 组成阵列提供计算支持,此外他们还使用了 Accelerated Video Library,增加了 30% 训练速度。
在边缘端,他们还进行了轻量化处理,让系统降低延迟,8 个摄像头通过神经网络快速实时识别建筑及不同路面场景,更快完成 3D 场景生成。
指的一提的是,在今年 4 月奥斯汀超级工厂开业庆祝活动及 Q1 财报电话会上,马斯克都提及了不带方向盘和踏板的自动驾驶出租车产品,不少人预测他会在今天聊聊 RoboTaxi,但在现场特斯拉并未提及。
芯片与超算
去年 AI Day 上,特斯拉公布了 D1 芯片及超级计算机平台 DOJO,用以加速自动驾驶模型训练,一时吸引不少眼球——
后续提问中,有人质疑了他们如何将芯片组合并实现高效编译,今年,他们拿出了具体的答案。
首先关于芯片连接上,他们考虑到芯片连接处热膨胀系数 ( CTE ) 问题,于是,干脆做了个外部「骨架」将一个个芯片放入其中,底部配备高速记忆模块,搞了个「铁锁连环阵」:

然后整体封装,放进机柜里:

那么一通操作下来成绩如何?
按特斯拉的说法,他们在经典项目 RESNET-50 上的计算能力击败了 A100:

在替代性方面,他们以自动标注为例,宣称 4 个 DOJO 机柜可替代 72 个 GPU RACKS:

对未来,他们更是充满自信,认为不仅现在吊打 100,到 2023 年 Q1 即可实现多倍超越:

在现场,马斯克也强调特斯拉被外部认为是一家自动驾驶和造车公司,但事实远不止于此,他将特斯拉称为前沿人工智能公司,并补充半导体也是技术的一种体现,紧接着他号召更多人才加入公司,画足了技术愿(大)景(饼)。
其实活动之前,马斯克就早早发出预告,称这次活动是为了招募人工智能和机器人工程师 / 芯片超算工程师,如此看来,种种秀技术肌肉之举,也带着一鱼两吃的盘算。
One More Thing
马斯克本人在今天的活动中戏份并不多,下台后转头就开始高强度网络冲浪
比如宣称未来会有 " 猫女 " 版擎天柱机器人。

又或者给网友的梗图点赞。

看了这么多,最后让擎天柱给大家比个心吧。

原文地址:http://www.myzaker.com/article/6337e81b8e9f09311d294972