figure 01视频被质疑“注水”？看看创始人何如说

李佳龙 2024-03-17 16:06 653

"figure 01视频被质疑“注水”？看看创始人何如说,这篇新闻报道详尽，内容丰富，非常值得一读。这篇报道的内容很有深度，让人看了之后有很多的感悟。作者对于这个话题做了深入的调查和研究，呈现了很多有价值的信息。 " 账号设置我的关注我的收藏申请的报道退出登录登录搜索36氪Auto数字时氪将来消费智能涌现将来城市启动Power on36氪出海36氪研究院潮生TIDE36氪企服点评36氪财经(Finance)职场bonus36碳后浪研究所暗涌Waves硬氪媒体品牌企业号企服点评36Kr研究院36Kr创新咨询企业服务核心服务城市之窗行政部门服务创投发布LP源计划VClubVClub投资机构库投资机构职位推介投资人认证投资人服务寻求报道36氪Pro创投氪堂企业入驻创业者服务创投平台首页快讯资讯推荐财经(Finance)科技(Technology)创新城市最新创投汽车(Car)企服专精特新直播视频专题活动搜索寻求报道我要入驻城市合作Figure 01视频被质疑“注水”？看看创始人怎么说适道·2024-03-15 18:56关注端到端（End-to-End）会成为主流吗？

引言

2023年3月，一家仅创立几个月的机器人公司号称要推出“世界上第一个商业上可行的通用人形机器人”，并放出了几张PPT。

接下来的一年中，这家名为Figure的公司经历了——被质疑“碰瓷波士顿动力”——创纪录地迈出人形机器人“动态双足行走”第一步——半个硅谷科技(Technology)圈下注，融资高达6.75 亿美元，估值猛涨至26亿美元。

本周三，仅在B轮融资完成后的13天，这位“当红炸子鸡”放出了Figure 01的最新视频。

虽然只用到了一个“端到端”神经网站，但Figure 01却可以在你想要食物时，贴心地递上苹果而不是盘子；还能一边回答你的问题，一边对物品进行(Carry Out)分类——将垃圾收拾进框子里、将杯子和盘子归置放在沥水架上。而且！它甚至能回答你餐具沥干水分的大致时间。

有人说，Figure只用了1年时间，就走完了波士顿动力20多年的路。于是，压力给到了波士顿动力，让我们(We)回到实验室，再扒一些女团舞吧（bushi）。

话说回来，Figure 01的最新视频有没有一丝丝“注水”的可能性？难道传说中“世界上第一个具身智能”机器人真的来了？！

Figure创始人Brett Adcock特意在X上强调，视频是以1.0倍速度拍摄并连续拍摄的，机器人是在完全自主的情况下进行(Carry Out)的行为，没有远程操作。

言外之意就是“无剪辑，无加速，一镜到底”。

然而，适道和一些相关领域投资人交流时，获得了另一条思路：有没有一种可能——Figure 01的完美表现是“试”出来的。

例如在测试阶段，当你说“我饿了”并指向“苹果和碗”，Figure 01会递给你碗；当你指着“梨子和盘子”，Figure 01会递给你盘子。可能试了一大通后，得出面对“苹果和盘子”组合，Figure 01的表现是最好的。

但在适道看来，与其说这是“注水”，不如说这正是Figure神速进化的技术秘籍——“端到端”技术黑盒。

01 Figure进步神速的秘籍——“端到端”神经网站

根据Brett Adcock的说法，Figure 01主要通过“端到端”神经网站来与人类进行(Carry Out)对话。大致流程为：OpenAI的LLM提供“大脑”——视觉推理和语言理解；Figure神经网站提供“小脑”——做出一系列快速、低级、灵巧的机器人动作。

Figure机器人操作高级AI工程师Corey Lynch进一步解释：“这些神经网站以每秒 10 帧的速率接收机器人内置图像，并能生成每秒200次的24自由度动作（包括腕部姿势和手指关节角度）”

何为“端到端”？

“端到端”（End-to-End）是深度学习中的概念，指一个AI模型，只要输入原始数据，就能输出最终结果(Result)，有点像马斯克遵循的“第一性原理”。

举个简单的例子，两个同龄小孩，一个生活(Life)在城市，一个从小长在河边。城市小孩想学游泳，需要找教练，进行(Carry Out)一系列抱水、换气、划水、蹬腿的分解动作，才能系统性地掌握蛙泳技能；而在河边长大的小孩，看了大人们游泳的姿势，就去下河摸索，经历了呛水、训练、强化，也学会了游泳，而且游得像鱼一样娴熟。

如果你要问这个小孩经历了哪些针对性训练，都有什么训练模块，他一定答不出所以然。但从结果(Result)来讲，他不仅泳技超群，甚至学习时间还可能更少。

“端到端”的原理跟这个例子有点类似。

例如，想让机器人变成“咖啡师”，如果通过传统编程，虽然看起来“透明”“可解释”，但代码非常复杂，灵活性也很差。

而Figure 01的卓越表现证明了，通过这种“不可解释”的“端到端”神经网站（输入视频、输出行动轨迹），机器人能够在数小时训练后就能get新技能。

在1月5日的视频，Figure 01展示了自己出色的“学霸”能力，只需观看10小时的人类煮咖啡录像，就能学会人类的动作和手势，并通过模仿这些动作，成为一名real咖啡师。

而“端到端”也正在成为机器人训练的主流路子。例如，1X EVE 、Digit同样是通过“端到端”学习新技能。

由此不难得出，虽然目前(Currently)Figure 01展示的只是做咖啡、物品分类，但理论上，只要获取到人类的数据，进行(Carry Out)“端到端”地训练，它就能掌握更多技能。

我们(We)再回到被“质疑”的“苹果和盘子组合”——即便Figure 01的完美表现是“试出来”的，但随着“端到端”训练量加大，“试错”会越来越少，成功(Success)率越来越高，最终Figure 01可能许真能轻松拿捏家务，说不定还会在你喊饿时包出一顿饺子。

这一切正如创始人Brett Adcock所言：机器人就像我的孩子们一样，在他们(They)学习做某件事的过程中，尽管可能失败(Failure)了很多次，但他们(They)一旦掌握了就不会忘记，然后他们(They)会不断积累新的技能。

02 创始人：人形机器人成本会低于一台廉价电动汽车(Car)

Figure的创始人Brett Adcock年仅38岁，但Figure已经是他创立的第三家科技(Technology)公司。在去年10月的一次访谈中，Brett 分享了 Figure 01的设计过程，以及他对于通用人形机器人领域的预测。

Brett 认为人形机器人研发一定是软硬件一体的过程，LLM 为机器人提供了强大的大脑，是软件层面的重要补足，而硬件角度，几乎没有成熟的供应链可供使用，因此，Brett要求团队在设计产品的同时就要考虑到机器人重量、计算处理、现实环境等细节。

适道也对访谈进行(Carry Out)了原文编译和节选，请配合食用。

1、简单介绍一下 Figure，你们(You)的使命和目标是什么？

Brett：Figure 是一家 AI机器人公司，专注于设计自动通用人形机器人（Autonomous General-purpose Humanoids）。自动通用人形机器人是指具备自主能力，能够自动执行多种任务，并且在外观和行为上类似于人类的机器人。我们(We)的目标是在长期能够部署和人类数量一样多的人形机器人，让体力劳动成为一种选择而非必然。

我们(We)的远期计划是在全球部署 100 亿个人形机器人。将来 1-2 年内，我们(We)的重点将放在开发具有里程碑意义的产品上，希望(Hope)在将来一两年内，能向公众展示大量人形机器人产品的研发成果，包括 AI 系统、低级控制（Low-Level Control）等，最终展示能在日常生活(Life)中发挥作用的机器人。

2、如果能成功(Success)降低制造成本、提高生产量，一个功能完善的人形机器人制作成本能降低多少？

Brett：如果我们(We)回顾消费品可能汽车(Car)行业的发展历史(History)时，可以看到产品的价格与生产量之间存在强相关。根据经验曲线（Experience Curve），每当生产数量翻倍，产品的价格可能成本就可能下降 20%可能 30%。因此，我们(We)可以认为价格取决于生产量。

这个原理同样适用于人形机器人的生产。目前(Currently)，一个人形机器人大约有 1000 个零件，重量约为 150 磅（68 公斤）。相比之下，一个电动汽车(Car)可能有大约 1 万个零件，重量可能在 4000-5000 磅（1800-2250 公斤）之间。

从长期来看，一个人形机器人的成本应该低于一台廉价电动汽车(Car)。这主要取决于机器人的执行器、电机组件、传感器的成本以及计算成本。

3、你们(You)打算训自己的模型，还是集成其他模型？

Brett：要让人形机器人从工厂走进家庭，关键在于语言，所以 LLM 可能视觉语言模型对我们(We)的业务帮助很大。我们(We)要让机器人能够从语义层面理解世界，做到理解和回复用户的需求和指令，恰好 LLM 可以做到这点。

因此，我们(We)会逐步将视觉语言模型加入机器人的研发过程，从高层次的行为角度来帮助人形机器人理解人类在说什么，让它能与人类进行(Carry Out)对话，同时推断和理解人们在说什么以做出回复。

我们(We)很可能不会自己训模型，但我们(We)可以在机器人系统上训练视觉语言模型，关联传感器数据。

打造一个正确的 AI 数据引擎对我们(We)来说非常重要，它能确保我们(We)对机器人产生的数据进行(Carry Out)准确的训练，对神经网站进行(Carry Out)正确的训练，以便将来能够有效地部署和使用。这也是驱动我们(We)尽快让产品进入市场的动力，我们(We)希望(Hope)将更多的机器人投放市场，收集数据，从而让我们(We)将来的机器人队伍将变得更加智能、学会更多技能。

4、为什么需要软硬件一体开发？

Brett：如果算上做控制系统（control）、中间件（middleware）和自主决策与行动能力（autonomy）的人，我们(We)的软件占比会比硬件稍微多一些，因为硬件团队的员工只有 15 个左右，软件规模要明显大一些。

长远来看，软件会成为公司最大的业务板块。Figure 作为一家专注于 AI 的公司，以后会有一个庞大的 autonomy 团队，并且研发出关键的 AI 数据引擎。

但硬件方面也同样重要。如果我们(We)真的想做出达成高性能、高可靠性、高安危性和低成本的人形机器人，就需要开发自己的执行器、电子设备、电池和几乎所有软件，因为这些都没有现成的解决方案。

长时间从事软件开发再进入硬件领域是真的很困难，研发硬件需要经过一个漫长的迭代周期，这也是我们(We)受挫的主要因素。

5、人形机器人的潜在大市场在哪里？何时出现？

Brett：我们(We)计划先在将来十几年内持续扩大在商业劳动力市场的规模。我们(We)关注的领域包括医疗保健、房地产、建筑和零售等，我相信这些领域都有巨大的市场潜力。

另外，还有一些市场尚未应用人形机器人，比如房地产。科技(Technology)房地产公司开发的在线平台可以使用人形机器人来代替人类经纪人提供服务。人们可以通过访问网站预约看房，然后由人形机器人打开门迎接他们(They)，在一个虚拟的房屋中全程介绍。这是一个价值数万亿美元的市场，但科技(Technology)公司迄今为止还未涉足，因为目前(Currently)房地产领域的工作仍然过于依赖人力。

此外，还有许多行业的工作可以通过远程操作可能其他技术来完成，人形机器人可以为这些行业带来新的发展机会。

6、人形机器人会让人们失去工作吗？

Brett：我的观点是在接下来的 10-20 年里，机器人业务的发展将与自动驾驶汽车(Car)的发展路径类似。就像自动驾驶汽车(Car)，高速公路的测试视频会比城市街道的更早公开，是因为城市街道有更高的安危要求和更多的不确定性。

同样，人形机器人也会首先解决相对容易的问题，比如在预知环境和任务的情况下搬运货物。这类任务就像在高速公路上驾驶，相对简单易行。然而，更复杂的任务，例如在家中烹饪可能照顾老年人，就像在城市街道上驾驶，更具挑战性。

尽管大家对人形机器人的期望往往集中在复杂任务的解决上，比如谷歌的机器人做垃圾分类，丰田研究院在杂货店等场景的研究，但这些都是非常困难的挑战。

我很高兴(Happy)有这些研究，但从商业角度出发，我们(We)的首要任务应该是解决那些简单但必要的问题，然后逐渐将 AI 数据引擎应用到更复杂的任务中。

所以，Figure 和其他研究团队关注的事情恰恰相反。我们(We)的目标是在仓储制造领域应用人形机器人，这个领域的劳动力短缺问题最为严重。全球约一半的 GDP 来自劳动力，我们(We)正在面对全球范围内的劳动力短缺问题。随着婴儿潮一代的退休和生育率的下降，这个问题将越来越严重。

本文来自微信公众号“适道”（ID:survivalbiz），36氪经授权发布。

该文观点仅代表作者本人，36氪平台仅提供信息存储空间服务。

+17

好文章，需要你的鼓励

适道特邀作者2收藏+10评论打开微信“扫一扫”，打开网页后点击屏幕右上角分享按钮微博沉浸阅读返回顶部参与评论评论千万条，友善第一条登录后参与讨论(Discuss)提交评论0/1000你可能也喜欢这些文章方形or圆形，智能手表表盘形状变迁背后的那些事厨电巨头在AWE的5大关键词：智能厨电先吃AI家电螃蟹祖国企业猛砸研发，日本(Japan)欧洲压力山大星舰第三次发射不圆满，但马斯克没失败(Failure)开源版OpenAI机器人2.5万打造，斯坦福李飞飞团队祭出「灵巧手」，泡茶剪纸炫技仅需200M参数，零样本性能超越有监督，谷歌发布时序预测基础模型TimesFMSpaceX第三次试飞：消失的星舰，是值得期待的将来4万亿晶体管5nm制程，全球最快AI芯片碾压H100，单机可训24万亿参数LLM，Llama 70B一天搞定OpenAI大模型上身机器人，原速演示炸场最新文章推荐开源版“Devin”AI程序员炸场：自己分析股票、做报表、建模型欧美玩不起纯电315：合资车、进口车不香了？这些品牌质量、售后均藏“雷”“落后”的内存要大幅涨价，祖国厂商迎来商机奢侈品钟爱「荒诞设计」？巴黎世家手镯、VERTU水龙头打火机2024，哪吒汽车(Car)难闹海“星舰”成功(Success)的秘密：马斯克与米国官僚体制的战争复星郭广昌的“忍痛割爱”还未结束方形or圆形，智能手表表盘形状变迁背后的那些事超高分辨率拖累Vision Pro，扎克伯格说了句实话

适道特邀作者

拨开商业迷雾，探索适者生存之道。

发表文章66篇最近内容Figure 01视频被质疑“注水”？看看创始人怎么说1小时前让马斯克嫉妒的男人，OpenAI“第一投资人”：AI硬件是“伪命题”2024-03-11别跟马斯克扯头花了，“叛徒”Anthropic解决了困扰OpenAI的难题2024-03-07阅读更多内容，狠戳这里下一篇马斯克火出大气层，特斯拉跌到悬崖边

星舰上天，特斯拉暴跌。

1小时前

热门标签鲷鱼天山雪量子态潮汕菜美食(Food)旅游(Travel)上海市统计局非上市公司股权激励非上市公司姜华软件授权会议纪要声波支付泡泡浴光伏签约电动扶梯明星(Star)婚礼脑瘫三公子6·21爆吧事件百度贴吧吧主制度阿尔卡特朗讯乳头猪脖子脓毒症爽子attention汪军无锡尚德大闲人皮下脂肪关于36氪城市合作寻求报道我要入驻投资者关系商务合作关于我们(We)联系我们(We)加入我们(We)网站谣言信息举报入口热门推荐热门资讯热门产品文章标签快讯标签合作伙伴