宇树科技王兴兴:机械人数据关心度有点太高了
发布日期:2025-10-19 13:58 点击:
可是对于将来对大规模的算力需求,必定是毋庸置疑的一件工作。并且我感觉可能是个分布式的算力,为什么呢?
最大的挑和并不是说单台机械人跳舞。单台机械人跳舞的话,我们其实客岁上半年就曾经实现了。这个项目最大的挑和,是用16台机械人全从动变队形跳舞。它的头上有三个激光雷达,他对整个场景的从动的变队形、走位、跳舞都是全从动进行的。
正在他看来,当前这个时点有点像ChatGPT出来之前的1到3年,用他的话来说就是“目前整个业界大师曾经发觉了雷同的标的目的以及手艺线,可是没人把它做出来”。
若是快的话,可能将来的一两年或者两三年仍是很有可能实现的。最慢的线年也是有很大要率能够实现,大师能够关心一下。
还有一个最环节的点,就是要做更大的一个抗冲击能力。由于打角逐或肉搏的时候,外部的冲击和扰动常大的,这跟纯真的跳舞表演或者技击表演很是纷歧样。若是大师有乐趣,能够关心一下我们机械人的腿部,它的腿部有良多凹坑,并且大师晓得这个腿是铝合金的,正在铝合金都有良多凹坑,所以机械人的冲击力度还常大的,也比力成心思。
海外也毋庸置疑。好比特斯拉,他们本年要量产几千台人形机械人。并且本年大要率他们会发布第三代的特斯拉人形机械人。大师也能够多关心一下这件工作。
正在本年1月份的视频中,大师能够看到(机械人)跑步仍是相对生硬一点。可是正在比来几个月我们曾经给OTA给我们的客户,跑步动做也会愈加丝滑,并且我们的跑步是能够进行复杂地形跑步。此外一些厂家可能只能正在平地上跑一下,可是我们的机械人能够上下坡,石块都能够运转。并且这个功能曾经给所有客户。所以大师能够关心到,包罗正在全球良多客户用我们机械人加入各类勾当。
2013年我想到这个方案的时候,以至想过要不要停学去创业。由于大师也晓得,停学创业还常时髦的一个概念。我其时想了想,正在阿谁时候,其实是不现实的一件工作。由于只是有个设法,没有把工具做出来,也没有此外一些资本。
机械人每次做一个肉搏动做或做一个持续肉搏动做的时候,能够认为是一个动做序列。有10到20个动做序列,要满脚随机组合。由于肉搏的时候,动做的随机性是比力大的。动做列的陈列组合体例很是多。所以不只要满脚整个动做的随机组合,并且随机组合要相对比力丝滑。
所以我小我感受,将来正在工场里大规模应的时候,好比一个工场里面有100个机械人,那工场里面能够有摆设一个集群的分布式办事器,所有的机械人就间接毗连工场里的局部办事器就好了,如许整个办事器的平安性、通信延迟是能够接管的。
可是全行业内,目前整个机械人正在RL这里scaling law,没有人做出来,没有人做好,我感觉这常值得做的一个标的目的。
对于我们人形机械人,我正在良多场所也说过,我们公司早些年,我一曲是否决形机械人的。为什么呢?由于其时正在2009年,我正在读大一的时候,做的第一款机械人就是一个小的双脚人形机械人,花了两百多元人平易近币。
对于VLA模子,目前取实正在世界交互的时候,采集的数据是不太够用的。所以有个简单的设法,就是正在VLA模子加一个RL(记者注:强化进修)的锻炼,这是大师一个很是天然的设法。可是我小我感受,包罗我们公司目前测验考试下来,VLA+RL仍是不敷的,这个模子架构仍是得再升级和优化。
可是后来正在2021年到2022年,全球人工智能成长很是敏捷。特别以ChatGPT阿谁时辰为代表的,就是整个AI的手艺前进很是显著。
最初,大师晓得过去正在AI范畴,包罗机械人范畴,都是一个全球共创的过程。中美正在内的全球良多的企业都做了良多贡献,正在AI范畴没有人能,也没有一家大公司能,有脚够的人、有脚够的资本,永久能确保其正在AI范畴是最领先的。过去OpenAI、deepseek曾经证了然AI的立异永久伴跟着一些随机性,伴跟着更多伶俐的年轻人。良多环境下,都是每家公司或者每家高校都做了良多贡献,这是需要全球共创出来的。感谢大师。
适才强调,我们公司其实是一曲很是注沉机械人,包罗工致手,包罗上班、去干活这件事。并且可能说出来大师不相信,我们公司的团队里面大部门做AI的人,都正在做让机械人干活这件工作。
简单引见一下,最早是正在2013年到2015年摆布,我正在读书期间做的XDog这款机械。根基上开创了全球范畴内这种低成本、高机能四脚机械人手艺方案的先河。简单说,就是正在我其时做这个手艺方案之前,大部门的业界(包罗良多学校)大师做的这种机械人,都是采用了工业电机和工业伺服驱动器,成本很是高。并且尺寸也很是大,很是欠好用。
“我小我感受,包罗我们公司目前测验考试下来,VLA+RL仍是不敷的,这个模子架构仍是得再升级和优化。”王兴兴认为,“用视频生成模子去做锻炼,可能比VLA模子的概率还更大。”。
适才我曾经提出了一点小我设法,但现实上仍是不太够用。目前机械人跳跳舞,打肉搏,其实结果不错了,对吧?但现实上现正在面对一个很大的问题,就是机械人的scaling law,就是缩放定律仍是做的很是欠好。
目前全球范畴内,大师正在这块的热情,特别海外的大公司,包罗英伟达、苹果、Meta、OpenAI大师都很是持续正在鞭策这个范畴的成长。良多人可能会有个误区。为什么可能机械人目前没有大规模使用,或者目前的机械人的功能还不敷。可能有人会思疑是不是目前的硬件不敷好?或者成本比力高?其实目前的硬件是够用的,某种意义上完满是够用的。目前人形机械的硬件,工致手、零件,某种意义上完满是够用的,当然不敷好啊。需要持续把它做的更好,更大的问题是要把他量产。
此外,我们的B2这款机械人,次要是工业使用的。由于我们仍是但愿机械人实正去干活,包罗工业场景等各类场景。所以这款机械人,持续扩展能力和续航能力,到现正在为止都很是强劲。
所以对于一些低速的,好比洁净机械人或者物流机械人,若是为了降低机械人的成本,很是保举用这款机械。好比对一个小的物流机械人,成本以至能够降到小几千元,常有合作力的。
我们的工业级产物,正在过去几年,曾经正在良多的工业范畴,好比电网、工场曾经有24小时运转。它有从动充电,能够从动巡查,从动识别一些图像、气体等。
本年春晚上,我们机械人跳舞,是成为了目前中国的一个科技以及保守文化的符号。我感觉这常不容易的一件工作。
良多人认为我们公司一曲把机械人当做一些表演、打肉搏之类的(产物)。其实我们公司仍是一曲常注沉让机械人干活这件工作。我们焦点方针仍是说让机械人去干活。包罗四脚机械人和人形机械人。
由于正在狂言语模子范畴,大师感觉我有脚够多的数据,特别有脚够多好的数据的时候,就能把模子锻炼的越来好。
或者换一个话题,好比一个小区每家每户有一个机械人的时候,我感觉正在这个小区或者这个区里面,必定是有分布式的一个集群算力核心的。
这个项目是跟张艺谋导演合做的。大师可能想象不到,转手绢和抛手绢的idea就是张艺谋导演提出的,然后我们帮他手艺实现了一下。
跳舞和功夫其实不算我们目前最新的手艺,算老一代的手艺。这个手艺最大的特点就是它能够进修理论上能够进修任何动做。但这个手艺有个欠好的点,就是它的动做序列都是固定的,就是正在表演之前要先去采集一个序列的动做,去做AI锻炼后再放到机械人上用。但有个很大的问题是什么呢?就是每次采集好当前,没法子去调整他的动做,以至有时候都没法子去中缀这个动做。 某种意义上是一个我们老一代的手艺。
由于大师也晓得,大师仍是但愿给本人的机械人做一些各类的服装,衣服,各类的一些涂拆,大师还常喜好的。正在我们展位上也有,大师有乐趣的话能够去看一下。到目前这个量产还没有搞定,发货可能仍是要比力晚一些。
客岁我们发布了第二款机械人,就是G1这款机械人。这款机械人到现正在,也很是具有代表性,它代表些什么工具呢?从客岁我们这款机械人发布当前到本年,大师能够发觉良多其他企业的新兴的人形机械人,都跟我们这款机械人整个架构很是雷同。
我们是但愿,每次做新锻炼的时候,是正在老的锻炼根本上去做。理论上做RL锻炼的时候,每次锻炼的时候,锻炼速度越来越快,进修新技术的结果越来越好。
其次,目前具身智能没有达到抱负结果,到底是模子的问题仍是数据的问题?王兴兴的谜底很间接,“目前全球范畴内,大师对机械人数据这个问题关心度有点太高了。”。
就简单来说,每次表演的时候,音乐一响,整个流程就全数进行。我们以至两头没法子中缀这个表演,所以这个点还常有挑和,以及当然最终结果也很是跨越大师的预期,也跨越我本人的预期。
可是为什么宣传这部门做的比力少呢?其实缘由比力简单,就是我们公司但愿干活的AI不是单功能性的AI,好比让一个机械人去拾掇衣服或者去烧个菜。我们其实并不想做这件工作。我们实正想做的干活的AI,是个通用型的AI。但愿它各类功能都能做,包罗端茶倒水、工场干活、表演性等等。而这对于AI模子挑和很是大,到现正在为止做的都不是出格抱负,所以我们对这块的宣传相对少一些。
客岁OpenAI发布他们的视频生成模子的时候,大师会有个很天然的设法,好比让它出产一个机械人拾掇房间的视频,若是能成功完成的话,那能不克不及让这个视频生成模子间接驱动机械人去做这件事,设法很是间接简单。对吧?所以我们客岁的时候就去做了这个工作。
大师也晓得ChatGPT出来前面的几年,做语音AI的曾经做了十几、二十年了。可是大师一曲感觉它很傻瓜,底子完全没法用。像ChatGPT出来当前,大师达到了一个比一般人机能还更好的一个阶段。(机械人)目前还没有到这个临界点。
正在他看来,现正在最大的问题是反而是模子的问题,并不是数据问题。由于目前就具身智能和机械人而言,模子架构都不敷好,也不敷同一。导致大师对模子反而关心的有点少,对数据的问题关心良多。
“正在将来2到5年,最主要的一件事仍是端到端的具身智能AI模子。”宇树科技CEO王兴兴正在2025世界机械会上谈及对机械人财产将来的见地时如是暗示。
正在2013年到2015、2016年,是把这个机械人给做出来了。并且这个机械人,大师可能想象不到,其时的整个研发投入大要只要1到2万元人平易近币。正在2015年的时候,我还用这台机械人去加入了一个上海的角逐,获得了总分的二等,赔了8万元金。所以这款机械也算是我赔的第一桶金。正在我们我公司2016年成立的时候,最早这部门钱就这是这么来的。
我们也做了良多的数据采集,数据开源等,我们的公开仓库,每隔一两个月城市公开一些算法,公开一些开源数据,大师能够正在玩。
目前来说正在具身智能和机械人来说,模子架构都不敷好,也不敷同一。所以模子的问题其实是现正在大师反而关心的有点少,对数据的问题关心良多。
(H1)这款机械人就是我们2023岁首年月花了半年多时间做的第一款人力机械人。由于这款机械人是我们公司做的第一代,所以外不雅上可能相对粗陋一点。但它的动力机能到现正在为止都很是强劲。上春晚的也是这款机械人。并且下个礼拜,我们正在有个机械人角逐,我们这款机械人也会上场,大师能够关心一下。
说得再间接一点,大师可能想象不到,正在2022年的时候,我们公司完全没有起头形机械人。可是有良多客户间接找我们下订单。就是我们啥都没有,可是有客户情愿间接给我们钱,付定金下订单给我们。所以这间接导致我们正在2023岁首年月就起头形机械人。
(对于模子来说),大师也晓得目前相对比力火的就是VLA模子(记者注:视觉—言语—步履模子)。VLA模子是一个相对比力傻瓜式的架构。我小我对VLA模子仍是抱一个比力思疑的立场。
对于机械人AI这个临界点,我感觉会达到什么程度呢?好比某一天,我们带一小我形机械人到这个会场,这个机械人之前也没见过这个会场,若是我随便跟它说一句话,“帮手把这瓶水带给某个不雅众”。它能够比力顺畅的本人走过去,把这个工作干了。或者说把这个房间帮手拾掇一下”。机械人完全没有见过这个房间,能本人做这件工作的时候,我感觉就差不多达到了机械人的ChatGPT时辰。
目前最大的挑和仍是具身智能的AI仍是完全不敷用。这也是人形机械大规模使用的一个最大点。简单说,就是目前的感受有点像ChatGPT出来之前的1到3年摆布的时间,目前整个业界大师曾经发觉了雷同的标的目的以及手艺线,可是没人把它做出来。
可是正在具身智能,正在机械人范畴,大师能够发觉,良多环境下数据有了,但这个数据用不起来。所以良多环境下大师对模子的关瞩目前是相对有点少,反而对数据关心有点太高了。
这款机械人的动力机能,包罗矫捷度很是好。客岁发布的时候,这款机械人低配价钱大要是9。9万元人平易近币,很是有合作力的。所以,这款机械人正在客岁,包罗本年,该当差不多是全球人形机械范畴出货量最多的。
如许的话,延迟和平安性是有的。而且若是有一个新的客户想买一小我形机械人的时候,不需要给这部门算力花钱,成本也会更低良多。
我们前一两发布的一款R1这款新的人形机械人。最大的特点,相对来说性价比更高些,当然也会更小一点,大要1。2米,但它的最低配价钱做到3。99万元人平易近币。
并且大师可能也会猎奇,为什么春晚上我们机械人会用黑色那款老的机械人,而不消更新的机械人?其实缘由也比力简单,就是这款机身有点小,大要只要1。3米多一点。正在表演的时候,大师是但愿稍微大一点的机械人,如许的话结果会比力好一些。
我们用一个预锻炼的视频生成模子,从头又去锻炼了一下,让它先去生成一个视频的机械人动做,再节制机械人去做。这个手艺是能实现的,谷歌的视频生成世界模子也是想实现这个结果。
这也是比力有代表性的一个机械,包罗现正在良多人形机械人用的良多手艺方案,跟这个手艺方案也很是雷同。别的,我们公司的四脚机械人从机次要是有三款。一款是比力小的,像GO2,这款机械人正在2023年发布的时候,就集成了狂言语模子,功能很是健全。标配了3D激光雷达、言语模子,还有各类小的功能。目前这款机械也是过去几年(包罗本年),该当全球范畴内,四脚机械人机械出货量最多的一款机械狗。
别的,我们前段时间也发布了新一款的四脚机械人。最大特点是自沉和负载能力常强的。自严沉概只要35千克。对一个成年男性来说,完全能够把它搬起来,还常便利的。但它的负载能力又很是强,持续负载能力能够达赴任不多25到30千克摆布,空载续航能够达到6个多小时,简单来说,这个空载续航大要能够达到(行进)20千米。
我感觉这个线,可能比VLA模子的概率还更大,但我不敢打包票,可能仍是会有良多问题。此中一个很大的问题是,视频生成模子太沉视视频生成的质量了,导致对GPU的耗损有点大。可是对机械人干活来说,某种意义上并不需要很高精度的视频生成质量,只需驱动机械人去干活就行了。
小我感受,正在将来2到5年,最主要的一件事仍是端到端的具身智能AI模子。大师能够多关心,多鞭策。模子本身常最主要的。别的就是更低成本的,更高寿命的硬件,这个是毋庸置疑的。
由于scaling law正在言语模子曾经是充实验证过的工作。可是正在机械人的活动节制,还方才起头。正在座的有些同窗,能够关心一下这个范畴之类,其实能够颁发一些比力好的论文。
大师晓得,对于汽车行业来说,曾经一百多年了,哪怕到今天,若是你对一家企业要做一个很好的一辆汽车出来,它的工程量还常大的。
适才说的肉搏上用的手艺,反而是我们最新一代的手艺。这个视频是我们四月份第一次把这个手艺做出来的时候做的一个预告。什么处所不太一样呢?就是这个四月份做出来的时候,它的动做速度有点慢。包罗出拳动做、踢腿动做都有点慢。
这对于整个肉搏结果来说不太抱负。所当前来我们正在蒲月份实正跟央视合做做全球曲播的时候,又把出拳速度正在内的各类动做至多加强了一倍摆布。
过去一段时间,机械人业界和投资界对数据问题的关心度很是高,有OpenAI珠玉正在前,鼎力能够出奇不雅,只需实正在数据脚够多,就能够锻炼出实正伶俐的具身智能。某种程度上,这也是近期各地机械人数采核心雨后春笋般纷纷冒出来的主要缘由。
我们客岁底对轮脚做了一些更新。大师可能会猎奇,为什么我们的轮组会相对来说有了更多的矫捷性?其实缘由很是简单,就是我们过去的一两年,我们正在人形机械人上开辟了良多些复杂的动做。我们把这些复杂动做的算法间接用到了我们机械狗。
负载能力也很是强,能达到能够四五十千克的持续负载能力。根基上一般性的话,载小我其实都没问题。当然有点性,不太保举大师这么玩。
关于低成本的大规模算力,我分享一个概念,其实正在人形机械人或者正在挪动机械人本体上,其实没法子间接摆设很大规模的算力。为什么呢?由于它的尺寸只要这么大,它的电池只要这么大,它摆设的算力的功耗是有的。
由于若是纯真的只是一个表演的节目,以表演竣事一两天当前,以至良多环境下大师都健忘了。但现正在来说,机械人跟保守文化这个扭秧歌的这个表演,曾经成为了中国的一个某种意义上一个科技文化符号。这我感觉常有代表性的一件工作。我感觉没准过个十几、二十年再看,其时的也常典范的。
正在过去良多年,我们机械人的焦点零部件都是本人开辟的。包罗关于电机、减速器、部门的传感器等,正在视频里面,是我们开辟的第二代3D激光雷达。这款3D激光雷达最大的特点就是相对来说它的视场角很是大,达到了90几度乘以360度的视场角。并且它的成本很是廉价,单个的公开零售价大要只需1000元人平易近币摆布,也是标配正在最低配的机械狗上。根基上达到2到3个厘米的精度,正在室内和室外的都能够用。
这款机械人若是带上轮子的话,它的自沉达到了快要七八十千克,其实稍微有点沉,也有点大的。可是正在这么大的环境下,它的矫捷性还常不错的。
大师可能发觉,我们机械人现正在跳舞丝滑良多。为什么大春晚上跳舞相对有点生硬呢?其实缘由很是简单,由于这个手艺我们是二月份才做出来的。
我小我感受正在人形机械人上,最多只能摆设峰值功耗大要只要100瓦的算力。最好日常平凡工做的时候算力只要小几十瓦。简单说,就只要大要几个手机的算力程度。由于它的尺寸比力小,不克不及摆设大规模算力。
若是大师日常平凡刷抖音,刷一些视频号,大师能够看到,良多我们的客户自觉这些平台上放曲播,根基上每天都有。
大师好,很是侥幸正在此做一个分享。我是宇数科技创始人王兴兴。我们公司2016年成立,到现正在有九年时间,也比力长了。我们最早是做高机能四脚机械人,比来几年也做高机能的人形机械人。目前产物的结构仍是相对比力多的,各型号城市比力多一些。
对机械人行业,好比说每年有几百万、几万万以至几亿的人形机械人。若是要出产制制出来,工程量挑和还常吓人的一件工作。
举个最简单例子,若是锻炼一个机械人的锻炼动做,比若有一个新的跳舞,或想让它干一个活。每次有新的动做,都要从头锻炼,仍是从头起头锻炼,这常欠好的一个工作。
这里也简单分享一下我们过去做的一些工作。大师能够关心到,前几天谷歌发布了他们全新一代的视频生成模子,或者某种意义上是一个视频驱动的世界模子。
起首,王兴兴认为,机械人硬件机能虽然还不敷好,但目前是够用的,“目前最大的挑和仍是具身智能的AI仍是完全不敷用。这也是人形机械大规模使用的一个最大点。”。
本年上半年,最大的特点,我小我感受,因为整个行业很是火爆,以及政策的相关支撑,平均(来讲),零件厂商、零部件厂商,每家企业有快要50%到100%的增加,增加还常吓人的。
由于机械人正在干活的时候,它的通信延迟是但愿比力低的。若是正在干活的机械人,的数据核心或者算力核心正在上海或者正在内蒙,延迟实正在是太大了。
其时我就发觉,阿谁时候你要去形机械人,他的贸易价值或者手艺常难做的。所以,我们公司成立良多年,一曲是否决形机械人。
别的一个比力有特点的是,正在它的外不雅,我们给客户留了很大的外不雅定制空间,大师能够正在改拆或涂拆本人喜好的制型。


