多模态大模型强力赋能,聆动通用引领具身智能步入崭新发展时代
在科技飞速发展的当下,自 2022 年 11 月起,GPT 等模型的崛起及其迅猛发展,为机器人领域带来了翻天覆地的变化。多模态模型,尤其是视觉语言模型,让人形机器人在理解开放式场景和执行复杂认知任务上取得了突破性进展。据预测,未来 10 到 15 年,机器人在知识密度和运算智能上有望超越人类,但在抽象演绎和联想创造新知识方面,人类仍占据优势。在此背景下,机器人更多地被定位为人类的辅助工具,特别是在重复性和危险性任务中发挥重要作用,甚至可能催生如机器人技能训练师等新职业。
2025 年 3 月 13 日,在第三届具身智能机器人产业发展论坛上,聆动通用创始人兼 CEO 季超指出,在机器人技能训练里,数据采集和仿真至关重要。真实数据价值高,然而采集成本也高。借助通用预训练模型,针对垂直领域和客户特定需求进行定制化训练,能够构建出适用于不同行业的强大模型。展望未来,具身机器人极有可能像智能手机一样,重塑商业格局,引领行业从功能型机器人时代迈向智能机器人时代。
大语言模型的突破是近年来人形机器人及具身通用机器人发展的底层逻辑。2022 年 11 月 ChatGPT 进入国内,标志着机器智能进入新阶段,随后 GPT-4 的进化,在复杂认知、推理及多模态任务处理能力上大幅提升,与机器人的视觉语言等模型高度契合。例如 GPT 在多模态复杂场景语义理解和推理能力上表现卓越,让机器人在特定专业领域有超越人类智慧的潜力,串联起机器人的运动控制、感知与决策,为具身工业、制造及家庭等领域创造了无限可能。
国内团队密切关注大模型发展,以 OpenAI 为代表的大模型不断更新迭代。虽然对于大模型的 scaling law 是否达上限存在探讨,但实际上大模型基座的 scaling law 天花板持续被突破,如 OpenAI 的 o1 在处理专业复杂认知任务上超越人类,DeepSeek 在技术等方面也取得创新成果。
聚焦未来机器人与人类的关系,生成式大模型在知识储备上已达较高水平,知识密度可与高校学生媲美,运算智能和知识密度超越人类。不过,在未来 10 至 15 年,其仍不具备人类独有的抽象演绎和联想创造新知识的能力。在柔性制造业,大模型技术已能实现出色管理,但在家庭等开放场景中,距离理想状态仍有差距,尚不具备自主意识。
探讨大模型基座与具身智能模型融合趋势,一方面,大模型未来的价值观和意识形态与国家相关,如在 AI 陪伴和教育领域,其倾向性由顶层参数调整人员决定;另一方面,目前论文及研究成果在理想情况下成功率约 60%-70%,与工业生产要求的 99.999% 可靠性差距巨大,通用或未经针对性训练的认知大模型在工业场景中易出现幻觉,难以稳定完成任务。所以,通用基座将承担重复性等环节,最终决策仍由人类主导,未来机器人将助力人类,而非取代人类,人类角色可能转变为机器人技能训练师或主管。
随着劳动力短缺和中国 AI 高端制造发展,机器取代人力成为必然。近年来模型技术发展和国内供应链演进,使机器人性能提升,成本下降,智能化程度提高,已逐步渗透到多品种、少批量生产场景,投资机器人回报周期约两年,投入产出成本与人的边际成本逐渐交合。
具身智能虽前景广阔,但当前处于发展初期,最大挑战来自数据层面。以 “pick place” 为例,实现泛化抓取等所需数据量是定点抓取的 38 倍。技术路线上,合成数据及仿真数据成本低、效率高、易推广,而真实数据采集困难。解决方案需基于通用预训练基座,针对垂直领域和客户需求,训练出行业矩阵大模型,形成数据飞轮,改善企业经营,提炼行业通用数据。
讯飞聆动作为讯飞系控股子公司,致力于赋予机器人理解与思考能力,助力制造业劳动力优化升级。其团队在具身感知、认知理解等领域成果显著,在空间高阶感知上基于 3D 技术有显著提升。机器人在开放场景中需基于常识推理,其 “大脑” 要具备多模态理解能力。机器人还具备强大运算智能和高密度知识储备,如在蛋白质合成配方获取上远超人类效率。未来机器人将以无代码语音交互为主导,形成多模态交互,为此提出交互大模型。
在实际工作中,讯飞聆动基于行业具身模型任务理解,结合通用预训练基座开展工作。去年采用星火多模态大模型基座,经专项训练,构建行业针对性基座,融入客户高价值数据后,相关任务成功率从 70% 提升至 95% 以上。在机器人移动与操作方法上,采用合成与真实数据结合策略,以客户需求为导向,依托底层大模型,结合行业具身模型和具身泛化大模型,实现全流程闭环。提出大脑、小脑、本体分层式具身智能架构体系,通用大模型负责任务理解规划,具身大模型负责感知与决策。商业模式上,短期内聚焦于实际客户场景,实现端云协同、软硬件一体化,强调 “robot and service” 模式,打造 “一脑多型” 机器人解决方案,推动从局部通用向完全通用发展。同时开展基于世界模型的具身智能关键技术研究,虽然模型面临自适应、泛化能力不足及数据不匹配等问题,但通过以机器人基础运营服务为切入点,结合多模态大模型、“一脑多型” 本体及真实场景数据进行探索。
多模态大模型近年来不仅在各行业实现 agent 级应用,在机器人领域更是关键,让实用型机器人走进各行各业甚至千家万户成为可能。未来将以场景驱动激发数据效应,形成数据小飞轮,最终实现机器人的 AGI。不过,具身智能发展仍面临诸多挑战,包括掌握世界知识规律以获得通用泛化能力、构建通用智能体机器人评价标准、解决具身模型数据缺失及泛化能力不足问题、构建自主性任务执行能力,以及解决大模型带来的价值观和幻觉问题等。总体而言,未来 10 至 15 年,具身智能与高端制造、机器人、人工智能的融合,将成为我国关键发展赛道和极具投资价值的领域。
声明:以上内容为本网站转自其它媒体,相关信息仅为传递更多企业信息之目的,不代表本网观点,亦不代表本网站赞同其观点或证实其内容的真实性。投资有风险,需谨慎。
多模态大模型强力赋能,聆动通用引领具身智能步入崭新发展时代 在科技飞速发展的当下,自2022年11月起,GPT等模型的崛起及其迅猛发展,为机器人领域带来了翻天...
二代哈弗枭龙MAX预售正式启动,Hi4及智驾系统亮点令人瞩目 3月21日,长城汽车动作亮眼,正式发布第二代Hi4智能四驱电混技术,同时二代哈弗枭龙MAX也开启...
购车必看!2025款凯迪拉克CT5赛道性能版魅力亮点全解析在豪华运动中型车市场,宝马3系和奔驰C级在销量排行榜上成绩亮眼。不过,美系豪华车代表凯迪拉克CT5,凭...
沉寂近四年的医药基金近期似乎有了“逆天改命”的迹象。 整体来看,Wind分类的医疗保健行业主题基金共有309只,其中有264只今年一季度收益获正,占比为85....
:4月2日,金融监管总局普惠金融司司长蒋平在国新办发布会上表示,金融监管总局将推动社会信用体系建设与金融监管工作深度融合,引导金融机构在依法合规、充分授权的前提...
新能源汽车市场鏖战正酣之际,与华为深度绑定的赛力斯披露多项重大动向:2024年全年营收首破千亿大关、子公司引入50亿元战略注资、正式启动赴港上市进程。 业绩暴...
记者5日从中国国家铁路集团有限公司获悉,4月4日,全国铁路发送旅客2009.3万人次,创今年以来单日旅客发送量新高,运输安全平稳有序。4月5日,全国铁路预计发送...
原题:星际荣耀双曲线三号运载火箭有望今年海南首飞 将挑战中大型可重复使用液体运载火箭“入轨+海上回收”目标 4月4日,2025年第十一届海南文昌南洋文化节“...
凭借攻克关节技术,钛虎机器人为具身智能的发展提供有力支撑 在人形机器人技术领域,硬件层面的挑战重重。尤其是关节部件,成本占比高,性能要求严苛。轻量化设计、高扭...
31.8万起,享界S9增程版闪亮登场,欲打破豪华轿车市场困局! 华为鸿蒙智行再添新车,享界S9增程版正式亮相。此前,问界M8、M9预售成绩斐然,如今享界S9增...
乘龙H5VLNG重卡,在资源运输中尽显优势,成为众多人的创富优选在资源运输市场,运输工具的效率与经济性对运营成本和收益起着决定性作用。当油气差价渐趋稳定,燃气重...
金普甲醇燃料发动机油用科技精心护航,积极引领绿色出行新方向 在全球能源革命的浪潮以及“双碳战略”的大力推动下,甲醇燃料凭借其清洁、低碳且可再生的突出特性,正逐...
经历一轮超额收益欠佳和规模回撤的考验后,量化私募逐渐复苏。 据证券时报记者了解,近期,九坤投资等多家头部量化机构逐步开放募资,并备案发行新产品,宽德投资、量派...
近年来,随着经济复苏进程加快,市场需求也愈加多元,金融机构紧跟政策引导,不断通过创新活动与产品,扩内需,助惠民,推动消费提质扩容。为落实《提振消费专项行动方案》...
4月3日晚间,新希望发布《2025年第一次临时股东大会决议公告》《第十届董事会第一次会议决议公告》。公告显示,刘畅、张明贵、李建雄、杨芳、陶玉岭、周伯平当选为新...
时值仲春、阳和初起,正是春游踏青的好时光。为丰富员工业余生活,营造和谐融洽、团结向上的工作氛围,3月23日,阳...
找到黑匣子之后,下一步做什么?邱超奕对于空难调查而言,黑匣子在找到后,才意味着具体工作的开始。那么,它被送往了...
#8203;“上级对我提的要求,就是让寒门子弟接受更好的教育,让普通孩子上好学。”一所城乡接合部的新学校,为招...
新京报讯据中国民用航空局消息,3月21日,东航一架波音737客机在执行昆明--广州航班任务时,于梧州上空失联。...
专业人力资源机构中智公司21日发布的最新调研结果显示,2022年中国就业形势基本稳定,实体产业对人才吸引力增加...