在上周,来自中国DeepSeek的AI工程师团队所开创的DeepSeek R1大模型可谓霸榜美国热搜,并且DeepSeek应用已登顶苹果中国地区和美国地区应用商店免费APP下载排行榜,在美区下载榜上超越ChatGPT,堪称属于中国AI的“里程碑时刻”。DeepSeek团队证明,他们能够在没有世界最顶级的英伟达高性能AI GPU提供强大AI算力的情况下,以极低成本加上性能普通的AI加速器训练出推理能力一流的突破式开源AI大模型,这也意味着未来大模型训练/推理比拼的不再是动辄千万亿美元的AI GPU算力战,极有可能是人人都能参与的“头脑风暴”。
DeepSeek R1的问世,宣告AI训练与推理成本大幅缩减,在不到600万美元的极低投入成本和2048块性能远低于H100与Blackwell的H800芯片条件下,DeepSeek团队打造出性能堪比OpenAI o1的开源AI模型,相比之下Anthropic与OpenAI训练成本高达10亿美元。该模型每百万个token的查询成本仅为0.14美元,而OpenAI的成本为7.50美元,成本降幅高达惊人的98%。展望未来AI算力前景,DeepSeek R1横空出世也重磅宣告随着训练/推理步入“极致压缩+高效强化训练+AI推理算力大幅简化”的低成本新范式,属于AI ASIC的时代降临。
据了解,UC伯克利、港科大、HuggingFace等顶级学术团队与AI科技大拿们在上周纷纷成功复现DeepSeek,只用强化学习,没有监督微调,30美元就能见证所谓的“啊哈时刻”,即Aha moment,也被称作所训练的AI大模型的“顿悟时刻”。全球AI大模型,或许正在进入下一分水岭。诚如图灵奖得主Yann Lecun所言:“这一次,正是开源对闭源AI大模型的胜利!”DeepSeek火遍全球,一度让DeepSeek应用界面闪崩,但问题在数分钟内得到解决。中国AI界上一次出现宕机情况,还是月之暗面Kimi出圈之时。
为何认定属于AI ASIC的时代到来?DeepSeek大模型所彰显的AI训练端“极致工程+集中精度”的技术趋势,确实让AI ASIC相比于动辄购买成本高达数十亿美元的英伟达AI GPU在GPU引以为傲的AI训练端更具算力系统可行性与竞争力。在AI推理端,随着未来生成式AI软件以及AI代理等最前沿AI应用大规模普及,推理端算力需求将愈发庞大,叠加DeepSeek开创的范式大幅降低推理成本,AI ASIC在聚焦于高效且天量级神经网络并行计算的AI推理领域无论性能和成本优势,都比AI GPU要大得多。
DeepSeek R1重磅出炉之后,全球科技股投资者以及推崇AI的科技界粉丝们对于英伟达高性能AI GPU(Hopper架构与Blackwell架构GPU)的信仰可谓出现重大裂痕,令投资者们不禁怀疑:数百亿美元支出规模,对于Meta、微软等AI大厂来说真的必要吗? 大厂们联手博通(AVGO.US)/Marvell(MRVL.US)推出自研AI ASIC(即定制化AI芯片)岂不是性价比高得多?虽然英伟达也表示未来将进军AI ASIC领域,但目前尚未有任何布局,且难以撼动深耕该领域多年的博通与Marvell的定制化AI芯片主导地位。
DeepSeek用开源方式证明:打造出堪比o1的大模型并不需要无脑堆积“英伟达AI GPU”
DeepSeek本次霸榜美国乃至全球社交媒体热搜,起因在于1月20日其正式发布推理大模型DeepSeek-R1,该大模型经多位科技界大拿在上周证实其在数学、编程和推理等关键领域的表现,能与OpenAI推出的号称“人类史上最强推理模型”的o1“掰手腕”,但其总体API调用成本却低了95%左右。
DeepSeek 的低成本+超高效+不输于o1的大模型综合性能,源于对大模型训练流程的每个环节都施加了“极致工程”与“精细微调”,幅降低大模型训练/推理成本。比如,以极致工程为导向的高效训练与数据压缩策略,通过多层注意力——尤其对Query端进行低秩化,从而在训练时减少激活内存负担,还包括FP8 混合精度训练、DualPipe 并行通信、专家门控(MoE)负载均衡等手段,让 DeepSeek 在训练阶段将硬件资源利用率最大化,减少“不必要的算力浪费”,以及“强化学习(即RL)+蒸馏+专业数据优化”的创新型AI训练举措,无需依赖监督微调(SFT)或人工标注数据。
DeepSeek 在完成主干预训练后,针对数学、编程、长上下文等“高价值能力”做强化学习或蒸馏精调。通过少量GPU小时的“深度强化学习”大幅提升特定任务指标,而无需对整套模型做全量高成本训练,尤其是“R1-Zero”完全不用预先提供思维链示例及复杂奖励模型,而是只用简单的“对错奖励 + 格式奖励”,便通过训练算法能让AI大模型自发地在推理过程中产生“顿悟”式的思考。
简而言之,DeepSeek通过“极致工程化、并行优化以及精筛数据”为核心来不断削减通用算力的“无效消耗”,把资源集中到最能提升模型性能的核心模块,展示了“极致工程化 + 后训练端蒸馏 + 专业数据整合+主攻强化训练”新范式如何在有限GPU 资源下逼近乃至超越行业主流大模型性能,对传统“巨额烧钱”模式提出了强力挑战。因此DeepSeek将硬件和算法的潜能最大化挖掘——这与过去很长一段时间美国科技大厂们“粗放式烧钱”在某种程度上形成鲜明对比。
DeepSeek引领的“低成本算力浪潮”已经令投资者们开始怀疑美国AI大厂们支出的合理性,如果这些科技巨头AI巨额投入仍然无法产生令投资者感到满意的创收与盈利,以及超出市场预期的业绩数据,可能迎来比去年夏季时期规模更大的“科技股抛售浪潮”。
据了解,虽然训练/推理成本相比于GPT家族以及LIama开源大模型骤降,但是DeepSeek大模型的多个性能指标却位于行业顶尖水平。性能评估结果显示,通过纯强化学习方法训练得到的 DeepSeek-R1-Zero以及在此基础上改进的 DeepSeek-R1,在 2024 年AIME测试中分别取得了 71.0% 和 79.8% 的成绩,与 OpenAI o1 的79.2%水平可谓并驾齐驱。DeepSeek-R1在算法类代码场景(Codeforces)以及GPQA、MMLU中的最终得分略低于OpenAI o1,但是在评估AI大模型在解决实际软件工程问题能力的SWE-Bench Verified方面,意外强于o1。
博通领衔AI ASIC强势崛起! 未来有望不断蚕食属于AI GPU的份额
AI训练,长期以来是英伟达AI GPU堪称绝对垄断的领域,占据市场份额高达惊人的95%。然而,随着AI 训练端有望通过“极致工程化 + 后训练端蒸馏 + 专业数据整合+主攻强化训练”新范式不断削减通用算力的“无效消耗”,把资源集中到最能提升模型性能的核心模块,这种趋势有利于在训练端逐步采用专用化/高能效的芯片,比如AI ASIC,有望逐渐占据训练端至少10-20%份额。主要因为当模型结构和训练流程逐渐成熟稳定后,比如一些规模庞大但结构相对标准的 Transformer变体,ASIC 可以在相对“固定”的核心算子上进行极致优化,从而显著提升训练效率、降低硬件和电费成本。
但是,这种转变不是一蹴而就,在当前AGI仍处于研发进程,AI GPU的灵活性与通用性仍然是AI训练最倚重的专属能力。超大规模的AI模型,比如GPT家族与LIama开源家族,在“研究探索”或“快速迭代”阶段对算子灵活性、网络结构可变性的需求依旧很高——这是通用 GPU 仍占据优势的主要原因。
因此,中长期AI训练端大概率将是GPU与ASIC完美并存,而绝非当前GPU一家独家。当AI大厂/机构想要大规模训练“固定/稳定下来的核心结构”时,ASIC 在片上内存/带宽设计上可比通用 GPU 做得更极致,ASIC可能更具性价比;而当AI大模型结构频繁迭代、需要通用并行和快速适配时,英伟达AI GPU依然是不二之选。
DeepSeek低成本范式表明,AI推理完全能够通过算法工程优化以降低推理开销,让大模型得以更便捷、更廉价地进行部署,这也意味着未来AI推理端AI ASIC优势将更加庞大。英伟达通用AI GPU 虽然功能强大,但其功耗、企业购买成本以及算力租用成本在大规模推理算力场景下压力大得多。微软、亚马逊、谷歌以及Meta,无一例外都在联手博通或者Marvell自研AI ASIC芯片,用于海量推理端算力部署。比如谷歌联手博通打造的TPU就是一种最典型的AI ASIC。
摩根士丹利近日发布的研报显示,AI ASIC市场规模将从2024年的120亿美元增长至2027年的300亿美元,年复合增长率达到34%。不过大摩表示,AI ASIC的崛起并不意味着英伟达AI GPU前景悲观,该机构认为这两种芯片体系将长期共存,为终端需求场景提供结合两者优势的解决方案。此外,大摩通过TCO模型对比了AI ASIC和AI GPU在AI训练和推理任务中的成本效益,结果显示ASIC的初始成本较低,尤其适合预算有限的云服务提供商们。
随着大模型架构逐渐向几种成熟范式收敛,ASIC可以更容易地吃下主流推理端算力负载。并且某些云服务商或行业巨头会深度耦合软件栈,让 ASIC兼容常见的网络算子,并提供优秀的开发者工具,这将加速 ASIC 推理在常态化/海量化场景中的普及。
展望未来算力前景,英伟达AI GPU可能更多专注在超大规模前沿探索性的训练、变化极快的多模态或新结构快速试验,以及 HPC、图形渲染、可视分析等通用算力。AI ASIC则聚焦于深度学习特定算子/数据流做极致优化,也就是擅长稳定结构推理、批量高通量、高能效比。比如,如果一家云平台的AI工作负载中大量使用针对 CNN/Transformer 中常见算子,大多AI ASIC会针对这些算子做深度定制;图像识别(ResNet系列、ViT)、基于Transformer的自动语音识别(Transformer ASR)、Transformer Decoder-only、部分多模态流水线固定化后,都可以基于ASIC进行极致优化。
ASIC通常采用数据流架构 或张量处理单元等方式,对矩阵乘法、卷积、激活函数、注意力层等进行高度优化。一旦某些大模型架构在商用场景中趋于稳定,且推理调用量极大,则基于ASIC的专用定制硬件可以将单位能耗与单位成本做到大幅优于通用 GPU(通常可达 2~10 倍不等能效提升)。因此随着推理端越来越聚焦成本与能效,AI ASIC 具备更大规模的配置前景,特别是在神经网络结构逐渐固化的常态化、批量化AI推理任务上。
就像大摩预测的那样,长远来看,两者将和谐共存,中期左右AI ASIC市场份额有望大幅扩张。英伟达通用GPU将聚焦于复杂多变场景与前沿研究,ASIC 聚焦高频稳定、大规模的AI推理负载以及一部分成熟稳定的固化训练流程。
“公司正与大型云计算客户们合作开发定制化的AI芯片,我们目前有三家超大规模云客户,他们已经制定了自己的多代‘AI XPU’路线图,计划在未来三年内以不同速度部署。我们相信,到2027年,他们每家都计划在单一架构上部署百万级XPU集群。”博通CEO陈福阳表示。这里的XPU指代的是“扩展性强”的处理器架构,通常指代是除英伟达AI GPU之外的AI ASIC、FPGA以及其他的定制化AI加速器硬件。
巴克莱银行在一份最新报告中预测,2025年英伟达、博通以及Marvell将成为人工智能半导体领域的领导者,而不是英伟达继续垄断AI芯片市场。巴克莱更是将博通的目标股价从205美元大幅上调至260美元。
华尔街另一大行美国银行的分析师团队近日在一份报告中表示,2025年芯片股仍有可能是美股表现最亮眼的板块之一,美股芯片板块的“AI芯片三巨头”——即英伟达、博通以及Marvell均位列美国银行的2025年“首选芯片股名单”。
声明:以上内容为本网站转自其它媒体,相关信息仅为传递更多企业信息之目的,不代表本网观点,亦不代表本网站赞同其观点或证实其内容的真实性。投资有风险,需谨慎。
在上周,来自中国DeepSeek的AI工程师团队所开创的DeepSeekR1大模型可谓霸榜美国热搜,并且DeepSeek应用已登顶苹果中国地区和美国地区应用商店...
第一眼见到李艳红,便感到她是个干练人。五十上下的年纪,梳着一头短发,一手提着保洁工具,一手拿着棉手套,风尘仆仆却难掩眸子里的精气神。 李艳红从事家政服务业已三...
近日,华润医药商业集团有限公司及其下属华润空港(北京)国际贸易有限公司、华润医药商业集团医疗器械有限公司、华润润曜健康科技(北京)有限公司、华润润采医药(北京)...
作/博望财经 天眼查APP显示,据中国民用航空局最新发布的统计数据,2024年,中国无人机产业迎来了前所未有的发展高潮。全年累计飞行时长达到了2666万小时,...
近日,中国人民保险集团股份有限公司发布2024年年度业绩预增公告。 公告显示,经中国人保初步测算,预计该集团2024年年度实现归属于母公司股东的净利润为398...
近日,华润医药商业集团有限公司及其下属华润空港(北京)国际贸易有限公司、华润医药商业集团医疗器械有限公司、华润润曜健康科技(北京)有限公司、华润润采医药(北京)...
近日,2025《商业周刊》彭博绿金中国ESG50最值得关注榜单(以下简称“彭博绿金ESG50榜单”)正式揭晓,罗氏诊断中国凭借其全面的可持续发展战略、创新的实践...
1月25日,广东省统计局公布2024年广东经济数据。2024年,广东全省地区生产总值141633.81亿元,按不变价格计算,比上年增长3.5%;此外,广东经济总...
2025年1月25日上午,网约车主刘师傅在完成一单到北京南站的订单后,开始在网上搜索“车险好投保”平台。他的新能源车最近正到了车险续保时间,想在这一新平台上看看...
“SDGsNEXT”国际可持续发展与绿色金融分享活动近日举办,本次活动以健康韧性、风险控制与绿色保险为专题。本次活动由联合国开发计划署苏州可持续发展创新实验室、...
A股2024年首份年报出炉,聚灿光电披露年度报告,2024年实现营业收入27.60亿元,同比增长11.23%;归属于上市公司股东的净利润1.96亿元,同比增长6...
由江苏省首个自主主导投资建设的铁路项目——沪宁沿江高速铁路,今年迎来了开通运行以来第2个春运。作为沪宁之间的第3条高速铁路,往返上海和南京的高铁列车每天都要在这...
2024年中央经济工作会议提出,“大力提振消费、提高投资效益,全方位扩大国内需求”,并强调“加力扩围实施‘两新’政策”。按照会议部署,2025年开年以来,全国范...
1月22日晚间,科士达发布2024年业绩预告,报告期内归母净利润3.7亿元~4.7亿元,比上年同期下降44.41%~56.24%;若扣除非经常损益,报告期内净利...
近日,由银柿财经主办的“同心聚力、巳在必得”年度银柿奖颁奖典礼在杭州举行,中兴通讯荣获从环境、社会和治理维度评估的ESG优秀表现奖。 眼下,可持续发展已成为全...
时值仲春、阳和初起,正是春游踏青的好时光。为丰富员工业余生活,营造和谐融洽、团结向上的工作氛围,3月23日,阳...
找到黑匣子之后,下一步做什么?邱超奕对于空难调查而言,黑匣子在找到后,才意味着具体工作的开始。那么,它被送往了...
#8203;“上级对我提的要求,就是让寒门子弟接受更好的教育,让普通孩子上好学。”一所城乡接合部的新学校,为招...
新京报讯据中国民用航空局消息,3月21日,东航一架波音737客机在执行昆明--广州航班任务时,于梧州上空失联。...
专业人力资源机构中智公司21日发布的最新调研结果显示,2022年中国就业形势基本稳定,实体产业对人才吸引力增加...