2025,国产推理大模型的“五军之战”?

如果AI停留在模型层,那它只是一个工具,只有在AI真正落地,在不同场景的行业生根发芽,具备特定行业特定问题的解决方案,且国产自主可控,整个中国的AI行业才有继续向前的动力。

自年初DeepSeek横空出世,无论是国外的OpenAI,国内的新锐“六小虎”到老牌大厂,都在加速布局推理大模型的研发与应用。

无论是今年“新上牌桌”的DeepSeek,后来居上的字节豆包,还是国产路线自主可控的科大讯飞,专利数量一骑绝尘的阿里通义,加上拥有国内最大潜在用户群体,摸着DeepSeek过河的腾讯混元,一个季度过去,各家纷纷迭代了最新的推理大模型。起码在国产推理大模型领域,已经形成了“五军之战”的竞争态势。

相较传统的基础大模型,推理大模型通过海量多模态数据的强化训练,不仅显著提升了跨领域知识迁移能力,更在复杂场景下的逻辑推理和问题解决层面取得突破。

其技术升级方向,已从单纯的语言处理转向STEM领域的深度渗透——在科研数据处理、工程设计优化、数学建模等专业场景中,推理模型正在不断替代传统分析工具,甚至在医疗诊断、金融风控等垂直领域中,不断展现令人惊艳的潜力。

依托各自的优势领域,各家也正在重构属于自己的AI技术生态:以DeepSeek为代表的创业公司聚焦STEM领域的垂直突破,通过打造科研辅助平台积累技术势能;老牌巨头如阿里云、腾讯云则依托云计算基础设施,推动推理模型向产业端的规模化落地,科大讯飞则在不断提升模型性能,比肩国际一线水平的同时,寻求底层算力的国产化替代,以求在不断激烈的国内外竞争中,保持产品和技术的自主可控。

对各路大模型厂商而言,推理大模型,无疑是一把通往AI时代的钥匙和机遇。无论是专业工具型应用,还是面向C端消费者的App,科技厂商之间的生态位争夺日趋白热化——他们心中都很明白,谁能跑出AI时代第一个超级应用,谁就能成为AI时代的“超级大厂”。

01 国产推理大模型的“涌现时刻”

在DeepSeek横空出世之前,OpenAI等一众欧美厂商,试图用高成本、高算力、高参数的“三高策略”,成为AI时代的垄断者,进而收割全世界。大大小小的国产厂商,不管技术实力高低,背靠资源多少,只要入局AI大模型,无一例外都要走上这条“力大砖飞”的技术路径。

春节前后推出的DeepSeek,则用更低的效能标准,比肩头部的模型性能告诉行业,训练一个推理大模型“并没有那么贵”。

从整体参数上看,DeepSeek的参数规模,相较主流大模型降低90%,训练成本降低80%,但整体性能,并不比国外一线大模型差;加之开源API免费调用,为推理大模型的发展,提供了一条截然不同的新路径——仅需激活37亿参数,即可部署满血版R1推理模型,推理效率较传统架构提升3倍以上。

有验证过的技术路径在前,国内一线大模型厂商随之迎头追赶,大有后来居上的趋势:

阿里旗下的Qwen团队,于3月推出了开源大语言模型(LLM)QwQ-32B,对标OpenAI的o1-preview。QwQ-32B采用了多阶段强化学习训练方法,在数学问题、编码能力和通用问题解决能力上得到增强。

相比DeepSeek-R1,QwQ-32B的显存需求更小——通常在GPU上需要24GB vRAM,满血版DeepSeek-R1则需要超过1500GB vRAM。

腾讯押注推理大模型的时间相对较晚,但自混元接入DeepSeek之后,追赶速度相较以往快了不少——35天“更新”30次后,混元大模型团队于3月21日推出了自研深度思考模型混元T1正式版。它摒弃了以往的纯Transformer架构,转而将混合Mamba架构应用于推理大模型。

相对于DeepSeek,T1正式版的吐字速度达到了60~80token/s,实际生成速度快于DeepSeek-R1。在体现推理模型基础能力的常见基准测试上,如大语言模型评估增强数据集MMLU-PRO中,混元T1取得87.2分,超越了DeepSeek-R1,落后于o1。

字节方面,于4月发布的最新推理模型Seed-Thinking-v1.5,同样采用DeepSeek-R1的MoE架构,但参数量降低至200B总参数和20B激活参数。相比前者671B总参数和37B激活参数,轻量化的趋势更为明显。

在多项性能自动评估中,Seed-Thinking-v1.5在AIME 2024基准测试中取得86.7,与OpenAI的o3-mini-high模型的性能相当。执行GPQA任务时,Seed-Thinking-v1.5达到77.3%的准确率,接近o3-mini-high的性能。在Codeforces等代码生成场景中,Seed-Thinking-v1.5的性能与Gemini 2.5 Pro 的性能相当,但仍落后于o3-mini-high。

科大讯飞方面,则是在4月21日官宣了旗下深度推理大模型——星火X1的升级。相较其他国内厂商,升级版星火X1首创了“直觉快思考”与“深度慢思考”双模式融合架构。

具体而言,快思考模式支持实时翻译、百科问答等低延迟任务;慢思考模式则通过多步骤逻辑链拆解复杂问题(如数学证明、法律条文解析),模拟人类专家的推理过程。

针对更复杂场景的数据稀缺问题,升级版X1则提出了基于问题难度的分阶段训练框架。通过动态调整强化学习更新速度,显著提升长思维链(如50步推理)的稳定性和准确性,在数学竞赛题(如AIME、MATH 500)上的准确率较前代提升12%。

从参数规模而言,星火X1的模型参数规模较业界同类模型有所缩减,但在整体性能上,已经能够与OpenAI的o1模型及DeepSeek的R1模型相抗衡。

02 全国产算力,为什么是趋势

整体来看,DeepSeek的轻量化技术路径,很大程度上改写了推理大模型的进化规则。各家厂商技术路径虽有些许差异,参数规模的“轻量化”和企业级应用的提速确是实实在在。

但对各家厂商而言,推理大模型的推出只是产业端应用的第一步。随着推理大模型领域愈发激烈的全球化竞争,各家厂商势必要依据自身的行业生态,进行相关的产业化布局。

譬如,腾讯依托自身的C端用户优势,率先在C端发力。AppGrowing数据显示,截至2月27日,腾讯元宝在27天里投放共花了2.81亿元。对应的C端用户数量则不断上升——到3月3日为止,元宝在苹果应用商店的下载量甚至超过DeepSeek,到达榜首。

在“见真章”的B端,腾讯经过C端用户的迭代反馈,推出了混合专家模型MoE架构,并通过腾讯混元+开源模型的多模型解决方案,开始在政务、零售、金融、工业等30多个行业落地。这对于底层架构和算力支持,无疑提出了更高的要求。

更兼愈发激烈的中美科技博弈,使得基于先进算力的推理大模型,面临迫在眉睫的制裁风险。4月16日,美国政府突然宣布,对英伟达H20芯片实施“无限期出口许可限制”。

这意味着,从算力层面开始的国产替代,将不再是一种战略选择,而成为一种生存刚需。

在此背景下,科大讯飞的模型训练和模型推理,选择使用全国产算力平台,无疑具有行业示范效应。

早在两年前,科大讯飞即与华为合作,建设了首个万卡国产算力平台“飞星一号”,最高能支持万亿参数大模型训练。科大讯飞董事长刘庆峰在今年年初透露,“飞星二号”将在2025年交付使用首批算力。

今年3月,讯飞与华为昇腾团队,实现在国产算力集群上,MoE模型的大规模跨节点专家并行集群推理,这也是业界首个基于国产算力的全新解决方案。一个月后,MoE模型的集群推理性能实现翻番。同时,华为昇腾910B的推理效率,相对A100,也从原先的从55%提升到85%。

就产品意义而言,基于全国产算力升级后的星火X1,在知识问答、数学能力等通用任务上效果显著提升,不仅是70B参数大模型中最好的深度推理模型,而且在参数量小于业界同类模型的情况下,获得了比肩国际顶尖模型水平的效果。

全国产的行业意义远不止于此。讯飞星火X1根植于完全自主可控的大模型底座,在模型迭代时,可以实现更加灵活的参数规模调整,和更深的训练优化。行业大模型的效果相比通用款,提升约在10%左右;叠加具体场景调优,效果可进一步提升10%到20%。

成本方面,星火X1通过“快思考、慢思考统一模型”,也显著降低了硬件资源需求。以国产昇腾910B为参考系,星火X1做行业落地定制(SFT和强化学习)需要16张卡,满血版 DeepSeek需要256张卡,硬件投入约为后者的 1/16。

推理方面,星火X1模型仅需4张华为910B算力卡即可完成私有化部署,对比DeepSeek满血版R1模型,在性能类似的情况下硬件投入只需要 1/8。

更少的算力需求,不输友商的模型效果,这无疑从战略层面,论证了基于国产算力训练的全栈自主可控的大模型,具备登顶业界最高水平的可行性和创新的可持续性。

03 走入中国AI的下一个十年

一如科大讯飞董事长刘庆峰所言,“今天是一个通用模型和专用模型相结合——‘通专结合’,端测模型和云端模型相结合,软件和硬件相结合的、全新的大模型落地时代。”

如果AI停留在模型层,那它只是一个工具,只有在AI真正落地,在不同场景的行业生根发芽,具备特定行业特定问题的解决方案,且国产自主可控,整个中国的AI行业才有继续向前的动力。

若将视角投向产业应用端,我们大可发现,推理大模型的国内外竞争,本质上仍然是中国AI产业从技术跟跑到生态领跑的战略转型。

站在2025年回望,这场始于模型性能追逐的“五军之战”,到产业端落地的不断深入,终将成为产业生态的全面融合。谁先将推理能力转化为行业生产力,谁就能在AI产业竞赛中穿越周期,引领变革。

主题测试文章,只做测试使用。发布者:北方经济网,转转请注明出处:https://www.hujinzicha.net/17415.html

(0)
北方经济网的头像北方经济网
上一篇 2025年4月25日
下一篇 2025年4月25日

相关推荐

  • 余承东意外站台!百度网盘这个功能点了备考党的窝

    原创ⓒ新熵 作者丨樱木 编辑、主编丨九黎 AI应用爆发的时代,到底怎样的产品能真正打动用户?也许华为余承东的推荐,有一定参考意义。 “感谢百度网盘带来的创新鸿蒙体验!”前不久华为Pura X发布会现场,余承东在演讲最后的鸣谢环节中,罕见的专门提到了百度网盘视频AI笔记。 一款AI应用,能得到头部硬件厂商的肯定,特别是余承东的认可,本身就不寻常。 有意思的是,…

    财经 2025年4月9日
    2200
  • 比亚迪这一枪,有些“哑火”

    出品丨虎嗅汽车组 作者丨李赓 头图丨视觉中国 一场规划好的“技术攻势”,关键的句号却留下了个“小遗憾”。 过去两个月里,比亚迪掀起了一波波“开年攻势”,也在前几个节点上取得了相当成功的传播。 以微信指数为例,可以明确看到“比亚迪”关键词在2025年“刷”出了三个小峰值,分别对应“智驾平权”、“灵鸢无人机”、“兆瓦闪充”三个关键技术发布会。但很可惜,第四个小箭…

    2025年4月14日
    1400
  • ​义乌老板,不怕了!

      不要等,管好自己,各找出路。   文 | 华商韬略 东木褚   2018年,特朗普用关税对中国发动“突袭”,打了很多企业一个措手不及,外贸重镇义乌的企业尤其艰难。   如今,面对更加疯狂的关税乱战,义乌的老板还好吗?   【1】   2018年中美贸易摩擦开始的三个月后,一家日本媒体悄悄去了义乌,走访了100家店铺,记者的问题只有一个:   关税对你们有…

    财经 2025年4月16日
    3200
  • 品牌部的5大尴尬与出路

    本文来自微信公众号:一个符号工作室,作者:金鑫YOYO,题图来自:AI生成 上周,京东集团发布了一则公告:成立多年的集团品牌部正式撤销,其职责与人员并入市场营销部-平台营销部,以精简机构、提升服务业务效率。 这一举措不仅引发了对京东内部架构调整的广泛关注,也让我开始思考品牌部门在现代企业中的定位与未来。 京东此次变革的战略考量,很多自媒体博主也都分析过了,我…

    2025年3月29日
    2800
  • 歌尔股份,即将迎来第二次辉煌?

    文丨泰罗 被苹果捅了一刀的歌尔股份,又悄悄杀回来了! 根据最新发布的年报,公司主要业绩指标实现全线增长。其中,全年实现营业收入1,009.54亿元,同比增长2.41%;实现归母净利润26.65亿元,同比增长144.93%;实现扣非归母净利润23.93亿元,同比增幅高达178.3%。 2022年11月8日,歌尔股份突发公告,公司已收到境外某大客户通知,暂停生产…

    财经 2025年3月28日
    2300

发表回复

您的邮箱地址不会被公开。 必填项已用 * 标注

联系我们

400-800-8888

在线咨询: QQ交谈

邮件:admin@example.com

工作时间:周一至周五,9:30-18:30,节假日休息

关注微信