沿着旧地图,永远找不到新大陆。
当英伟达GPU+CUDA花费数年构筑起足够高的AI计算生态壁垒时,试图通过“抄作业”的方式固然短时间之内可获得一定的份额,但这种“亦步亦趋”的捷径,本质上是基于他人的生态,最终无法在市场中实现真正的突围。
那么,当AI推理业务爆发、智能体(Agent)涌现、Token消耗狂飙之际,中国的AI计算生态究竟应该如何突破固有市场格局?
华为花七年时间,探索出一条重要路径:从2018年发布CANN架构,到2025年8月正式宣布CANN的开源开放政策,再到2025年底实现软件组件的功能解耦,完成全面开源开放,CANN计算框架在基础算力能力、开源社区对接、开发体验等实现持续突破,为构建AI计算新生态迈出关键一步。
诚如华为所言:“CANN的开源开放和组件完全解耦,不亚于重新设计架构和重写一遍软件。昇腾希望以开发者为中心,以开源开放升级开发体验,以生态共建推动AI计算新生态的繁荣。”
AI计算新生态:需要“撕掉旧地图
如果说AI芯片是AI计算的“心”,那么计算框架则是当之无愧的“魂”。
作为连接 上层AI 训练和推理框架( PyTorch、TensorFlow、MindSpore、vLLM、SGLang等)和底层 AI 芯片的关键纽带,计算框架最大价值在于“承上启下”,既降低算子开发门槛和效率,又让开发者无需关注底层AI芯片细节,灵活调度底层算力资源。
毫无疑问,英伟达CUDA通过先发优势,已构建起编程模型、核心库、分布式框架、优化工具、主流框架原生支持的完整体系,并利用多年积累夯实了深厚的开发者基础,全球主流AI框架、模型和应用均与CUDA高度适配,使之形成强大的使用惯性和高昂的迁移成本。
可以说,CUDA软件是英伟达AI计算生态既深且宽的护城河,如何破局成为横亘在中国AI计算产业面前的一道难题。但沿着“旧地图”,很难找到新大陆。一方面,采用模仿CUDA的路径永远都是慢人一步,且极易受制于人,跟跑终究不是长久之计;另一方面,AI技术路径尚未收敛,技术创新和市场变化极大,传统闭源模式后续很难跟上市场变化节奏。
因此,开源开放无疑是最佳路径。先有以DeepSeek为代表的中国MoE大模型走出一条开源成功之路,后有华为正式宣布昇腾CANN开源开放策略,同时开源Mind系列应用套件及开发工具链,在计算框架、工具层等领域紧随其后。
事实上,近期市场也出现不同寻常的新信号。外媒报道,最新的DeepSeek-V4旗舰模型打破之前固有的“行业标准”,全球顶级MoE旗舰大模型在发布之前,率先向包括华为在内的国内公司提供访问权限和完成深度适配。此举意义重大,前沿大模型与软硬件同步进化、原生适配标志着中国AI计算生态的成长迈出关键一步。
CANN分层解耦:让AI开发更好用
众所周知,随着推理业务的爆发,智能体(Agent)创新极其活跃,AI算力需求结构正全面走向重构。IDC预测,到2028年推理工作负载占比将达到73%,推理计算需求呈现出爆炸性增长的趋势。
无疑,AI算子开发的需求将持续旺盛,降门槛、提效率将是未来AI计算生态的一道必答题。众所周知,一个封闭的AI软件栈优缺点同样突出,优势在于加速库、工具链、编译器等组件打造成整体,减少整合难度;劣势在于过于笨重和缺少灵活性,开发者往往因为需求变化而“牵一发而动全身”。
为此,昇腾的解决思路是坚持底层架构创新,在虚拟指令集、运行时能力、编译器等坚持走自研突破,并兼容全球AI主流开源生态,同时推动CANN计算框架在架构层面,进行功能解耦与组件独立演进,从底层的硬件驱动到运行时,再到中间的编译器和上层的加速库,每一层都实现物理上的松耦合,各组件可独立升级和API的全面兼容。相关人士介绍,CANN软件架构解耦的工作耗时四个月,不亚于重新写一遍软件。
分层解耦的最大好处就是带来灵活性和极简化,实现极致性能和开发易用性的兼顾。例如,通信库开放通信算子和框架层,开发者可自定义通信算法以适应自身大规模集群的通信需求;再如,Runtime 层开放 aclGraph 接口,支持图模式下沉,极大地减少了 Host 与 Device 之间的交互开销。
得益于CANN架构的变革,AI开发体验得以迎来一次重磅升级。CANN开源的PyPTO编程范式,将Softmax算子代码量压缩至200多行,CV融合算子开发周期缩短至1周,大幅提升开发效率。同时,CANN提供Ascend C,也兼容Triton、TileLang等多种算子编程范式,满足不同技术背景各种开发者的多元需求。
有很大一部分AI开发者习惯Python编程范式,其对于迁移最大的顾忌就是开发习惯改变带来的迁移成本。对此,昇腾CANN实现与业界主流开发范式 Triton 的深度对接,通过 Linalg IR 与 AscendNPU IR(中间表示)的转换,开发者可使用习惯的Python语法编写高性能算力,以极低成本迁移到昇腾NPU之上。
同样,CANN还为大模型开发者提供了“开箱即用”的能力,预置了超过 1400 个基础算子、100 多个融合算子以及 15 个通信算法,这些算子均是经过深度优化和实际生产过程的验证,能够让AI开发者快速上手和充分发挥昇腾硬件的潜力。
据悉,昇腾CANN架构的开源开放路线已初见成效,CANN开源社区已吸引超1.3万名认证开发者,月活跃开发者超2000人,下载量接近700万,社区的开源项目仓库增长到70多个。
“华为公司一家的智慧肯定不如全球几万名开发者的智慧大。通过开源开放,让开发者便捷起来,从而把开发者的创新能力充分释放出来。”某位开源领域资深专家如是说。
共建共治,繁荣AI计算生态
当前,昇腾已经建立起较为完整的AI计算新生态。张良直言,接下来优化体验和繁荣生态是CANN重要方向。为此,昇腾将从基础设施、第三方开源生态、模型适配以及生态共治等维度切入,推动AI计算新生态加速走向繁荣。
在基础设施层面,昇腾今年会继续加大基础设施的投入,将向开发者提供4000卡免费算力资源,结局“算力卡”紧张的资源。张良透露,其中超过半数的算力卡是最新的昇腾950。同时,昇腾还将设立2000万元专项激励基金,激励个人开发者在算子开发、框架适配、模型优化等方面的创新。
在第三方开源生态方面,昇腾与PyTorch、Triton、vLLM、DeepSpeed等90多个主流开源社区紧密合作,并且收获累累硕果。以全球AI领域影响力极大的Triton社区为例,华为始终与社区保持紧密联系,Triton-Ascend在今年3月份正式成为原生Triton社区的out-of-tree module,成为国内首个原生Triton社区认证后端。
在模型适配方面,昇腾已完成对DeepSeek、Qwen等全球主流大模型完成0day适配与全链路优化,同时通过预适配降低门槛和借助自动化工具缩短周期等工作,帮助企业快速完成复杂模型的部署。
在生态共治方面,昇腾旨在以“共建共治”推动AI计算新生态的繁荣,携手产学研用多方力量参与生态建设之中。目前CANN开源社区已有中国联通、上海交通大学、南方电网、中国石油等12家伙伴参与治理。像于开源CANN,中石油开发了化工仿真库,南方电网开发了电力负荷预测库,推动专用算子与领域大模型的深度适配,对于推动行业智能化意义重大。
综合观察
真正的生态不是靠防御筑起的高墙,而是靠开放孕育的土壤。
在AI重塑一切的变革时代,给予世界另一个选择无疑是大势所趋。昇腾CANN所选择的这条坚持自主与开源并行的道路,虽然在短期内需要投入巨大的精力与成本,但它代表着真正属于中国自己且前景广阔的AI计算新生态。
当CANN社区汇聚起来自各方的智慧,当开发者一次次在CANN上完成算子开发,当CANN与各大开源社区紧密双向联动,这是CANN可持续、可进化的生态生命力的体现,更是中国算力产业奋力向上、向阳生长的生动注脚。