
黄仁勋的GPU,解一说念矩阵方程,要作念上亿次乘法。
一家中国公司,一步就给解了,用的是模拟筹谋。
这家公司叫安纳智芯(Anatrix)。

昔日几年,所有这个词AI行业简直都在往归并个想法决骤。GPU、TPU、LPU、CPU……人人卷来卷去,试验上卷的其实如故数字筹谋:
更多晶体管、更先进的制程、更大带宽、更高浑沌。
但最近,咱们发现存一批公司,运转不按这个逻辑走了。
安纳等于其中之一。
他们采取的,是一个仍是千里寂已久、但这两年又运转火热的想法:
模拟筹谋。
这个主张听着新,其实少许都不新。
早在数字筹谋机大边界进步之前,东说念主类就仍是在连系模拟筹谋。最近很火的存算一体、光筹谋、量子筹谋、类脑芯片,往大了说,试验上也都属于这条阶梯。
之是以这两年再行被海涵,一个很勤快的原因在于:
模拟筹谋自然具备更高并行度、更低功耗,何况不像数字芯片那样高度依赖先进制程。
但它的问题也很赫然,数字筹谋试验上处理的是0和1,只须能分歧高下电平,罪恶就能被不休改革。
而传统模拟筹谋由于是告成用物理信号暗意信息。电压、电流、电导这些量在传播历程中,容易积聚噪声和漂移。
矩阵边界越大,罪恶放大得越夸张。
昔日几十年,数字筹谋靠着摩尔定律沿路狂飙,精度被不休“硬堆”上去;而模拟筹谋自然表面上更高效,却持久困在精度问题里。

行业里以至一直有一个很流行的不雅点:模拟筹谋很快、很省电,但不着实。精度,也因此成了模拟筹谋近几十年来最大的死结。
而安纳作念的,等于把它解开。
模拟筹谋的精度,不再是问题了
昔日近十年里,安纳的中枢科学家一直在作念归并件事——
把模拟筹谋的放置,作念得满盈着实。
旧年,团队完成了精度忘形数字芯片水平的旨趣性考据,在模拟筹谋边界达到断档式最初,而本年,关系芯片咫尺仍是插足流片阶段。
在技艺阶梯上,安纳走的是一条相等典型、但也相等“硬核”的模拟筹谋阶梯:
基于存储器阵列,搭建非冯诺依曼架构芯片。
浅陋来说,等于把矩阵方程告成映射进物理电路,让电路本人成为方程求解器。

输入给进去,测输出,输出等于解。
也正因如斯,那些GPU没办法告成求解、只可靠海量迭代贴近的矩阵方程,在安纳这里,不错一步完成,并保握精准。
(注:GPU拿到一个512×512的矩阵方程后,第一件事并不是“告成解”。它会先把问题辩别、转置、领悟,再滚动成海量矩阵乘加运算,通过一轮轮迭代渐渐贴近谜底。所有这个词历程,经常需要上亿次乘法。)
但特趣味的是。
即便精度问题运转被处分,今天大多量模拟筹谋公司依然莫得给与这条路。
像Unconventional AI、Normal Computing、EnCharge AI这些近两年最受海涵的模拟筹谋创业公司,主打的依然是低功耗、存算一体或者特定场景加快。

(注:模拟筹谋正在再行获取成本市集海涵。2025年底,主打低功耗模拟芯片的 Unconventional AI在种子轮便获取Lightspeed Venture Partners和a16z集结领投的4.75亿好意思元融资,估值接近45亿好意思元;专注热力学筹谋的Normal Computing于本年3月完成由三星领投的5000万好意思元融资;而存算一体公司EnCharge AI旧年也完成了跳跃1亿好意思元的B轮融资。)
这背后其实对应着两种王人备不同的连系形而上学。
一种想路是禁受模拟筹谋存在罪恶,在低精度条目下寻找“够用”的愚弄场景。
另一种想路,则是先把精度作念到极限,再盘问恶果和成本。
安纳属于后者。
在与量子位计划时,团队反复提到一个不雅点:
所有筹谋平台的发展历史,简直都是先把精度作念到天花板,再字据场景需求向下作念弃取。
数字筹谋亦然如斯,AI模子查验里,先有FP32,再向下兼容FP16、INT8、INT4。
若是一运转就在低精度里寻找“够用”,许多才气可能长期莫得契机被考据。
从上世纪80年代末的类脑筹谋,到其后的模拟神经收集,再到今天的存算一体,肖似的故事其实仍是反复出现过许屡次。
是以,并不是追求精度这件事有争议,而是在昔日很万古刻里,由于模拟筹谋精度低是固有的,人人停留在这一层面,存在暴露上的偏差,于是只可退而求其次。
而安纳率先完成了暴露上的冲破,他们确切想作念的,等于把高精度模拟筹谋推向可用。
所有东说念主都在作念乘法,KPL下注app下载官方版安纳想把“除法”补考究
除了对精度的格调,安纳和其他模拟筹谋公司的不同,还在于他们选了一个王人备不相同的想法:
矩阵求逆。
今天作念模拟筹谋的公司,岂论是存算一体、模拟CIM,如故各式类脑、光筹谋阶梯,简直都在作念矩阵乘法。
这其实很好连气儿,因为所有这个词AI产业,试验上等于建树在矩阵乘法之上的。
一方面,GPU本人就极其擅长矩阵乘法;另一方面。大模子推理,也简直全是矩阵乘法,是以
所有这个词行业的想路都很自然——
既然模拟筹谋更省电、更并行,那就拿它去替代一部分GPU的矩阵乘法,但安纳并莫得这样作念,他们给与了更第一性的矩阵求逆。
那么,矩阵乘法和矩阵求逆有啥不相同呢?
浅陋来说,矩阵乘法,试验上是“知因求果”。权重已知、参数已知,乘起来、加起来,临了得到放置。
而矩阵求逆反过来。放置仍是知说念了,但中间确切的参数、权重、景况未知,你需要反过来把它求出来,从放置反推原因。
对应到大模子里也很好连气儿:矩阵乘法更多对应推理,而矩阵求逆则更接近查验。
因为查验试验上,等于已知输入和输出,再反过来寻找中间最相宜的参数。

(注:今上帝流数字筹谋的作念法,依然是把本来需要告成求解的问题,滚动成海量矩阵乘法,再通过不休迭代去贴近谜底。)
事实上,矩阵求逆并不局限于大模子查验。现实宇宙里确切难的问题,许多其实都是“逆问题”。
比如,机器东说念主为什么会跌倒?自动驾驶何如从传感器数据里还原真实景况?通讯系统何如从搀杂信号里恢规复始信息?
开云的世界杯中国登录网址这些问题,底层都在作念归并件事:从放置反推原因。
而这,恰正是GPU不擅长的。因为在数字芯片体系里,并不存在“原生矩阵求逆”这个算子。它的作念法,试验上是绕。
先把一个求逆问题辩别,再滚动成海量矩阵乘法,然后通过不休迭代,一轮轮贴近最终谜底。
是以GPU不是“告成解”,而是在“贴近解”,这亦然为什么,咱们前边会看到阿谁“一亿步”和“一步”的辩别。
为了愈加深远地连气儿这两者的各异,安纳还给咱们打了一个很形象的比喻。
比如你要建长城。矩阵求逆就像“砖”。而数字芯片手里其实莫得砖。它唯一沙子、土壤、原料。
是以它得先和泥、烧制、成型,临了才能得到一块砖,再拿这块砖去建长城。
模拟筹谋芯片,则是告成把砖给你。你无用再从沙子运转。是以这不是“快少许”或者“省少许”的区别,而是筹谋范式本人不同。
一个是在不休迭代贴近。
一个则是原生求解。
安纳想作念的,等于把这块缺失了许多年的“砖”,再行补考究。
让矩阵归模拟,让逻辑归数字
说到临了,一个很现实的问题摆在眼前:
模拟筹谋这块“砖”,到底何如插进今天仍是高度熟练的AI基础要津里?
安纳给出的谜底很浅陋:让矩阵归模拟,让逻辑归数字。
据了解,他们的模拟芯片在接口、数据体式和互联状貌上,都兼容现存GPU体系,不错告成接入今天仍是scale起来的AI Infra和算力中心。
更勤快的是,它不依赖开头进制程。
当数字芯片还在3nm、2nm上继续向物理极限贴近时,模拟筹谋某种趣味上仍是跳出了那套“拼晶体管、拼工艺、拼堆叠”的竞争逻辑。
而一朝矩阵求逆这块“砖”确切补上,它带来的变化,可能会比设想中更大。
机器学习里的优化问题、具身智能的及时通顺甩手、自动驾驶的景况推断、6G通讯里的信号陈述、端侧AI的在线学习……这些系统背后,试验上都在高频求解矩阵方程。
昔日许多问题不是不行作念,而是太慢、太贵、太耗电。
而矩阵求逆一朝简略被原生、高精度、低功耗地完成,许多昔日只可放在云霄、只可离线查验、只可近似求解的事情,可能都会运转发生变化。
是以回头再看,安纳想作念的,其实不仅仅一颗“更快更省电的芯片”。
他们确切想切入的,是下一代智能系统最底层的筹谋状貌。
2012年,东说念主们第一次相识到,GPU不仅能绘图,还能查验神经收集。
AI期间由此开启。
而今天,安纳试图回答的是另一个问题:
若是矩阵乘法界说了昔日十年的AI,那么模拟筹谋和矩阵求逆,会不会界说下一代智能系统?
至少当今王者荣耀下注平台2026最新版官方app下载,他们仍是站在了这个问题的最前排。