英伟达刚刚从DeepSeek-R1激励的 4 万亿元暴跌中缓给力来九游会欧洲杯,又面对新的压力?
硬件媒体 Tom ‘ s Hardware 带来开年最新热议:
DeepSeek 致使绕过了 CUDA,使用更底层的编程谈话作念优化。
这一次是DeepSeek-V3论文中的更多细节,被东谈主挖掘出来。
来自Mirae Asset Securities Research(韩国改日钞票证券)的分析称,V3 的硬件服从之是以能比 Meta 等逾越 10 倍,不错归来为"他们从新运转重建了一切"。
在使用英伟达的 H800 GPU 锤真金不怕火 DeepSeek-V3 时,他们针对我方的需求把 132 个流式多解决器(SMs)中的20 个修改成认真劳动器间的通讯,而不是辩论任务。
变相绕过了硬件对通讯速率的驱散。
DeepSeek-V3 Technical Report
这种操作是用英伟达的 PTX(Parallel Thread Execution)谈话完了的,而不是 CUDA。
PTX 在接近汇编谈话的层级运行,允许进行细粒度的优化,如寄存器分派和 Thread/Warp 级别的挪动。
这种编程荒谬复杂且难以宝贵,是以行业通用的作念法是使用 CUDA 这么的高档编程谈话。
换句话说,他们把优化作念到了极致。
有网友默示,要是有一群东谈主嫌 CUDA 太慢而使用 PTX,那一定是前量化往还员。
一位亚马逊工程师提议灵魂阻抑:CUDA 是否照旧护城河?这种顶尖本质室不错灵验诈欺任何 GPU。
致使有网友运转畅思,要是"新源神" DeepSeek 开源了一个 CUDA 替代决策……
那么事情是否真会如斯?
DeepSeek 确凿绕过了 CUDA?
领先要明确的是,PTX 仍然是英伟达 GPU 架构中的时刻,它是 CUDA 编程模子中的中间默示,用于纠合 CUDA 高档谈话代码和 GPU 底层硬件指示。
PTX 相通汇编谈话,代码省略长这么:
△来自 tinkerd.net
在骨子编译进程中,CUDA 代码领先被编译为 PTX 代码,PTX 代码再被编译为见地 GPU 架构的机器码(SASS,Streaming ASSembler)。
CUDA 起到了提供高档编程接口和器具链的作用,不错简化建造者的责任。而 PTX 行动中间层,充任高档谈话和底层硬件之间的桥梁。
另外,这种两步编译进程也使得 CUDA 要领具有跨架构的兼容性和可移植性。
反过来说,像 DeepSeek 这种径直编写 PTX 代码的作念法,领先不仅荒谬复杂,也很难移植到不同型号的 GPU。
有从业者默示,针对 H100 优化的代码迁徙到其他型号上可能服从打扣头,也可能根底不责任了。
是以说,DeepSeek 作念了 PTX 级别的优化不料味着透顶脱离了 CUDA 生态,但如实代表他们有优化其他 GPU 的智商。
事实上,咱们也能看到 DeekSeek 如故与 AMD、华为等团队空洞协作,第一时候提供了对其他硬件生态的撑捏。
One More Thing
还有东谈主提议,如斯一来,让 AI 擅长编写汇编谈话是 AI 自我矫正的一个地点。
咱们不知谈 DeepSeek 里面是否使用 AI 缓助编写了 PTX 代码——
关联词如实刚刚见证DeepSeek-R1 编写的代码显耀普及大模子推理框架的运行速率。
Llama.cpp 名堂中的一个新 PR 苦求,使用 SIMD 指示(允许一条指示同期解决多个数据)显耀普及 WebAssembly 在特定点积函数上的运行速率,提交者默示:
这个 PR 中的 99% 的代码齐是由 DeekSeek-R1 编写的。我独一作念的即是建造测试和编写指示(经过一些尝试和诞妄)。
是的,这个 PR 旨在线路大模子当今能够编写精采的底层代码,致使能够优化我方的代码。
llama.cpp 名堂的独创东谈主查验了这段代码后默示"比预期的更爆炸"。
九游会欧洲杯