栏目分类
热点资讯
第四色播播电影
你的位置:色狼窝影院 > 第四色播播电影 > 色人阁影视 DeepSeek 再次战栗全球:价钱惟有 OpenAI 1/25,利润率却进步 500%
色人阁影视 DeepSeek 再次战栗全球:价钱惟有 OpenAI 1/25,利润率却进步 500%

发布日期:2025-06-25 22:14    点击次数:197

色人阁影视 DeepSeek 再次战栗全球:价钱惟有 OpenAI 1/25,利润率却进步 500%

当年一周色人阁影视,DeepSeek 相接绽开了 5 个 Infra 技俩的源代码,刚直全球觉得这场开源盛宴依然终局。

刚刚,DeepSeek 的彩蛋来了!开源周 Day6,DeepSeek 官方团队在 Github 和知乎给出了 DeepSeek-V3 / R1 推理系统的期间解读。

先说论断:通过优化朦拢和蔓延,DeepSeek「表面上一天的总收入为 $562,027,资本利润率 545%。」

敏锐的网友——如 MenloVentures 投资东谈主 Deedy 翻译了这意味着什么:「表面 ARR 2 亿好意思金、利润率进步 500%,这样的生意效力理当是一家值 100 亿好意思金的公司。」

从 2024 年 5 月发布 DeepSeekV2 以来,DeepSeek 模子工作就以「价钱屠户」示众,老是比行业其他模子低廉 1/10 摆布,质疑 DeepSeek 弃世打价钱战的声息也一直有。

通过这 5 天绽开源代码以及今天的推理系统抽象,这一疑虑也被撤消,不错预料,模子推理价钱越来越职守得起,且工作提供方也有得赚。这一事件的影响也不错通过 X 平台网友展现出刷屏的惊喜得以一窥,「资本利润率 545%,便是说你是在告诉我,我被 Open AI 强抢了?开源周 Day7 的彩蛋是 AGI?」

但更大的信号指向生态伙伴,部署 DeepSeek 有得赚。

一位 AI 领域的投资东谈主向极客公园发达,「官方期间解读标明,云平台和凹凸游通过部署 DeepSeek 的工作,表面上收益和利润率不错达到很高」。不管是对于提供在线推理、照旧特有化部署等工作的供应商,王人是利好。

在这波 DeepSeek 热中受益的云平台硅基流动首创东谈主袁进辉也在第一期间发表了我方的感受,「DeepSeek 官方透露大范围部署资本和收益,又一次颠覆了好多东谈主阐发。」

但需要期间适配 DeepSeek V3/R1 模子架构,他暗示「目下好多供应商还作念不到这个水平,主若是 V3/R1 架构和其它主流模子分散太大了,由多半小 Expert 构成,导致对准其它主流模子结构建立的系统王人不再灵验,必须按照 DeepSeek 叙述描画的依次才气达到最佳的效力,而建立这样的系统难度很高,需要期间」。

Hongkongdoll video

他进一步指出目下复现这样的推理工作的难度以及 DeepSeek 可能的策略想考,「幸好这周 DeepSeek 五连发依然把主要模块开源出来了,镌汰了社区复现的难度。这些截止充分体现了 DeepSeek 团队第一性旨趣的想考方式和强悍的瓦解,他们应该是率先是基于某些原因(?)猜度了用这样的模子结构,然后发现这样的结构不管是历练照旧推理,要作念好王人有格外大的工程挑战,不外这些问题在他们工程团队来说并不是搞不定的,要道是花那么流弊气作念完是否有大的收益呢,在最终截止出来前,谁也说不准,他们照旧赌了,截止是赌对了。也可能是反过来的,基于系统的起点联想了这样一个全新的模子结构。」

在 DeepSeek 官方叙述中也教导了 DeepSeek-V3 / R1 推理系统的优化贪图是:更大的朦拢,更低的蔓延。相助期间解读,DeepSeek 开源周放出的 5 个代码库带来的影响力才刚刚启动。

附:《DeepSeek-V3 / R1 推理系统概览全文

DeepSeek-V3 / R1 推理系统的优化贪图是:更大的朦拢,更低的蔓延。

为了达成这两个贪图,咱们的有规划是使用大范围跨节点众人并行(Expert Parallelism / EP)。率先 EP 使得 batch size 大大加多,从而晋升 GPU 矩阵乘法的效力,晋升朦拢。其次 EP 使得众人散布在不同的 GPU 上,每个 GPU 只需要计较很少的众人(因此更少的访存需求),从而镌汰蔓延。

但 EP 同期也加多了系统的复杂性。复杂性主要体目下两个方面:

EP 引入跨节点的传输。为了优化朦拢,需要联想适应的计较经过使得传输和计较不错同步进行。

EP 波及多个节点,因此自然需要 Data Parallelism(DP),不同的 DP 之间需要进行负载平衡。

因此,本文的主要内容是若何使用 EP 增大 batch size,若何荫藏传输的耗时,若何进行负载平衡。

01 大范围跨节点众人并行(Expert Parallelism / EP)

由于 DeepSeek-V3 / R1 的众人数目广宽,而且每层 256 个众人中仅激活其中 8 个。模子的高度稀零性决定了咱们必须接纳很大的 overall batch size,才气给每个众人提供实足的 expert batch size,从而达成更大的朦拢、更低的延时。需要大范围跨节点众人并行(Expert Parallelism / EP)。

咱们接纳多机多卡间的众人并行策略来达到以下方针:

Prefill:路由众人 EP32、MLA 和分享众人 DP32,一个部署单位是 4 节点,32 个冗余路由众人,每张卡 9 个路由众人和 1 个分享众人

Decode:路由众人 EP144、MLA 和分享众人 DP144,一个部署单位是 18 节点,32 个冗余路由众人,每张卡 2 个路由众人和 1 个分享众人

02 计较通讯重复

多机多卡的众人并行会引入相比大的通讯支出,是以咱们使用了双 batch 重复来隐秘通讯支出,晋升举座朦拢。

对于 prefill 阶段,两个 batch 的计较和通讯交错进行,一个 batch 在进行计较的时候不错去隐秘另一个 batch 的通讯支出;

Prefill 阶段的双 batch 重复

对于 decode 阶段,不同阶段的执行期间有所分散,是以咱们把 attention 部分拆成了两个 stage,合计 5 个 stage 的活水线来达成计较和通讯的重复。

Decode 阶段的双 batch 重复

对于更多双 batch 重复的细节,不错参考咱们的 profiling 数据的 GitHub 仓库:https://github.com/deepseek-ai/profile-data。

03 尽可能地负载平衡

由于接纳了很大范围的并行(包括数据并行和众人并行),如果某个 GPU 的计较或通讯负载过重,将成为性能瓶颈,拖慢通盘系统;同期其他 GPU 因为恭候而空转,形成举座哄骗率下落。因此咱们需要尽可能地为每个 GPU 分派平衡的计较负载、通讯负载。

Prefill Load Balancer

中枢问题:不同数据并行(DP)实例上的肯求个数、长度不同,导致 core-attention 计较量、dispatch 发送量也不同

优化贪图:各 GPU 的计较量尽量换取(core-attention 计较负载平衡)、输入的 token 数目也尽量换取(dispatch 发送量负载平衡),幸免部分 GPU 治理期间过长

Decode Load Balancer

中枢问题:不同数据并行(DP)实例上的肯求数目、长度不同,导致 core-attention 计较量(与 KVCache 占用量关连)、dispatch 发送量不同

优化贪图:各 GPU 的 KVCache 占用量尽量换取(core-attention 计较负载平衡)、肯求数目尽量换取(dispatch 发送量负载平衡)

Expert-Parallel Load Balancer

中枢问题:对于给定 MoE 模子,存在一些自然的高负载众人(expert),导致不同 GPU 的众人计较负载不平衡

优化贪图:每个 GPU 上的众人计较量平衡(即最小化悉数 GPU 的 dispatch 接纳量的最大值)

04 参考架构图

05 线上系统的本色统计数据

DeepSeek V3 和 R1 的悉数工作均使用 H800 GPU,使用和历练一致的精度,即矩阵计较和 dispatch 传输接纳和历练一致的 FP8 模式,core-attention 计较和 combine 传输接纳和历练一致的 BF16,最猛进度保证了工作效果。

另外,由于白昼的工作负荷高,晚上的工作负荷低,因此咱们达成了一套机制,在白昼负荷高的时候,用悉数节点部署推理工作。晚上负荷低的时候,减少推理节点,以用来作念究诘和历练。在最近的 24 小时里(北京期间 2025/02/27 12:00 至 2025/02/28 12:00),DeepSeek V3 和 R1 推理工作占用节点总和,峰值占用为 278 个节点,平均占用 226.75 个节点(每个节点为 8 个 H800 GPU)。假设 GPU 租借资本为 2 好意思金 / 小时,总资本为 $87,072/ 天。

在 24 小时统计时段内,DeepSeek V3 和 R1:

输入 token 总和为 608B,其中 342B tokens(56.3%)掷中 KVCache 硬盘缓存。

输出 token 总和为 168B。平均输出速度为 20~22 tps,平均每输出一个 token 的 KVCache 长度是 4989。

平均每台 H800 的朦拢量为:对于 prefill 任务,输入朦拢约 73.7k tokens/s(含缓存掷中);对于 decode 任务,输出朦拢约 14.8k tokens/s。

以上统计包括了网页、APP 和 API 的悉数负载。如果悉数 tokens 一齐按照 DeepSeek R1 的订价 ( [ 1 ] ) 计较,表面上一天的总收入为 $562,027,资本利润率 545%。

「诚然咱们本色上莫得这样多收入,因为 V3 的订价更低,同期收费工作只占了一部分,另外夜间还会有扣头。」

参考

^DeepSeek R1 的订价:$0.14 / 百万输入 tokens ( 缓存掷中 ) ,$0.55 / 百万输入 tokens ( 缓存未掷中 ) 色人阁影视,$2.19 / 百万输出 tokens。



热热色 第四色播播电影 第四色播网 第四色播室 三圾片在线观看 第四色欧美性爱