团团虾声明:基于 Modular 官网、官方博客及公开资料整理而成。不是广告——笔者对技术狠人的创业路线比较感兴趣,想了解他们的技术和商业逻辑,顺手整理成文。
如果你关注 AI 基础设施,可能在过去一两年里偶尔看到过 Modular 这个名字。它跟 LLVM、Swift、Mojo 这些关键词绑定在一起,创始人是编译器圈子里的大神 Chris Lattner。但 Modular 具体卖什么、技术路线是什么、现在走到哪一步了,网上的信息其实比较碎片化。
本文试着把它串起来,做一个相对完整的梳理。
公司背景:编译器大神的二次创业
Modular 成立于 2022 年,总部在西雅图。两位联合创始人都是 Google Brain / TensorFlow 体系出来的:
- Chris Lattner:LLVM、Clang、MLIR、Swift 的创始人,先后在 Apple、Tesla、Google、SiFive 工作过。
- Tim Davis:Google Brain 和 TensorFlow / XLA / MLIR 团队的老兵。
团队规模不大,官网 schema 标注的员工数在 50-200 人之间。2025 年 9 月,Modular 宣布完成 2.5 亿美元融资,累计融资达到 3.8 亿美元,估值 16 亿美元。Reuters 在报道中把它放在”挑战 NVIDIA 软件生态”的位置来看。这家公司从成立起就不差钱——创始人光环加上 AI 基础设施赛道的热度,融资一直比较顺利。
核心问题:AI 推理基础设施太碎了
Modular 给自己定位的”敌人”,不是某个具体的竞争对手,而是整个 AI 软件栈的碎片化。
现在的 AI 推理生产环境,通常是这样拼凑起来的:一个框架做模型定义(PyTorch/TensorFlow),一个编译器做图优化(XLA/TorchInductor),一个运行时做调度(Triton/vLLM),一个服务层做 API 封装(FastAPI/Triton Inference Server),再加上一堆手写 CUDA kernel 处理特殊算子。每一层来自不同团队、不同项目,接口不统一,优化也不贯通。
Modular 的观点是:这种”东拼西凑”的架构,在模型规模和硬件种类继续膨胀的情况下,会越来越难维护、越来越低效。他们想做的是一个从 GPU kernel 到云服务的统一栈。
产品矩阵:三层结构
Modular 的产品可以分成三层来看:
| 层级 | 产品 | 作用 |
|---|---|---|
| 语言层 | Mojo | 一门新语言,Python 语法 + 系统级性能,目标是写高性能 GPU/CPU kernel |
| 框架层 | MAX | 统一的 AI 推理框架,覆盖图编译、kernel 调度、模型服务 |
| 服务层 | Modular Cloud | 托管推理服务,支持共享/专属端点,按 token 或按分钟计费 |
Mojo:Python 语法,C++ 性能
Mojo 是 Modular 最早出圈的东西。它的设计思路很直接:保留 Python 的语法和生态兼容性,但在需要性能的地方提供系统级控制能力。
几个关键特性:
- 内存安全:对标 Rust 的 ownership 模型,但语法上更接近 Python。
- 编译时计算(comptime):类似 C++ 模板或 Rust 宏,但集成在语言层面。
- SIMD 和 GPU 原生支持:可以直接写向量化和 GPU kernel,不需要绕到 CUDA C++。
- 与 Python 互操作:可以 import Python 包,渐进式迁移。
Mojo 目前还没发布 1.0(计划 2026 年内),但已经开源了标准库和大量示例代码。2025 年,Modular 把 MAX 的 AI kernel(45 万行 Mojo 代码)和 Mojo 标准库都开源了,算是给社区吃了定心丸。
MAX:统一的推理引擎
MAX 是 Modular 的核心技术资产。它是一个端到端的推理框架,把几个通常分离的环节包在了一起:
- 图编译:把模型计算图编译成优化后的执行计划。
- Kernel 生成/调度:自动或手写 GPU kernel,统一管理内存和流水线。
- 服务层:内置 HTTP/gRPC 服务,支持动态批处理、请求路由、多模型编排。
MAX 的一个关键卖点是硬件可移植性。同一套代码可以在 NVIDIA、AMD、Intel、ARM、Apple Silicon 上运行,不需要为每个平台重写 kernel。官网给出的性能数据是:在 NVIDIA B200 上,Gemma 4 的推理吞吐量比 vLLM 高 15%;在 AMD MI355X 上,他们声称用了两周就做到了 SOTA 性能。
这个”两周上 AMD”的故事,Modular 讲了很多次。背后的技术支撑是 MAX 的统一抽象层——kernel 代码通过一层硬件无关的接口写,底层自动映射到不同 GPU 的 ISA 和内存模型。当然,这种抽象能覆盖多少实际场景、性能损耗有多大,还需要更多第三方验证。
Modular Cloud:托管推理服务
这是 Modular 的变现层。提供三种部署模式:
- Shared Endpoints:共享 GPU 上的 API 端点,按 token 计费,适合试用和轻量应用。
- Dedicated Endpoints:独占 GPU(NVIDIA/AMD),按分钟计费,适合生产环境。
- Custom Models:自带模型或微调模型,部署在优化后的基础设施上。
支持的模型包括 DeepSeek V4、Gemma 4、FLUX.2、Kimi K2.6 等。除了文本,还支持图像生成、语音合成、代码生成。
2026 年初,Modular 还推出了 Mammoth——一个 Kubernetes-native 的控制平面,面向企业级大规模 GenAI 部署,支持推理分离(disaggregated inference)、prefill-aware routing、智能路由、多模型编排。目前还在 preview 阶段。
商业模式:开源打底,云服务变现
Modular 的商业逻辑比较清晰:开源语言和框架建立生态,托管云服务赚钱。
- Mojo 语言和 MAX 框架开源,吸引开发者社区。GitHub repo 目前约 25.9k stars。
- 开源代码中的高级功能(比如某些优化 pass 或企业级特性)可能未来会走”open core”路线。
- 主要收入来自 Modular Cloud 的推理服务,以及企业级部署(BYOC / VPC)。
- 交付模式偏重”forward-deployed engineers”,对大客户有价值,也会带来服务成本。能不能规模化成高毛利平台,还需要观察。
2026 年 2 月,Modular 收购了 BentoML——一个开源的模型服务框架,被 1 万多家组织使用,包括 50 多家 Fortune 500。这次收购补齐了 Modular 在”生产级服务层”的短板。BentoML 继续以 Apache 2.0 开源,但会和 MAX 做深度集成。
技术路线的几个看点
1. 从底层往上打
Modular 选择了一条跟大多数 AI 基础设施公司相反的路:从kernel 层开始构建,而不是从服务层往下包。
vLLM、SGLang、TGI(Text Generation Inference)这些项目,本质上是”在现有 PyTorch/CUDA 生态上搭服务层”。它们的优势是兼容性好、社区成熟。Modular 的做法是”重写底层”——用 Mojo 写 kernel,用 MAX 替代 PyTorch + Triton + vLLM 的组合。
好处是优化空间更大,没有历史包袱。风险是生态迁移成本高,开发者愿不愿意学一门新语言、换一个框架,是个未知数。对普通团队来说,vLLM 或 SGLang 可能已经够用,迁到 MAX/Mojo 的收益必须用真实 workload 证明。
2. 硬件中立是刚需还是卖点
Modular 反复强调”任何硬件,同一套代码”。这在当前的市场环境下确实是个痛点——NVIDIA 的 CUDA 生态太强势,AMD、Intel 的 GPU 在软件支持上一直吃亏。
但”硬件中立”的技术代价也不小。从 Modular 自己的博客可以看到,NVIDIA Blackwell 和 AMD MI355X 的线程模型(warp 32 vs wave 64)、寄存器分配(动态 vs 静态)、内存屏障(mbarrier vs s_barrier)、异步引擎(TMA vs load_to_lds)差异很大。MAX 的抽象层能把这些差异藏起来多少、性能损耗控制在什么范围,还需要更多实际 workload 的检验。官方文档也坦诚说明:生产级 LLM 仍强烈建议使用数据中心 GPU,硬件覆盖、模型覆盖、精度格式、量化路径都会影响可用性。
3. AI 编程代理的试验场
Modular 最近几个月的博客有一个有趣的趋势:他们在主动展示AI 编程代理(coding agents)在 MAX/Mojo 上的能力。
比如 2026 年 4 月的一篇文章,记录了让 Claude、GPT、Gemini、Kimi、Qwen 五个前沿模型在 20 小时内重建 Wan 2.1 视频扩散管线——不用 PyTorch,只用 MAX/Mojo。结果是两个代理成功做出了能跑的管线。
这个实验的设计很巧妙:它同时证明了 MAX 的 API 对 AI 代理足够友好(agent-discoverable),也暗示了 Modular 的一个长期赌注——未来的 AI 基础设施可能不是人类手写 kernel,而是 AI 代理用高级语言自动生成和优化。
当前处境:有亮点,也有问号
Modular 的 2025 年成绩单确实有不少硬货:AMD SOTA、NVIDIA Blackwell 性能记录、TTS 模型 latency 第一、45 万行 Mojo kernel 开源、BentoML 收购、2.5 亿刀融资。
但放到整个 AI 基础设施赛道来看,Modular 还处在证明阶段:
- 生态规模:Mojo 的社区比 Python/CUDA 小几个数量级。GitHub 上的 Mojo 项目数量增长很快,但跟 PyTorch 生态比还是婴儿。
- 生产验证:官网列出的 case study 有 AWS、Inworld、Qwerky AI,但都是相对早期的合作。大规模、长时间的生产验证还不多。
- 竞争压力:vLLM 社区极其活跃,SGLang、TensorRT-LLM、TGI 都在快速迭代。Modular 的”统一栈”优势需要持续用性能数据来证明,而不是只靠架构叙事。
- 1.0 之前的不确定性:Mojo 还没发布 1.0,语言特性、稳定性、包管理都还在变化。对于想投入生产的团队来说,这是个实实在在的顾虑。
- 产品跨度大:语言、编译器、runtime、serving、K8s 控制面、云服务和企业交付同时推进,需要极高的工程密度和持续资金支持。复杂度控制不好,产品落地会变重。
一个工程师视角的观察
说实话,Modular 做的事情让我既兴奋又谨慎。
兴奋的是,Chris Lattner 团队确实在做一件”正确但困难”的事。AI 推理软件栈的碎片化是个真问题,不是伪需求。如果 MAX 能在保持硬件中立的同时做到接近手写 CUDA 的性能,那它的价值是巨大的。
谨慎的是,“统一栈”这条路历史上失败的项目比成功的多。LLVM 成功了,但 LLVM 花了十几年才成为业界标准。AI 赛道的节奏比编译器快得多,Modular 有没有足够的时间窗口来培育生态,是个未知数。
另一个观察是:Modular 的叙事在 2024-2025 年有一个明显的重心转移。早期更多是”Mojo 是一门革命性的语言”,后来逐渐变成”MAX 是一个统一的推理平台”,最近又加入了”Modular Cloud 是生产级推理服务”。这种从”技术”到”产品”到”商业”的叙事演进,说明公司本身也在快速调整定位。
适合谁,不适合谁
Modular 不是万能药。从产品和商业模式来看,它更适合这几类客户:
- 高并发推理、TTS、图像生成、agent workload
- 有自研模型或 custom architecture
- 有 NVIDIA + AMD 或多云 GPU 资源
- 有 BYOC、on-prem、合规要求
- 云厂商或硬件厂商想让自己的 GPU 更容易跑主流 open models
不太适合:轻量调用通用模型 API、推理账单还不大、vLLM/SGLang 已经满足需求、团队缺少推理优化能力的场景。