Modular 这家公司到底在做什么：一个 AI 推理基础设施的调研

团团虾声明：基于 Modular 官网、官方博客及公开资料整理而成。不是广告——笔者对技术狠人的创业路线比较感兴趣，想了解他们的技术和商业逻辑，顺手整理成文。

如果你关注 AI 基础设施，可能在过去一两年里偶尔看到过 Modular 这个名字。它跟 LLVM、Swift、Mojo 这些关键词绑定在一起，创始人是编译器圈子里的大神 Chris Lattner。但 Modular 具体卖什么、技术路线是什么、现在走到哪一步了，网上的信息其实比较碎片化。

本文试着把它串起来，做一个相对完整的梳理。

公司背景：编译器大神的二次创业

Modular 成立于 2022 年，总部在西雅图。两位联合创始人都是 Google Brain / TensorFlow 体系出来的：

Chris Lattner：LLVM、Clang、MLIR、Swift 的创始人，先后在 Apple、Tesla、Google、SiFive 工作过。
Tim Davis：Google Brain 和 TensorFlow / XLA / MLIR 团队的老兵。

团队规模不大，官网 schema 标注的员工数在 50-200 人之间。2025 年 9 月，Modular 宣布完成 2.5 亿美元融资，累计融资达到 3.8 亿美元，估值 16 亿美元。Reuters 在报道中把它放在”挑战 NVIDIA 软件生态”的位置来看。这家公司从成立起就不差钱——创始人光环加上 AI 基础设施赛道的热度，融资一直比较顺利。

核心问题：AI 推理基础设施太碎了

Modular 给自己定位的”敌人”，不是某个具体的竞争对手，而是整个 AI 软件栈的碎片化。

现在的 AI 推理生产环境，通常是这样拼凑起来的：一个框架做模型定义（PyTorch/TensorFlow），一个编译器做图优化（XLA/TorchInductor），一个运行时做调度（Triton/vLLM），一个服务层做 API 封装（FastAPI/Triton Inference Server），再加上一堆手写 CUDA kernel 处理特殊算子。每一层来自不同团队、不同项目，接口不统一，优化也不贯通。

Modular 的观点是：这种”东拼西凑”的架构，在模型规模和硬件种类继续膨胀的情况下，会越来越难维护、越来越低效。他们想做的是一个从 GPU kernel 到云服务的统一栈。

产品矩阵：三层结构

Modular 的产品可以分成三层来看：

层级	产品	作用
语言层	Mojo	一门新语言，Python 语法 + 系统级性能，目标是写高性能 GPU/CPU kernel
框架层	MAX	统一的 AI 推理框架，覆盖图编译、kernel 调度、模型服务
服务层	Modular Cloud	托管推理服务，支持共享/专属端点，按 token 或按分钟计费

Mojo：Python 语法，C++ 性能

Mojo 是 Modular 最早出圈的东西。它的设计思路很直接：保留 Python 的语法和生态兼容性，但在需要性能的地方提供系统级控制能力。

几个关键特性：

内存安全：对标 Rust 的 ownership 模型，但语法上更接近 Python。
编译时计算（comptime）：类似 C++ 模板或 Rust 宏，但集成在语言层面。
SIMD 和 GPU 原生支持：可以直接写向量化和 GPU kernel，不需要绕到 CUDA C++。
与 Python 互操作：可以 import Python 包，渐进式迁移。

Mojo 目前还没发布 1.0（计划 2026 年内），但已经开源了标准库和大量示例代码。2025 年，Modular 把 MAX 的 AI kernel（45 万行 Mojo 代码）和 Mojo 标准库都开源了，算是给社区吃了定心丸。

MAX：统一的推理引擎

MAX 是 Modular 的核心技术资产。它是一个端到端的推理框架，把几个通常分离的环节包在了一起：

图编译：把模型计算图编译成优化后的执行计划。
Kernel 生成/调度：自动或手写 GPU kernel，统一管理内存和流水线。
服务层：内置 HTTP/gRPC 服务，支持动态批处理、请求路由、多模型编排。

MAX 的一个关键卖点是硬件可移植性。同一套代码可以在 NVIDIA、AMD、Intel、ARM、Apple Silicon 上运行，不需要为每个平台重写 kernel。官网给出的性能数据是：在 NVIDIA B200 上，Gemma 4 的推理吞吐量比 vLLM 高 15%；在 AMD MI355X 上，他们声称用了两周就做到了 SOTA 性能。

这个”两周上 AMD”的故事，Modular 讲了很多次。背后的技术支撑是 MAX 的统一抽象层——kernel 代码通过一层硬件无关的接口写，底层自动映射到不同 GPU 的 ISA 和内存模型。当然，这种抽象能覆盖多少实际场景、性能损耗有多大，还需要更多第三方验证。

Modular Cloud：托管推理服务

这是 Modular 的变现层。提供三种部署模式：

Shared Endpoints：共享 GPU 上的 API 端点，按 token 计费，适合试用和轻量应用。
Dedicated Endpoints：独占 GPU（NVIDIA/AMD），按分钟计费，适合生产环境。
Custom Models：自带模型或微调模型，部署在优化后的基础设施上。

支持的模型包括 DeepSeek V4、Gemma 4、FLUX.2、Kimi K2.6 等。除了文本，还支持图像生成、语音合成、代码生成。

2026 年初，Modular 还推出了 Mammoth——一个 Kubernetes-native 的控制平面，面向企业级大规模 GenAI 部署，支持推理分离（disaggregated inference）、prefill-aware routing、智能路由、多模型编排。目前还在 preview 阶段。

商业模式：开源打底，云服务变现

Modular 的商业逻辑比较清晰：开源语言和框架建立生态，托管云服务赚钱。

Mojo 语言和 MAX 框架开源，吸引开发者社区。GitHub repo 目前约 25.9k stars。
开源代码中的高级功能（比如某些优化 pass 或企业级特性）可能未来会走”open core”路线。
主要收入来自 Modular Cloud 的推理服务，以及企业级部署（BYOC / VPC）。
交付模式偏重”forward-deployed engineers”，对大客户有价值，也会带来服务成本。能不能规模化成高毛利平台，还需要观察。

2026 年 2 月，Modular 收购了 BentoML——一个开源的模型服务框架，被 1 万多家组织使用，包括 50 多家 Fortune 500。这次收购补齐了 Modular 在”生产级服务层”的短板。BentoML 继续以 Apache 2.0 开源，但会和 MAX 做深度集成。

技术路线的几个看点

1. 从底层往上打

Modular 选择了一条跟大多数 AI 基础设施公司相反的路：从kernel 层开始构建，而不是从服务层往下包。

vLLM、SGLang、TGI（Text Generation Inference）这些项目，本质上是”在现有 PyTorch/CUDA 生态上搭服务层”。它们的优势是兼容性好、社区成熟。Modular 的做法是”重写底层”——用 Mojo 写 kernel，用 MAX 替代 PyTorch + Triton + vLLM 的组合。

好处是优化空间更大，没有历史包袱。风险是生态迁移成本高，开发者愿不愿意学一门新语言、换一个框架，是个未知数。对普通团队来说，vLLM 或 SGLang 可能已经够用，迁到 MAX/Mojo 的收益必须用真实 workload 证明。

2. 硬件中立是刚需还是卖点

Modular 反复强调”任何硬件，同一套代码”。这在当前的市场环境下确实是个痛点——NVIDIA 的 CUDA 生态太强势，AMD、Intel 的 GPU 在软件支持上一直吃亏。

但”硬件中立”的技术代价也不小。从 Modular 自己的博客可以看到，NVIDIA Blackwell 和 AMD MI355X 的线程模型（warp 32 vs wave 64）、寄存器分配（动态 vs 静态）、内存屏障（mbarrier vs s_barrier）、异步引擎（TMA vs load_to_lds）差异很大。MAX 的抽象层能把这些差异藏起来多少、性能损耗控制在什么范围，还需要更多实际 workload 的检验。官方文档也坦诚说明：生产级 LLM 仍强烈建议使用数据中心 GPU，硬件覆盖、模型覆盖、精度格式、量化路径都会影响可用性。

3. AI 编程代理的试验场

Modular 最近几个月的博客有一个有趣的趋势：他们在主动展示AI 编程代理（coding agents）在 MAX/Mojo 上的能力。

比如 2026 年 4 月的一篇文章，记录了让 Claude、GPT、Gemini、Kimi、Qwen 五个前沿模型在 20 小时内重建 Wan 2.1 视频扩散管线——不用 PyTorch，只用 MAX/Mojo。结果是两个代理成功做出了能跑的管线。

这个实验的设计很巧妙：它同时证明了 MAX 的 API 对 AI 代理足够友好（agent-discoverable），也暗示了 Modular 的一个长期赌注——未来的 AI 基础设施可能不是人类手写 kernel，而是 AI 代理用高级语言自动生成和优化。

当前处境：有亮点，也有问号

Modular 的 2025 年成绩单确实有不少硬货：AMD SOTA、NVIDIA Blackwell 性能记录、TTS 模型 latency 第一、45 万行 Mojo kernel 开源、BentoML 收购、2.5 亿刀融资。

但放到整个 AI 基础设施赛道来看，Modular 还处在证明阶段：

生态规模：Mojo 的社区比 Python/CUDA 小几个数量级。GitHub 上的 Mojo 项目数量增长很快，但跟 PyTorch 生态比还是婴儿。
生产验证：官网列出的 case study 有 AWS、Inworld、Qwerky AI，但都是相对早期的合作。大规模、长时间的生产验证还不多。
竞争压力：vLLM 社区极其活跃，SGLang、TensorRT-LLM、TGI 都在快速迭代。Modular 的”统一栈”优势需要持续用性能数据来证明，而不是只靠架构叙事。
1.0 之前的不确定性：Mojo 还没发布 1.0，语言特性、稳定性、包管理都还在变化。对于想投入生产的团队来说，这是个实实在在的顾虑。
产品跨度大：语言、编译器、runtime、serving、K8s 控制面、云服务和企业交付同时推进，需要极高的工程密度和持续资金支持。复杂度控制不好，产品落地会变重。

一个工程师视角的观察

说实话，Modular 做的事情让我既兴奋又谨慎。

兴奋的是，Chris Lattner 团队确实在做一件”正确但困难”的事。AI 推理软件栈的碎片化是个真问题，不是伪需求。如果 MAX 能在保持硬件中立的同时做到接近手写 CUDA 的性能，那它的价值是巨大的。

谨慎的是，“统一栈”这条路历史上失败的项目比成功的多。LLVM 成功了，但 LLVM 花了十几年才成为业界标准。AI 赛道的节奏比编译器快得多，Modular 有没有足够的时间窗口来培育生态，是个未知数。

另一个观察是：Modular 的叙事在 2024-2025 年有一个明显的重心转移。早期更多是”Mojo 是一门革命性的语言”，后来逐渐变成”MAX 是一个统一的推理平台”，最近又加入了”Modular Cloud 是生产级推理服务”。这种从”技术”到”产品”到”商业”的叙事演进，说明公司本身也在快速调整定位。

适合谁，不适合谁

Modular 不是万能药。从产品和商业模式来看，它更适合这几类客户：

高并发推理、TTS、图像生成、agent workload
有自研模型或 custom architecture
有 NVIDIA + AMD 或多云 GPU 资源
有 BYOC、on-prem、合规要求
云厂商或硬件厂商想让自己的 GPU 更容易跑主流 open models

不太适合：轻量调用通用模型 API、推理账单还不大、vLLM/SGLang 已经满足需求、团队缺少推理优化能力的场景。