oMLX.AI 是专为 macOS 设计的原生 MLX 服务器,旨在充分利用 Apple Silicon 的计算能力,提供极速的本地大型语言模型(LLM)推理体验。该平台通过融合智能 SSD 缓存与连续批处理技术,解决了传统内存缓存的局限性,实现了低延迟多模型推理。开发者无需依赖云端,即可在本地环境中高效测试、部署和优化 AI 模型,适用于编码辅助、内容生成及多模态任务等场景。

对于 macOS 用户而言,一款能够充分发挥 Apple Silicon 芯片潜力的本地大模型推理引擎显得尤为重要。

oMLX 正是为解决这一痛点而生的开源项目。它是一个专为 macOS 原生设计的 MLX 服务器,提供 LLM 大语言模型推理服务,具有智能缓存功能,针对编码代理的实际工作方式进行了深度优化。

🎯 oMLX 的核心价值:让 Claude Code、OpenClaw 和 Cursor 等工具能在 5 秒内响应,而非传统的 90 秒。这意味着开发效率的质的飞跃!

核心功能特性

技术架构详解

oMLX 的技术架构采用分层设计,核心组件包括:

  • FastAPI Server:提供 OpenAI 和 Anthropic API 兼容接口
  • EnginePool:多模型管理,支持 LRU 驱逐、TTL、手动加载/卸载
  • ProcessMemoryEnforcer:总内存限制,防止 OOM
  • Scheduler:FCFS 调度,可配置批处理大小
  • Cache Stack:分层 KV 缓存(内存热缓存 + SSD 冷缓存)

实测性能数据

oMLX 官方基准测试收集了大量社区用户的测试数据。以下是不同 Apple Silicon 芯片的实测表现:

M4 Pro (48GB) 测试结果

安装与配置

系统要求

  • 芯片:Apple Silicon (M1/M2/M3/M4/M5)
  • 系统:macOS 15.0+ (Sequoia)
  • 内存:最低 16GB(推荐 64GB+)
  • Python:3.10+

安装方式一:macOS 应用(推荐)

方式 A:macOS 应用(推荐)

  1. GitHub Releases 下载 DMG 文件
  2. 拖动到 Applications 文件夹
  3. 首次启动时显示欢迎屏幕,引导完成以下步骤
  • 设置模型目录
  • 启动服务器
  • 下载第一个模型

安装方式二:Homebrew

# 添加 Tap 并安装
brew tap jundot/omlx https://github.com/jundot/omlx
brew install omlx

# 升级到最新版本
brew update && brew upgrade omlx

# 作为后台服务运行崩溃自动重启
brew services start omlx

# 可选安装 MCP 支持
/opt/homebrew/opt/omlx/libexec/bin/pip install mcp

安装方式三:从源码安装

# 克隆并安装
git clone https://github.com/jundot/omlx.git
cd omlx
pip install -e .              # 仅核心功能
pip install -e ".[mcp]"       #  MCP 支持

# 启动服务
omlx serve --model-dir ~/models

使用教程

启动服务器

通过命令行启动 oMLX 服务器:

# 基本启动
omlx serve --model-dir ~/models

# 启用 SSD 缓存
omlx serve --model-dir ~/models --paged-ssd-cache-dir ~/.omlx/cache

# 设置内存限制
omlx serve --model-dir ~/models --max-process-memory 80%

💡 提示:可以复用现有的 LM Studio 模型目录,无需重新下载所有模型。

API 调用示例

Chat Completions

curl http://localhost:8000/v1/chat/completions \
  -H "Content-Type: application/json" \
  -d '{
    "model": "model-name",
    "messages": [{"role": "user", "content": "你好!"}]
  }'

流式输出

curl http://localhost:8000/v1/chat/completions \
  -H "Content-Type: application/json" \
  -d '{
    "model": "model-name",
    "messages": [{"role": "user", "content": "写一首诗"}],
    "stream": true
  }'

Anthropic API

curl http://localhost:8000/v1/messages \
  -H "Content-Type: application/json" \
  -H "x-api-key: your-key" \
  -H "anthropic-version: 2023-06-01" \
  -d '{
    "model": "claude-sonnet-4-20250514",
    "max_tokens": 1024,
    "messages": [{"role": "user", "content": "解释量子计算"}]
  }'

集成 Claude Code / Codex/OpenCode/OpenClaw

oMLX 提供一键配置生成器,简化了与主流开发工具的集成:

  1. 打开 Web 管理面板 (http://localhost:8000/admin)
  2. 选择要使用的模型
  3. 点击 “Integrations” 选项卡
  4. 一键复制配置命令
  5. 粘贴到对应工具的配置文件

重要说明:推荐配置为 M 系列 Pro/Max + 64GB+ 内存,以获得最佳的使用体验。16GB 内存虽然可以运行,但可能会遇到内存不足的情况。

与传统方案对比

oMLX vs Ollama / LM Studio

oMLX 的核心竞争力在于:

  • 极速响应:TTFT 从 30-90 秒缩短到 5 秒以内
  • 智能缓存:SSD KV 缓存技术实现上下文复用
  • 高并发:连续批处理支持 8× 并发,吞吐量提升 4.14×
  • 原生体验:非 Electron 构建的系统原生应用
  • 完全开源:Apache 2.0 许可证,透明可控

最大的区别就是缓存机制

Ollama和LM Studio的KV缓存都是放在内存里的,而且一旦对话的上下文变化,比如你用Claude Code的时候,它会不断地修改上下文,加工具调用的结果,这时候整个缓存就直接失效了,下次还要重新计算一遍,这就是为什么你会等半天。

而oMLX的缓存是块级的,持久化到SSD,不管上下文怎么变,只要有相同的前缀,就能直接复用缓存,不用重新算,这就是它能把首响从90秒降到5秒的核心原因。

而且oMLX专门针对Claude Code这类AI编码工具做了优化,比如SSE keep-alive防止长请求超时,上下文缩放让小模型也能配合Claude Code用,这些都是其他工具没有的。

oMLX 不仅是一个性能强大的 LLM 推理引擎,更通过其创新的缓存机制和友好的交互设计,解决了本地部署大模型的实际痛点。如果你拥有一台 Apple Silicon Mac,并希望在本地高效、便捷地运行大模型,oMLX 无疑是一个非常值得尝试的选择。

如果你有一台Apple Silicon Mac,并且正在寻找一个高效、易用的本地LLM推理方案,oMLX值得你立即上手体验。它很可能就是那块让Mac变身私人AI数据中心的最后拼图。

快速入口

快去试试吧,然后把你的Mac菜单栏交给oMLX——相信你也会成为它的忠实用户。