Mac 本地跑 AI 大模型神器OMLX：专为 Apple Silicon深度优化的开源本地大语言模型（LLM）推理引擎

oMLX.AI 是专为 macOS 设计的原生 MLX 服务器，旨在充分利用 Apple Silicon 的计算能力，提供极速的本地大型语言模型（LLM）推理体验。该平台通过融合智能 SSD 缓存与连续批处理技术，解决了传统内存缓存的局限性，实现了低延迟多模型推理。开发者无需依赖云端，即可在本地环境中高效测试、部署和优化 AI 模型，适用于编码辅助、内容生成及多模态任务等场景。

对于 macOS 用户而言，一款能够充分发挥 Apple Silicon 芯片潜力的本地大模型推理引擎显得尤为重要。

oMLX 正是为解决这一痛点而生的开源项目。它是一个专为 macOS 原生设计的 MLX 服务器，提供 LLM 大语言模型推理服务，具有智能缓存功能，针对编码代理的实际工作方式进行了深度优化。

🎯 oMLX 的核心价值：让 Claude Code、OpenClaw 和 Cursor 等工具能在 5 秒内响应，而非传统的 90 秒。这意味着开发效率的质的飞跃！

核心功能特性

技术架构详解

oMLX 的技术架构采用分层设计，核心组件包括：

FastAPI Server：提供 OpenAI 和 Anthropic API 兼容接口
EnginePool：多模型管理，支持 LRU 驱逐、TTL、手动加载/卸载
ProcessMemoryEnforcer：总内存限制，防止 OOM
Scheduler：FCFS 调度，可配置批处理大小
Cache Stack：分层 KV 缓存（内存热缓存 + SSD 冷缓存）

Contents hide

1 实测性能数据

1.1 M4 Pro (48GB) 测试结果

2 安装与配置

2.1 系统要求

2.2 安装方式一：macOS 应用（推荐）

2.2.1 方式 A：macOS 应用（推荐）

3 使用教程

3.4 集成 Claude Code / Codex/OpenCode/OpenClaw

4 与传统方案对比

4.1 oMLX vs Ollama / LM Studio

实测性能数据

oMLX 官方基准测试收集了大量社区用户的测试数据。以下是不同 Apple Silicon 芯片的实测表现：

M4 Pro (48GB) 测试结果

安装与配置

系统要求

芯片：Apple Silicon (M1/M2/M3/M4/M5)
系统：macOS 15.0+ (Sequoia)
内存：最低 16GB（推荐 64GB+）
Python：3.10+

安装方式一：macOS 应用（推荐）

方式 A：macOS 应用（推荐）

从 GitHub Releases 下载 DMG 文件
拖动到 Applications 文件夹
首次启动时显示欢迎屏幕，引导完成以下步骤

设置模型目录
启动服务器
下载第一个模型

安装方式二：Homebrew

# 添加 Tap 并安装
brew tap jundot/omlx https://github.com/jundot/omlx
brew install omlx

# 升级到最新版本
brew update && brew upgrade omlx

# 作为后台服务运行（崩溃自动重启）
brew services start omlx

# 可选：安装 MCP 支持
/opt/homebrew/opt/omlx/libexec/bin/pip install mcp

# 添加 Tap 并安装
brew tap jundot/omlx https://github.com/jundot/omlx
brew install omlx

# 升级到最新版本
brew update && brew upgrade omlx

# 作为后台服务运行（崩溃自动重启）
brew services start omlx

# 可选：安装 MCP 支持
/opt/homebrew/opt/omlx/libexec/bin/pip install mcp

安装方式三：从源码安装

# 克隆并安装
git clone https://github.com/jundot/omlx.git
cd omlx
pip install -e .              # 仅核心功能
pip install -e ".[mcp]"       # 带 MCP 支持

# 启动服务
omlx serve --model-dir ~/models

# 克隆并安装
git clone https://github.com/jundot/omlx.git
cd omlx
pip install -e .              # 仅核心功能
pip install -e ".[mcp]"       # 带 MCP 支持

# 启动服务
omlx serve --model-dir ~/models

使用教程

启动服务器

通过命令行启动 oMLX 服务器：

# 基本启动
omlx serve --model-dir ~/models

# 启用 SSD 缓存
omlx serve --model-dir ~/models --paged-ssd-cache-dir ~/.omlx/cache

# 设置内存限制
omlx serve --model-dir ~/models --max-process-memory 80%

# 基本启动
omlx serve --model-dir ~/models

# 启用 SSD 缓存
omlx serve --model-dir ~/models --paged-ssd-cache-dir ~/.omlx/cache

# 设置内存限制
omlx serve --model-dir ~/models --max-process-memory 80%

💡 提示：可以复用现有的 LM Studio 模型目录，无需重新下载所有模型。

API 调用示例

Chat Completions

curl http://localhost:8000/v1/chat/completions \
  -H "Content-Type: application/json" \
  -d '{
    "model": "model-name",
    "messages": [{"role": "user", "content": "你好！"}]
  }'

curl http://localhost:8000/v1/chat/completions \
  -H "Content-Type: application/json" \
  -d '{
    "model": "model-name",
    "messages": [{"role": "user", "content": "你好！"}]
  }'

流式输出

curl http://localhost:8000/v1/chat/completions \
  -H "Content-Type: application/json" \
  -d '{
    "model": "model-name",
    "messages": [{"role": "user", "content": "写一首诗"}],
    "stream": true
  }'

curl http://localhost:8000/v1/chat/completions \
  -H "Content-Type: application/json" \
  -d '{
    "model": "model-name",
    "messages": [{"role": "user", "content": "写一首诗"}],
    "stream": true
  }'

Anthropic API

curl http://localhost:8000/v1/messages \
  -H "Content-Type: application/json" \
  -H "x-api-key: your-key" \
  -H "anthropic-version: 2023-06-01" \
  -d '{
    "model": "claude-sonnet-4-20250514",
    "max_tokens": 1024,
    "messages": [{"role": "user", "content": "解释量子计算"}]
  }'

curl http://localhost:8000/v1/messages \
  -H "Content-Type: application/json" \
  -H "x-api-key: your-key" \
  -H "anthropic-version: 2023-06-01" \
  -d '{
    "model": "claude-sonnet-4-20250514",
    "max_tokens": 1024,
    "messages": [{"role": "user", "content": "解释量子计算"}]
  }'

集成 Claude Code / Codex/OpenCode/OpenClaw

oMLX 提供一键配置生成器，简化了与主流开发工具的集成：

打开 Web 管理面板 (http://localhost:8000/admin)
选择要使用的模型
点击 “Integrations” 选项卡
一键复制配置命令
粘贴到对应工具的配置文件

重要说明：推荐配置为 M 系列 Pro/Max + 64GB+ 内存，以获得最佳的使用体验。16GB 内存虽然可以运行，但可能会遇到内存不足的情况。

与传统方案对比

oMLX vs Ollama / LM Studio

oMLX 的核心竞争力在于：

极速响应：TTFT 从 30-90 秒缩短到 5 秒以内
智能缓存：SSD KV 缓存技术实现上下文复用
高并发：连续批处理支持 8× 并发，吞吐量提升 4.14×
原生体验：非 Electron 构建的系统原生应用
完全开源：Apache 2.0 许可证，透明可控

最大的区别就是缓存机制：

Ollama和LM Studio的KV缓存都是放在内存里的，而且一旦对话的上下文变化，比如你用Claude Code的时候，它会不断地修改上下文，加工具调用的结果，这时候整个缓存就直接失效了，下次还要重新计算一遍，这就是为什么你会等半天。

而oMLX的缓存是块级的，持久化到SSD，不管上下文怎么变，只要有相同的前缀，就能直接复用缓存，不用重新算，这就是它能把首响从90秒降到5秒的核心原因。

而且oMLX专门针对Claude Code这类AI编码工具做了优化，比如SSE keep-alive防止长请求超时，上下文缩放让小模型也能配合Claude Code用，这些都是其他工具没有的。

oMLX 不仅是一个性能强大的 LLM 推理引擎，更通过其创新的缓存机制和友好的交互设计，解决了本地部署大模型的实际痛点。如果你拥有一台 Apple Silicon Mac，并希望在本地高效、便捷地运行大模型，oMLX 无疑是一个非常值得尝试的选择。

如果你有一台Apple Silicon Mac，并且正在寻找一个高效、易用的本地LLM推理方案，oMLX值得你立即上手体验。它很可能就是那块让Mac变身私人AI数据中心的最后拼图。

快速入口：

GitHub仓库：https://github.com/jundot/omlx
官方网站：https://omlx.ai/
直接下载DMG：https://github.com/jundot/omlx/releases

快去试试吧，然后把你的Mac菜单栏交给oMLX——相信你也会成为它的忠实用户。