立足娱乐圈·争做八卦帝!

徽声在线

Mac用户福音:本地运行大模型的最强组合揭秘

来源:未知 作者:佚名 发布时间:2026-04-08 06:23:58

关于在本地部署大模型以及进行量化处理,我之前已经分享过不少相关内容:

今天,我要为大家介绍一套让我眼前一亮的解决方案——来自同一团队精心打造的三件套:JANG + vMLX + MLX Studio,这或许是目前在Mac平台上最具竞争力的本地大模型运行方案。

它们三者之间有何关联呢?

别被这三个名字绕晕了

如果你熟悉PC端的GGUF + llama.cpp + Open WebUI组合,那么这三个的关系你一眼就能看明白:

层次

PC端类比

Mac端(这套方案)

量化格式

GGUF

JANG

推理引擎

llama.cpp

vMLX

桌面应用

Open WebUI

MLX Studio

简单来说:JANG负责将大模型进行高效压缩,vMLX则确保模型运行速度飞快,而MLX Studio则提供了一个美观易用的界面。三者相辅相成,形成了一套完整的解决方案。

JANG:MLX的量化利器

先来看看最底层的JANG,它被官方誉为"MLX的GGUF"

实际上,它是一种先进的混合精度量化方案

传统量化方法对所有参数一视同仁,但模型中的Attention层对精度要求极高,过度压缩会导致出现NaN(无效数值),从而使模型失效

JANG的独到之处在于:针对不同层采用不同精度

  • Attention层:保留5~8 bit精度(确保稳定)

  • MLP层:压缩至2~4 bit(充分挖掘压缩空间)

  • 平均额外开销:仅增加0.3 bit

效果如何?以230B参数的MiniMax M2.5模型为例:

量化方式

大小

MMLU(200题)

JANG_2L(2bit混合)82.5 GB74%

MLX 4-bit

119.8 GB

26.5%

MLX 3-bit

93 GB

24.5%

MLX 2-bit

68 GB

25%

MLX在各种bit设置下表现均不佳,接近随机猜测水平,模型基本失效。而JANG的2bit混合版不仅表现良好,还取得了74%的成绩,同时体积更小。

这一差距确实令人震惊


更令人惊叹的是397B参数的Qwen3.5模型:

  • JANG_1L:112 GB,可轻松装入128 GB MacBook Pro,MMLU成绩达86.5%

  • MLX 2-bit / 3-bit:出现NaN,直接失败

  • MLX 4-bit:需要约280 GB空间,市面上鲜有Mac能满足

397B模型竟能在笔记本上运行——这句话若放在两年前,恐怕会被视为天方夜谭。


所有量化好的模型均已上传至HuggingFace的JANGQ-AI平台,下载即可使用。若想自行量化,代码可在github.com/jjang-ai/jangq获取,采用Apache 2.0开源协议。

vMLX:100K上下文速度提升224倍

有了优秀的量化模型,还需一个高效的运行引擎

vMLX正是为此而生

安装过程极为简便:

pip install vmlx
vmlx serve mlx-community/Qwen3-8B-4bit

启动后,在本地http://0.0.0.0:8000提供OpenAI + Anthropic兼容API,Claude Code、Anthropic SDK等客户端均可直接连接


vMLX的核心优势在于其五层缓存栈——其他Mac端引擎最多仅有一两层,而vMLX则全面覆盖:

  1. 前缀缓存:对话中重复部分仅计算一次

  2. 分页KV缓存:支持多个对话同时驻留,切换时不驱逐

  3. KV缓存量化:采用q4/q8压缩,节省4~8倍内存

  4. 持续批处理:最多支持256个并发序列

  5. 磁盘缓存:重启后立即恢复,无需重新计算

五层缓存叠加的效果显著,首个Token的响应速度远超同类产品:

上下文长度

vMLX

其他引擎

速度提升

2.5K

0.05s

0.49s

9.7倍

10K

0.08s

6.12s

76倍

100K

0.65s

131s

224倍

100K上下文,其他引擎需等待两分多钟,而vMLX不到一秒即可完成。我最初也觉得"不可能",但实测的TTFT(Time to First Token)数据证明了五层缓存的强大效果。

除了缓存优化,vMLX还有几个值得关注的特性:

  • 推测解码:利用小模型初步生成,再由大模型验证,提速20~90%

  • Mamba / SSM混合架构支持:Nemotron-H等特殊架构仅vMLX能运行

  • 20+内置Agent工具:文件读写、代码搜索、Shell执行、Git操作、网页搜索——全部本地运行,无需依赖外部服务

最后一点尤为有趣。vMLX是目前唯一将Agentic工具内置到本地引擎的方案,无需额外配置MCP服务器,模型即可直接读取文件、执行命令、搜索代码库。这一思路比Ollama、LM Studio更为激进。


项目地址:github.com/jjang-ai/vmlx,采用Apache 2.0开源协议。

MLX Studio:无需命令行也能畅玩

若你觉得命令行操作过于繁琐,MLX Studio正是为你量身打造——vMLX引擎的完整GUI应用,永久免费。


MLX Studio主界面——集成聊天、Agent工具、图像生成功能

功能一应俱全:

对话:支持流式多轮对话、折叠式思维链展示(DeepSeek R1、Qwen3、GLM)、拖拽图片进行视觉分析、语音朗读回复。

图像生成:提供5个生成模型(Flux Schnell/Dev、Z-Image Turbo、Klein 4B/9B)和4个编辑模型(Qwen Image Edit、Flux Kontext、Flux Fill、Flux Klein Edit),全部本地运行,无需支付API费用。

模型管理:内置HuggingFace浏览器一键下载模型、GGUF → MLX转换器(支持JANG混合精度)、菜单栏快捷切换模型。

API集成:同时提供OpenAI和Anthropic端点,支持Claude Code等客户端直接对接。原生MCP支持,可挂载外部工具。


从功能完整度来看,MLX Studio比之前体验过的oMLX更为丰富,尤其在图像生成和Agent工具方面,oMLX并不具备这些功能。不过oMLX胜在轻量简洁,两者定位有所不同。

官网:mlx.studio

总结

这三件套共同解决了一个核心问题:在Apple Silicon Mac上充分释放本地AI的潜力

  • JANG解决存储问题——128GB Mac即可运行397B模型,MLX标准量化无法实现

  • vMLX解决速度问题——五层缓存栈使100K上下文速度提升224倍

  • MLX Studio解决易用性问题——图文生成、语音对话、Agent编程,一个应用全搞定

三个项目均采用Apache 2.0开源协议,完全免费。

有Mac本地运行模型需求的朋友,不妨一试。

创作不易,若您觉得本文对您有所帮助,欢迎点击关注。给我来个三连击:点赞、转发和收藏。若还能加个关注,感激不尽!感谢您的阅读,我们下期再见!

    责任编辑:
    乌度卡陷信任危机!马龙战术预言成真,掘金神助攻助火箭锁定湖人大战

    2026-04-07

    火箭六连胜难掩主帅危机,迈克-马龙战术理念获认可,掘金逆转湖人改写西部格局,火箭湖人季后赛首轮对决一触即发 ... [详细]

    意大利足协主席引咎辞职!12年无缘世界杯,损失超1亿,球迷流失

    2026-04-03

    周二,意大利足协宣布格拉维纳引咎辞职。连续三届缺席世界杯,导致意大利足协损失高达1亿欧元,对意大利足球来说,更重要的是球迷在不断流失。意大利上一次出战世界杯还是在2014年, ... [详细]

    《觉醒的酿造师》微短剧4.3上线,青岛啤酒博物馆邀你共赴穿越之旅

    2026-04-01

    还在为假期找不到心仪的剧集而烦恼吗?别急,你的“电子佐餐剧”即将迎来全新升级!设想一下,当你漫步在博物馆的展厅中,一次不经意的触碰或互动,竟让你瞬间“穿越”至百年前的啤酒厂 ... [详细]

    天龙三号火箭发射遇挫!性能比肩SpaceX猎鹰9号,具备一箭36星发射实力

    2026-04-03

    4月3日,天龙三号大型液体运载火箭在酒泉发射失利,该火箭性能对标SpaceX猎鹰9号,可实现一箭36星组网发射。 ... [详细]

    《逐玉》大结局揭秘:五对情侣命运各异,浅浅毒杀齐旻,魏严戚容音情深缘浅

    2026-03-24

    《逐玉》大结局震撼来袭,五对情侣命运各异,浅浅与齐旻虐恋终以悲剧收场,魏严与戚容音情深缘浅同葬一处,谢征樊长玉成最大赢家。 ... [详细]

    图酷

    图说天下

    资讯排行

    首页 - 娱乐圈事 - 体育圈事 - 两性情感 - 星座命运 - 奇闻怪事 - 历史故事 - 科技资讯 - 图说天下 - 知识百科 - 图酷 - 娱乐八卦
    电脑版 | 移动端
    Copyright © 2002-2019 徽声在线 版权所有
    删帖请联系邮箱:283755549@qq.com