本地运行就一定完全不联网吗？

不一定。有些工具仍需要联网下载模型或更新，但模型下载完成后，推理本身可以在设备上进行。

为什么模型大小看起来总是很混乱？

因为参数量、量化后的文件大小、RAM/VRAM 需求，以及可用上下文长度彼此相关，但并不相同。同一个模型也可能有多种实际可运行的版本。

通常是内存。很多机器能“启动”模型，但能以有用速度和上下文长度稳定运行的机器要少得多。

可以，但不总是轻松。这件事最近变热，是因为开源权重模型和本地运行工具越来越成熟，但真正决定能不能跑起来的，往往是内存、量化和硬件匹配，而不只是“电脑够不够新”。

最后更新：2026年3月14日

“在本地运行 AI”指的是把模型权重和推理过程放在你自己的设备上完成，而不是交给远端云服务。llama.cpp、Ollama、MLX 这类工具，让笔记本和台式机跑开源模型变得现实得多。

它现在受关注，是因为开源模型持续变强，而消费级硬件与软件栈也越来越擅长把这些模型塞进有限的 RAM 或 VRAM 里。于是“我的电脑能不能跑 AI”从一个模糊愿望，变成了关于模型体积、内存带宽、量化、隐私与成本的现实问题。

最先要问的通常不是“能不能安装”，而是模型能不能真正装进 RAM 或 VRAM。

更低比特的量化能显著降低内存占用，让更大的模型也能本地运行，但会带来速度或质量上的取舍。

人们选择本地运行，常常是为了隐私、离线可用、自定义和更低边际成本；但云端系统在规模和易用性上仍然占优。

10 道题帮你理解这个热点