可以把Hugging Face(拥抱脸)网站理解成淘宝平台,全世界的AI团队、公司、个人开发者,都把自己训练好的开源模型上传到这里,kimi的最新模型,全都在上面。现在已经有 280万个 免费 开源模型 了。没看错,不是2万8,不是28万。就在网站上 找到对应的模型 ,如下图,是千问Qwen3.
是AI的”大脑”,但它没有嘴巴、没有耳朵,自己动不了,
打个比方:你收到别人发来的一个Excel表格,双击打开,电脑提示"无法打开此文件"——因为你没装Office也没装 WPS 。装一个,表格就能正常打开了。
这种 让大模型跑起来的软件 ,行业标准的叫法是: 推理引擎 (LLM Inference Engine)或 模型服务框架 (LLM Serving Framework),但这种叫法不好理解,我们就简单的称为: 模型运行工具 吧
所以,最前面说的 最直接的回答 ,其实也是 最没用的回答 。
也用不了,所以,下面就介绍下主流的几个,模型运行工具软件。
用什么软件来运行?
前面说了,模型文件需要” 模型运行工具 ”。目前主流的”模型运行工具”软件有多个,分别适合不同类型的用户,这里简单介绍4个最主流的。
LM Studio——图形界面,小白最友好
Ollama——一行命令搞定,最快最省事
命令行工具。安装之后,打开终端(Windows叫命令提示符/PowerShell, Mac 叫终端),输一行命令,目前是本地部署的主流的方案之一。
Llama.cpp——Ollama的底层引擎
Ollama的内核就是基于Llama.cpp构建的。Llama.cpp本身是一个开源的推理引擎,支持非常细粒度的参数调节:量化方式、上下文长度、GPU卸载层数、线程数……都可以手动控制。
适合人群:想要精细调参、榨干硬件性能的进阶用户。
vLLM——高性能推理服务器
这个不是给个人聊天用的,是拿来搭API服务的。比如你想在局域网内给团队搭一个私有的AI接口,或者做批量推理任务,vLLM的吞吐量和并发能力比上面几个都强。
适合人群:有服务化部署需求的开发者和企业用户。
小白建议选: LM Studio,门槛最低。
具体怎么操作?
路线A:LM Studio(纯图形界面)
打开LM Studio,在顶部搜索栏输入你想要的模型名字,比如”qwen3.5-9b”。搜索结果里会列出不同的量化版本,选Q4_K_M,
第三步:加载模型,开始对话
路线B:Ollama(一行命令就开能始对话)
第一步:安装Ollama
安装好之后,打开终端(Windows用户按Win键搜索”PowerShell”打开,Mac用户打开”终端”),输入: ollama run qwen3.5:9b
也很简单。一行命令,搞定。
2、第一次加载模型会比较慢。 十几秒到几分钟都是正常的,不是卡死了,耐心等一会。
至于”我的电脑到底能不能跑、需要什么配置”,篇幅原因就不在这篇展开了,可以查看笔者的专栏合集,里面有各种主流模型的部署方法和教程。
全部评论