可以把Hugging Face(拥抱脸)网站理解成淘宝平台,全世界的AI团队、公司、个人开发者,都把自己训练好的开源模型上传到这里,kimi的最新模型,全都在上面。现在已经有 280万个 免费 开源模型 了。没看错,不是2万8,不是28万。就在网站上 找到对应的模型 ,如下图,是千问Qwen3.

是AI的”大脑”,但它没有嘴巴、没有耳朵,自己动不了,

打个比方:你收到别人发来的一个Excel表格,双击打开,电脑提示"无法打开此文件"——因为你没装Office也没装 WPS 。装一个,表格就能正常打开了。

这种 让大模型跑起来的软件 ,行业标准的叫法是: 推理引擎 (LLM Inference Engine)或 模型服务框架 (LLM Serving Framework),但这种叫法不好理解,我们就简单的称为: 模型运行工具 吧

所以,最前面说的 最直接的回答 ,其实也是 最没用的回答 。

也用不了,所以,下面就介绍下主流的几个,模型运行工具软件。

用什么软件来运行?

前面说了,模型文件需要” 模型运行工具 ”。目前主流的”模型运行工具”软件有多个,分别适合不同类型的用户,这里简单介绍4个最主流的。

LM Studio——图形界面,小白最友好

Ollama——一行命令搞定,最快最省事

命令行工具。安装之后,打开终端(Windows叫命令提示符/PowerShell, Mac 叫终端),输一行命令,目前是本地部署的主流的方案之一。

Llama.cpp——Ollama的底层引擎

Ollama的内核就是基于Llama.cpp构建的。Llama.cpp本身是一个开源的推理引擎,支持非常细粒度的参数调节:量化方式、上下文长度、GPU卸载层数、线程数……都可以手动控制。

适合人群:想要精细调参、榨干硬件性能的进阶用户。

vLLM——高性能推理服务器

这个不是给个人聊天用的,是拿来搭API服务的。比如你想在局域网内给团队搭一个私有的AI接口,或者做批量推理任务,vLLM的吞吐量和并发能力比上面几个都强。

适合人群:有服务化部署需求的开发者和企业用户。

小白建议选: LM Studio,门槛最低。

具体怎么操作?

路线A:LM Studio(纯图形界面)

打开LM Studio,在顶部搜索栏输入你想要的模型名字,比如”qwen3.5-9b”。搜索结果里会列出不同的量化版本,选Q4_K_M,

第三步:加载模型,开始对话

路线B:Ollama(一行命令就开能始对话)

第一步:安装Ollama

安装好之后,打开终端(Windows用户按Win键搜索”PowerShell”打开,Mac用户打开”终端”),输入: ollama run qwen3.5:9b

也很简单。一行命令,搞定。

2、第一次加载模型会比较慢。 十几秒到几分钟都是正常的,不是卡死了,耐心等一会。

至于”我的电脑到底能不能跑、需要什么配置”,篇幅原因就不在这篇展开了,可以查看笔者的专栏合集,里面有各种主流模型的部署方法和教程。

本站所有文章资讯、展示的图片素材等内容均为注册用户上传(部分报媒/平媒内容转载自网络合作媒体),仅供学习参考。 用户通过本站上传、发布的任何内容的知识产权归属用户或原始著作权人所有。如有侵犯您的版权,请联系我们反馈本站将在三个工作日内改正。