Qwen3.6-35B-A3B 越狱版下载 llama.cpp本地安装部署

BoostAI

本地部署，无审查，真正的Tokens自由！本地部署Qwen3.6-35B-A3B-Uncensored-HauhauCS-Aggressive越狱版模型。

废话不多说，先上链接：https://huggingface.co/HauhauCS/Qwen3.6-35B-A3B-Uncensored-HauhauCS-Aggressive

可以看到，最近一个月下载次数已经达到了122万，相当的火爆。

我们往下拉，先根据自己的显卡内存下载适合自己的显卡的量化模型。我的显卡是20G的，就下载 Qwen3.6-35B-A3B-Uncensored-HauhauCS-Aggressive-Q3_K_P.gguf 跟 Qwen3.6-35B-A3B-Uncensored-HauhauCS-Aggressive-IQ4_XS.gguf 了，另外如果需要用到视觉模型的功能，还需要下载最后面的mmproj-Qwen3.6-35B-A3B-Uncensored-HauhauCS-Aggressive-f16.gguf。我也一并下载了。

接下来我们下载部署llama.cpp，它是目前最快速的搭建本地模型的工具。下载地址：https://github.com/ggml-org/llama.cpp 。在releases中下载适合自己操作系统并进行安装。

我的系统是Windows11，推荐下载 Windows x64 CUDA 12, 兼容性会比CUDA13的强。

下载的时候要连通后面的CUDA 12.4 DLLs一并下载。下载后得到3个Dll文件，将他们复制到解压后的LLAMA.cpp文件夹中。接下来我们再在下载好的LLAMA.cpp文件夹中新建立一个文件夹，名字就叫Models，用来存放我们下载的模型文件。

将下载好的模型文件放在上面建立的文件夹中。接下来我们在文件夹的根目录下再新建一个批处理文件，就叫‘start.bat’。编辑内容： llama-server --host 0.0.0.0 --port 8080 --models-dir C:\llama-b9305-bin-win-cuda-12.4-x64\Models\ 。保存后退出

然后我们运行这个bat文件，就会看到：

提示：llama_server: router server is listening on http://0.0.0.0:8080 看到这一行，就表示运行成功了。

接下来我们打开本地的Chrome浏览器，在地址栏输入：http://127.0.0.1:8080. 回车后就可以打开加载了越狱大模型的AI对话窗口。至此，搭建完毕。 Engoy~