Qwen3.6-35B-A3B 越狱版下载 llama.cpp本地安装部署

本地部署,无审查,真正的Tokens自由! 本地部署Qwen3.6-35B-A3B-Uncensored-HauhauCS-Aggressive越狱版模型。
1.jpg
可以看到, 最近一个月下载次数已经达到了122万,相当的火爆。
我们往下拉,先根据自己的显卡内存下载适合自己的显卡的量化模型。 我的显卡是20G的,就下载 Qwen3.6-35B-A3B-Uncensored-HauhauCS-Aggressive-Q3_K_P.gguf 跟 Qwen3.6-35B-A3B-Uncensored-HauhauCS-Aggressive-IQ4_XS.gguf 了, 另外如果需要用到视觉模型的功能,还需要下载最后面的mmproj-Qwen3.6-35B-A3B-Uncensored-HauhauCS-Aggressive-f16.gguf。 我也一并下载了。

2.jpg
接下来我们下载部署llama.cpp,它是目前最快速的搭建本地模型的工具。 下载地址:https://github.com/ggml-org/llama.cpp 。 在releases中下载适合自己操作系统并进行安装。
我的系统是Windows11, 推荐下载 Windows x64 CUDA 12, 兼容性会比CUDA13的强。
3.jpg
下载的时候要连通后面的CUDA 12.4 DLLs一并下载。 下载后得到3个Dll文件,将他们复制到解压后的LLAMA.cpp文件夹中。 接下来我们再在下载好的LLAMA.cpp文件夹中新建立一个文件夹,名字就叫Models,用来存放我们下载的模型文件。
将下载好的模型文件放在上面建立的文件夹中。 接下来我们在文件夹的根目录下再新建一个批处理文件,就叫‘start.bat’。 编辑内容: llama-server --host 0.0.0.0 --port 8080 --models-dir C:\llama-b9305-bin-win-cuda-12.4-x64\Models\  。  保存后退出
然后我们运行这个bat文件, 就会看到:
4.jpg
提示:llama_server: router server is listening on http://0.0.0.0:8080 看到这一行,就表示运行成功了。
接下来我们打开本地的Chrome浏览器, 在地址栏输入:http://127.0.0.1:8080.  回车后就可以打开加载了越狱大模型的AI对话窗口。 至此, 搭建完毕。  Engoy~
5.jpg

35 人阅读 · 6 天前 发表

举报

评论(0)

高级模式

暂无回答,赶快抢沙发吧

0
0
快速回复 返回顶部 返回列表