gguf量化的模型,目前看只有llama.cpp支持的比较好,使用了ollama和其他衍生客户端,都会有奇怪的乱输出问题,还没找到解法(据说是要配置template)。
首先这里下载,https://github.com/ggerganov/llama.cpp/releases
解压缩
unzip llama-b4686-bin-ubuntu-x64.zip
运行
./llama-b4686-bin-ubuntu-x64/build/bin/llama-cli -m ./xxx[......]