KoboldCpp 推理教程

KoboldCpp 是一款简单易用的 AI 模型推理和文本生成工具。

KoboldCpp 基于 llama.cpp 推理后端构建，兼容 ggml 和 gguf 两种格式的模型。

本教程将指引你在 KoboldCpp 中运行 RWKV 模型，并与模型聊天对话。

视频教程

高画质视频请跳转到 B 站观看。

聊天模式（Chat Mode）：模型回答较短，适合日常闲聊。

koboldcpp-chat-mode

指令模式（Instruct Mode）：模型回答较详细，适合提问或解决问题。

koboldcpp-instruct-mode

KoboldCpp 兼容 ggml 和 gguf 两种模型格式，推荐使用 gguf 格式的 RWKV 模型。

可以从 RWKV-GGUF 仓库下载 gguf RWKV 模型。在 Hugging Face 页面，点击模型文件右侧的下载按钮，以下载模型文件：

rwkv-model-list

自己微调了一个 RWKV-7 模型，想从 pth 转 gguf 格式？查看 llama.cpp 文档 - 从 pth 模型转换为 gguf。

RWKV-GGUF 仓库为每种参数的 RWKV 模型提供了不同量化精度的 gguf 模型文件。

量化会影响模型的推理精度，从而影响模型的对话效果，推荐使用损失较低的 Q5_1、Q8_0 量化精度，以维持模型的性能和用户体验。

从 KoboldCpp 更新界面可以下载最新版本的 KoboldCpp 项目。

Windows 系统推荐下载 koboldcpp.exe，也可以根据设备的硬件配置选择其他 exe 文件：

Linux 系统请选择相应 CUDA 版本的 Linux 二进制文件：

如果您正在使用运行于 Apple Silicon (M1, M2, M3 ...) 芯片上的 macOS 系统，可以尝试 koboldcpp-mac-arm64 二进制文件。

双击下载的 exe 文件，打开 KoboldCpp 的启动器 GUI 界面：

koboldcpp-start-gui

在启动器的快速启动（Quick Launch）界面，可以调整 KoboldCpp 和模型的配置，重点关注以下三个选项：

Model：点击 Browse 按钮，选择一个 gguf 格式的 RWKV 模型文件。
Presets：选择一种加载模型的方式。NVIDIA 显卡选择 CUBLAS，AMD 显卡选择 CLBlast，其他显卡选择 Vulkan，CPU 选择 OpenBLAS。
Gpu layers：GPU 加载的模型层数，推荐保持默认值为 -1 （加载所有层）。如果显存不足，可从最大层数逐步减少加载层数：

模型参数最大层数
RWKV-1.5B 24
RWKV-3B 32
RWKV-7B 32
RWKV-14B 61

其他选项建议保持默认，或根据需要调整：

Use QuantMatMul (mmg) ：是否启用 MMQ 模式代替 CuBLAS 处理提示词，这是 CUBLAS 模式特有的选项，更详细的解释请参考 KoboldCpp 文档 - MMQ 的作用
Launch Browser：是否在加载模型后自动打开浏览器，并访问 KoboldCpp 的 WebUI
Use ContextShift ：是否使用 ContextShift 来减少重新处理上下文的时间。更详细的解释请参考 KoboldCpp 文档 - ContextShift
Use FlashAttention ：是否使用 FlashAttention 优化内存使用，仅对 CUDA/CuBLAS 模式有效
Quite Mode ：选择此选项，终端将不会显示模型生成的文本内容
Remote Tunnel：是否允许其他设备使用远程隧道连接 KoboldCpp，更详细的解释请参考 KoboldCpp 文档 - Remote Tunnel
Context Size：设置 KoboldCpp 可处理的最大上下文长度，RWKV 模型推荐保持默认值 4096
其他参数的释义，请参考 KoboldCpp 文档