NVIDIA 硬件
RWKV 模型在 NVIDIA 硬件上的推理性能。
此页面的数据来自:RWKV 推理性能测试指南,数据均由社区成员测试并报告。欢迎大家参照仓库的指引进行测试,并提交 NVIDIA 硬件的性能数据。
NVIDIA RTX 4090
RWKV 模型在 NVIDIA RTX 4090 上的性能表现:
| 推理工具 | Model | 精度 | 每秒生成的 Token 数 | 显存用量 |
|---|---|---|---|---|
| RWKV pip | RWKV7-G1 2.9B | fp16 | 56.18 | 5.52 GB |
| llama.cpp(CUDA) | RWKV7-G1 2.9B | fp16 | 89.16 | 5.75GB |
| llama.cpp(CUDA) | RWKV7-G1 2.9B | Q8_0 | 110.3 | 3.47GB |
| web-rwkv | RWKV7-G1 2.9B | fp16 | 95.98 | 5.9GB |
| web-rwkv | RWKV7-G1 2.9B | int8 | 108.22 | 3.9GB |
| web-rwkv | RWKV7-G1 2.9B | nf4 | 115.46 | 2.4GB |
数据来源:issue #3
测试环境:
- CPU:Intel(R) Xeon(R) Platinum 8331C
- OS: ubuntu 22.04 Linux-6.8.0-60-generic-x86_64-with-glibc2.35
- python_version: 3.10.16
- pytorch_version: 2.5.1+cu121
NVIDIA RTX 4080
RWKV 模型在 NVIDIA RTX 4080 上的性能表现:
| 推理工具 | Model | 精度 | 每秒生成的 Token 数 | 显存用量 |
|---|---|---|---|---|
| web-rwkv | RWKV7-G1 2.9B | fp16 | 76.99 | 5.9GB |
| web-rwkv | RWKV7-G1 2.9B | int8 | 95.92 | 3.9GB |
| web-rwkv | RWKV7-G1 2.9B | nf4 | 105.05 | 2.4GB |
数据来源:issue #21
测试环境:
- CPU:12th Gen Intel(R) Core(TM) i7-12700
- OS: Windows 11 Professional edition 24H2-26100.4652
- driver version: 560.94
NVIDIA RTX 4060Ti 8GB
RWKV 模型在 NVIDIA RTX 4060Ti 8GB 上的性能表现:
| 推理工具 | Model | 精度 | 每秒生成的 Token 数 | 显存用量 |
|---|---|---|---|---|
| RWKV pip | RWKV7-G1 2.9B | fp16 | 36.61 | 5.52 GB |
| web-rwkv | RWKV7-G1 2.9B | fp16 | 43.92 | 5.9GB |
| web-rwkv | RWKV7-G1 2.9B | int8 | 62.93 | 3.9GB |
| web-rwkv | RWKV7-G1 2.9B | nf4 | 86.03 | 2.4GB |
数据来源:issue #1
测试环境:
- CPU:Intel i7-13700F
- OS version: Windows10 专业版
- driver version: 576.02
- CUDA version: 12.9
NVIDIA RTX 4060 Laptop
| 推理工具 | Model | 精度 | 每秒生成的 Token 数 | 显存用量 |
|---|---|---|---|---|
| web-rwkv | RWKV7-G0 7.2B | nf4 | 40.30 | 5.1GB |
| web-rwkv | RWKV7-G1 2.9B | fp16 | 40.98 | 5.9GB |
| web-rwkv | RWKV7-G1 2.9B | int8 | 60.21 | 3.9GB |
| web-rwkv | RWKV7-G1 2.9B | nf4 | 77.26 | 2.4GB |
数据来源:issue #15
测试环境:
- CPU:AMD Ryzen 7 8845H (16) @ 5.61 GHz
- OS version: Arch Linux x86_64 @ Kernel: Linux 6.15.7-arch1-1
- driver version: 575.64.05
NVIDIA CMP 40HX 8GB
| 推理工具 | Model | 精度 | 每秒生成的 Token 数 | 显存用量 |
|---|---|---|---|---|
| web-rwkv | RWKV7-G1 2.9B | fp16 | 68.89 | 5.9GB |
| web-rwkv | RWKV7-G1 2.9B | int8 | 78.78 | 3.9GB |
| web-rwkv | RWKV7-G1 2.9B | nf4 | 80.23 | 2.4GB |
数据来源:issue #23
测试环境:
- CPU:AMD Ryzen 7 5700G
- OS version: Windows11 PRO 24H2
- driver version: DCH-581.57
- CUDA version: 13.0
这份文档对您有帮助吗?