Apple 和其他硬件
RWKV 在 Apple Silicon 和摩尔线程等其他硬件上的推理性能,包括 Apple Silicon、MTT-S4000 等硬件
Apple M2 8-core
RWKV 模型在 Apple M2 8-core 上的性能表现:
| 推理工具 | Model | 精度 | 每秒生成的 Token 数 | 显存用量 |
|---|---|---|---|---|
| web-rwkv | RWKV7-G1 2.9B | fp16 | 14.75 | - |
| web-rwkv | RWKV7-G1 2.9B | int8 | 23.21 | - |
| web-rwkv | RWKV7-G1 2.9B | nf4 | 21.65 | - |
| llama.cpp (Metal,BLAS,4 threads) | RWKV7-G1 2.9B | fp16 | 11.26 | - |
| llama.cpp (Metal,BLAS,4 threads) | RWKV7-G1 2.9B | Q8_0 | 18.24 | - |
| llama.cpp (Metal,BLAS,4 threads) | RWKV7-G1 2.9B | Q4_K | 25.92 | - |
数据来源:issue #22
M4 Pro 12-core
RWKV 模型在 Apple M4 Pro 12-core 上的性能表现:
| 推理工具 | Model | 精度 | 每秒生成的 Token 数 | 显存用量 |
|---|---|---|---|---|
| web-rwkv | RWKV7-G1 2.9B | fp16 | 33.98 | - |
| web-rwkv | RWKV7-G1 2.9B | int8 | 47.70 | - |
| web-rwkv | RWKV7-G1 2.9B | nf4 | 32.95 | - |
| llama.cpp (Metal,BLAS,8 threads) | RWKV7-G1 2.9B | fp16 | 32.08 | - |
| llama.cpp (Metal,BLAS,8 threads) | RWKV7-G1 2.9B | Q8_0 | 46.20 | - |
| llama.cpp (Metal,BLAS,8 threads) | RWKV7-G1 2.9B | Q4_K | 56.60 | - |
数据来源:issue #22
摩尔线程 MTT-S4000
RWKV 模型在摩尔线程 MTT-S4000 上的性能表现:
| Model | Precision | 每秒生成的 Token 数 | 显存用量 (GB) |
|---|---|---|---|
| RWKV-6-1B6-v2.1 | fp16 | 57.31 | 3.42 |
| RWKV-6-1B6-v2.1 | fp32 | 30.45 | 6.30 |
| RWKV-6-3B-v2.1 | fp16 | 36.09 | 6.27 |
| RWKV-6-3B-v2.1 | fp32 | 30.03 | 11.99 |
| RWKV-6-7B-v2.1 | fp16 | 30.39 | 14.43 |
| RWKV-6-7B-v2.1 | fp32 | 16.62 | 28.71 |
| RWKV-6-14B-v2.1 | fp16 | 16.19 | 26.57 |
表格中的参数解释:
- Model:代表不同参数量的 RWKV-6 模型。
- Precision:代表不同量化策略或计算精度。
这份文档对您有帮助吗?
意见反馈
联系方式(可选)
© 2026 RWKV. All rights reserved.粤ICP备2024242518号-1