移动端芯片
RWKV 模型在移动端芯片的推理性能,当前包括高通骁龙 8 Gen3、8 Elite ,后续会添加其他移动端芯片的性能表现。
高通骁龙 8 Gen3
在 骁龙 8 Gen3(小米 14)上的性能表现:
Model | Precision | 每秒生成的 Token 数 |
---|---|---|
RWKV-7 G1 2.9B | A16W4 | 31.3 |
RWKV-7 G1 2.9B | A16W8 | 18.7 |
高通骁龙 8 Elite
在 高通骁龙 8 Elite (小米 15) 上的性能表现:
Model | Precision | 每秒生成的 Token 数 |
---|---|---|
RWKV-7 G1 2.9B | A16W4 | 30.26 |
RWKV-7 G1 2.9B | A16W8 | 19.34 |
表格中的参数解释:
- Precision:代表不同量化策略或计算精度。
- a16:激活值被量化为 16 位(int16)
- w8/w4:权重(weights)被量化为 8 位/4 位(per-channel 线性量化)
这份文档对您有帮助吗?
意见反馈(可选)
联系方式(可选)