图1: Linux vs macOS 默认malloc
图2: Linux vs macOS 统一jemalloc
均为手动拉满风扇。统一malloc必要性还是很大的,Linux在纯核心瓶颈的场景下表现略好,但是macOS libmalloc帮大忙让520 523绝杀。这个现象在M2上还不够明显,但是M3之后为了拉高频率大幅度放松L2时序,可能使得malloc的重要性增加。
图2: Linux vs macOS 统一jemalloc
均为手动拉满风扇。统一malloc必要性还是很大的,Linux在纯核心瓶颈的场景下表现略好,但是macOS libmalloc帮大忙让520 523绝杀。这个现象在M2上还不够明显,但是M3之后为了拉高频率大幅度放松L2时序,可能使得malloc的重要性增加。
David's random thoughts
图1: Linux vs macOS 默认malloc 图2: Linux vs macOS 统一jemalloc 均为手动拉满风扇。统一malloc必要性还是很大的,Linux在纯核心瓶颈的场景下表现略好,但是macOS libmalloc帮大忙让520 523绝杀。这个现象在M2上还不够明显,但是M3之后为了拉高频率大幅度放松L2时序,可能使得malloc的重要性增加。
补充一个Linux默认glibc malloc+更换16K page内核的成绩,520/523有一些提升,不过跟macOS还是差得远。
Linux下nvidia和amdgpu有criu支持,不过我好像还没见过谁把它用在游戏图形应用上
https://www.zhihu.com/question/456048017/answer/34367726593
https://www.zhihu.com/question/456048017/answer/34367726593
M4 Pro E-core @ 2592 MHz,uncore拉满的情况下SPEC17 int性能可以来到5.17分。如果不动uncore则是4.42分(从omnetpp的成绩来看目前榜上那个M3 Pro的E-core应该也是没有拉高uncore的)
这一代的E核频率略下降(2.6 vs 2.75 GHz),IPC略提升,最终性能与M3 Pro的E-core接近。
感觉不如Skymont(逃
Geekbench 5/6分数也更新了:https://browser.geekbench.com/user/391511
这一代的E核频率略下降(2.6 vs 2.75 GHz),IPC略提升,最终性能与M3 Pro的E-core接近。
感觉不如Skymont(逃
Geekbench 5/6分数也更新了:https://browser.geekbench.com/user/391511
USB4兼容性现状:以下4台机器任选两台出来组合,均无法使用USB4/雷电以太网
台式机Intel JHL8540独立主控
Mac Mini M4 Pro 雷电5
AMD Rembrandt (7735U)的原生USB4 (Linux)
AMD Strix Point (HX 370)的原生USB4 (Windows)
台式机Intel JHL8540独立主控
Mac Mini M4 Pro 雷电5
AMD Rembrandt (7735U)的原生USB4 (Linux)
AMD Strix Point (HX 370)的原生USB4 (Windows)
llama.cpp的server终于引入了speculative decode,现在我日常用的qwen 72B q8性能达到了>20 token/s😃
https://github.com/ggerganov/llama.cpp/commit/9ca2e677626fce759d5d95c407c03677b9c87a26
配置参考: llama-server -dev ROCm0,ROCm1 -devd ROCm2 -t 24 -c 65536 -cd 65536 -m qwen2.5-72b-q8.gguf -md qwen2.5-1.5b-q4.gguf -ngld 999 -ngl 999 -np 4 -sm row -ts 1,1 -cb -ctk q8_0 -ctv q8_0 -fa --draft-max 4 --draft-min 1 --draft-p-min 0 --samplers "temperature;top_k;top_p" --temp 0.1 --host 0.0.0.0 --port 8000
https://github.com/ggerganov/llama.cpp/commit/9ca2e677626fce759d5d95c407c03677b9c87a26
配置参考: llama-server -dev ROCm0,ROCm1 -devd ROCm2 -t 24 -c 65536 -cd 65536 -m qwen2.5-72b-q8.gguf -md qwen2.5-1.5b-q4.gguf -ngld 999 -ngl 999 -np 4 -sm row -ts 1,1 -cb -ctk q8_0 -ctv q8_0 -fa --draft-max 4 --draft-min 1 --draft-p-min 0 --samplers "temperature;top_k;top_p" --temp 0.1 --host 0.0.0.0 --port 8000
GitHub
server : add speculative decoding support (#10455) · ggerganov/llama.cpp@9ca2e67
* server : add speculative decoding support
ggml-ci
* server : add helper function slot.can_speculate()
ggml-ci
ggml-ci
* server : add helper function slot.can_speculate()
ggml-ci
David's random thoughts
Qwen-QwQ用speculative decode的效果奇好,单卡q8随便跑40 token/s
RTX 6000 Ada可以把speculation decode的window开的比较大,单卡跑出90t/s
话说上个月就看到skydio这事,没想到的是沉寂了这么久突然这两天又被知乎一群赢学家翻出来……这年头找个赢学话题都这么难了要靠翻旧账了是吧
https://www.zhihu.com/question/5317782004/answer/43707008414
https://www.zhihu.com/question/5317782004/answer/43707008414