Warning: Undefined array key 0 in /var/www/tgoop/function.php on line 65

Warning: Trying to access array offset on value of type null in /var/www/tgoop/function.php on line 65
438 - Telegram Web
Telegram Web
没有人比我更懂显示输出
AMD CPU + Intel GPU = ?
还是有点不太可靠……
B580还需要一段时间才能在Debian下正常用,现在Debian和flatpak默认的mesa版本都太老,能正常玩的游戏比较少。flatpak的mesa-git似乎直接连Steam都起不来。
llama.cpp SYCL版本抛exception跑不起来,想着看看vulkan版怎么样,结果发现你I目前的cooperative matrix实现是废的。手动去掉这个check也跑不出符合xmx理论吞吐的性能。
2024年连AMD都在新游戏卡上架前几个月就把ROCm支持做好发布了,Intel依然在文档上不写清楚哪一版oneAPI支持哪些显卡。。从非常简单的demo都报错来看大概率是没支持B580的。
David's random thoughts
还是有点不太可靠……
白天忘记说,这个应该是BIOS没有开ReBAR导致,开了之后kmsg就不会出现atomic update failure了(timeout依然还是偶尔会在各种情况下触发)

amdgpu会进了OS之后驱动自己resize所以我一直没去BIOS里开,但是Intel i915/xe不会。而且对于Intel GPU来说ReBAR不是可选项,不开ReBAR连libva都会直接crash…
llama.cpp用上SYCL之后终于展现出XMX的优势,B580的prefill性能赶上了规格比它大50%的7800 XT,不过decode的效率还是稍微低了点,带宽差距不应该这么大。

当然目前SYCL版本的flash attention kernel看起来性能还是不太好,性能会减半,目测有不少优化空间。提高batch size性能也会立刻锐减。
当年的偷懒最后害的还是自己!

https://x.com/hjc4869/status/1332569705912041475
B580虚拟化看起来也没什么问题,设备直通,驱动,虚拟显示器设备,以及关机重启reset之类的都ok。
拿长5B这种大国重器打互联网卫星,放在美国是不是相当于拿SLS发星链🙃
David's random thoughts
llama.cpp用上SYCL之后终于展现出XMX的优势,B580的prefill性能赶上了规格比它大50%的7800 XT,不过decode的效率还是稍微低了点,带宽差距不应该这么大。 当然目前SYCL版本的flash attention kernel看起来性能还是不太好,性能会减半,目测有不少优化空间。提高batch size性能也会立刻锐减。
B580在Win下用最新驱动运行llama.cpp的Vulkan版本会获得比较正常的文本生成性能,与7800XT对比性能与显存带宽大致成比例,后者8B q8_0 >50 t/s。但是依然没有cooperative matrix所以prompt processing性能稀烂(vkpeak的matrix测试也跑不了)

SYCL则是全盘比Linux还差,flash attention也没什么好实现
一幅裁员裁到大动脉的感觉。。

https://x.com/aschilling/status/1869457604570657065
我真是服了,Telegram一个需要手机号注册的平台能做到anti spam比马一龙裁员之后的Twitter还狗屎也是很厉害。每天打开channel评论区都是一大堆发广告的ban都ban不过来。就这还想做超级应用跟微信竞争?
2024/12/21 10:14:23
Back to Top
HTML Embed Code: