B580还需要一段时间才能在Debian下正常用,现在Debian和flatpak默认的mesa版本都太老,能正常玩的游戏比较少。flatpak的mesa-git似乎直接连Steam都起不来。
2024年连AMD都在新游戏卡上架前几个月就把ROCm支持做好发布了,Intel依然在文档上不写清楚哪一版oneAPI支持哪些显卡。。从非常简单的demo都报错来看大概率是没支持B580的。
David's random thoughts
还是有点不太可靠……
白天忘记说,这个应该是BIOS没有开ReBAR导致,开了之后kmsg就不会出现atomic update failure了(timeout依然还是偶尔会在各种情况下触发)
amdgpu会进了OS之后驱动自己resize所以我一直没去BIOS里开,但是Intel i915/xe不会。而且对于Intel GPU来说ReBAR不是可选项,不开ReBAR连libva都会直接crash…
amdgpu会进了OS之后驱动自己resize所以我一直没去BIOS里开,但是Intel i915/xe不会。而且对于Intel GPU来说ReBAR不是可选项,不开ReBAR连libva都会直接crash…
David's random thoughts
2024年连AMD都在新游戏卡上架前几个月就把ROCm支持做好发布了,Intel依然在文档上不写清楚哪一版oneAPI支持哪些显卡。。从非常简单的demo都报错来看大概率是没支持B580的。
我大概明白怎么回事了,不是toolkit不支持而是Debian的intel level zero版本不够新🙃
llama.cpp用上SYCL之后终于展现出XMX的优势,B580的prefill性能赶上了规格比它大50%的7800 XT,不过decode的效率还是稍微低了点,带宽差距不应该这么大。
当然目前SYCL版本的flash attention kernel看起来性能还是不太好,性能会减半,目测有不少优化空间。提高batch size性能也会立刻锐减。
当然目前SYCL版本的flash attention kernel看起来性能还是不太好,性能会减半,目测有不少优化空间。提高batch size性能也会立刻锐减。
David's random thoughts
llama.cpp用上SYCL之后终于展现出XMX的优势,B580的prefill性能赶上了规格比它大50%的7800 XT,不过decode的效率还是稍微低了点,带宽差距不应该这么大。 当然目前SYCL版本的flash attention kernel看起来性能还是不太好,性能会减半,目测有不少优化空间。提高batch size性能也会立刻锐减。
B580在Win下用最新驱动运行llama.cpp的Vulkan版本会获得比较正常的文本生成性能,与7800XT对比性能与显存带宽大致成比例,后者8B q8_0 >50 t/s。但是依然没有cooperative matrix所以prompt processing性能稀烂(vkpeak的matrix测试也跑不了)
SYCL则是全盘比Linux还差,flash attention也没什么好实现
SYCL则是全盘比Linux还差,flash attention也没什么好实现
我真是服了,Telegram一个需要手机号注册的平台能做到anti spam比马一龙裁员之后的Twitter还狗屎也是很厉害。每天打开channel评论区都是一大堆发广告的ban都ban不过来。就这还想做超级应用跟微信竞争?