David's random thoughts

白天忘记说，这个应该是BIOS没有开ReBAR导致，开了之后kmsg就不会出现atomic update failure了（timeout依然还是偶尔会在各种情况下触发）

amdgpu会进了OS之后驱动自己resize所以我一直没去BIOS里开，但是Intel i915/xe不会。而且对于Intel GPU来说ReBAR不是可选项，不开ReBAR连libva都会直接crash…

❤2

1.39K views14:43

我大概明白怎么回事了，不是toolkit不支持而是Debian的intel level zero版本不够新🙃

1.48K views15:08

David's random thoughts

llama.cpp用上SYCL之后终于展现出XMX的优势，B580的prefill性能赶上了规格比它大50%的7800 XT，不过decode的效率还是稍微低了点，带宽差距不应该这么大。

当然目前SYCL版本的flash attention kernel看起来性能还是不太好，性能会减半，目测有不少优化空间。提高batch size性能也会立刻锐减。

❤13

1.63K views15:54

David's random thoughts

当年的偷懒最后害的还是自己！

https://x.com/hjc4869/status/1332569705912041475

😁32🤣17😇3⚡2

2.31K views08:26

David's random thoughts

B580虚拟化看起来也没什么问题，设备直通，驱动，虚拟显示器设备，以及关机重启reset之类的都ok。

👍11

1.46K views15:35

David's random thoughts

拿长5B这种大国重器打互联网卫星，放在美国是不是相当于拿SLS发星链🙃

1.44K views15:59

David's random thoughts

llama.cpp用上SYCL之后终于展现出XMX的优势，B580的prefill性能赶上了规格比它大50%的7800 XT，不过decode的效率还是稍微低了点，带宽差距不应该这么大。当然目前SYCL版本的flash attention kernel看起来性能还是不太好，性能会减半，目测有不少优化空间。提高batch size性能也会立刻锐减。

B580在Win下用最新驱动运行llama.cpp的Vulkan版本会获得比较正常的文本生成性能，与7800XT对比性能与显存带宽大致成比例，后者8B q8_0 >50 t/s。但是依然没有cooperative matrix所以prompt processing性能稀烂（vkpeak的matrix测试也跑不了）

SYCL则是全盘比Linux还差，flash attention也没什么好实现

👍10

1.64K views03:18

David's random thoughts

还真是

https://x.com/hjc4869/status/1833833836805038350

🤡5

1.81K views17:04

David's random thoughts

一幅裁员裁到大动脉的感觉。。

https://x.com/aschilling/status/1869457604570657065

😁15

2.21K views02:47

David's random thoughts

我真是服了，Telegram一个需要手机号注册的平台能做到anti spam比马一龙裁员之后的Twitter还狗屎也是很厉害。每天打开channel评论区都是一大堆发广告的ban都ban不过来。就这还想做超级应用跟微信竞争？

2.5K views02:55

2025/07/09 02:50:25
Back to Top

HTML Embed Code:

<iframe width="100%" src="https://www.tgoop.com/buyppe/web?embed=1" title="Telegram Web" frameborder="0" allow="accelerometer; autoplay; clipboard-write; encrypted-media; gyroscope; picture-in-picture" allowfullscreen></iframe>