David's random thoughts@david

David's random thoughts

llama.cpp用上SYCL之后终于展现出XMX的优势，B580的prefill性能赶上了规格比它大50%的7800 XT，不过decode的效率还是稍微低了点，带宽差距不应该这么大。

当然目前SYCL版本的flash attention kernel看起来性能还是不太好，性能会减半，目测有不少优化空间。提高batch size性能也会立刻锐减。

www.tgoop.com/david_random/450

933 viewsDec 14 at 15:54

tgoop.com/david_random/450

Create: 2024-12-14
Last Update: 2024-12-21 07:02:25

BY David's random thoughts

Share with your friend now:
tgoop.com/david_random/450

Telegram News

llama.cpp用上SYCL之后终于展现出XMX的优势，B580的prefill性能赶上了规格比它大50%的7800 XT，不过decode的效率还是稍微低了点，带宽差距不应该这么大。