David's random thoughts

b站上面那一堆fsd翻车视频其实是不是都在免费帮马老板完善edge case训练集。。。

😁29👍1

1.34K views04:55

试了下由于rocWMMA是个C++模板库，所以尽管它并不官方支持Windows，想在Windows上用它还是非常简单。

简单的patch就可以加速Windows上llama.cpp在ROCm/HIP下的flash attention推理性能（尤其是prefill和高batch size），需要的可以自行取用。

https://github.com/hjc4869/llama.cpp/releases/tag/b4786
https://github.com/hjc4869/llama.cpp/commit/1e0d34ec232b30913225a4f37cd4bdd173777d3d

👏14🫡4

1.33K views11:28

David's random thoughts

现在搞本地部署主要目标群体是企业而不是个人，个人因为门槛高+利用率上不去会血亏。理论上几个熟人凑一块搭一套出来用也可以搞。

性能方面，本地Windows/Mac部署流行的基于llama.cpp的方案确实是并发差了点。vLLM/SGLang虽然并发性能好很多，但是环境和硬件上的门槛又要更进一步，所以也就这样了吧。

https://x.com/wwwyesterday/status/1895820270901887358

X (formerly Twitter)

wwwyesterday (@wwwyesterday) on X

除了闲鱼和一些渠道上还在卖本地部署大模型教程外，绝大多数社媒上，我观察到，本地部署的热度终于下去一点了。

想来是很多人自己试过后，终于明白本地量化后的模型是残废是什么意思了。

跑工作流的人可能也发现了，自己那张卡跑一个并发还行，上了两个就明显变慢，几乎不可用。

1.53K views13:39

David's random thoughts

去年一直觉得Exynos 2400在上海用4G网络经常断流是Exynos的modem有问题，直到最近我把高通8 gen 2机器切换到4G模式用了一段时间，得到了几乎一样的体验……

😁13💊1

1.46K views08:08

David's random thoughts

你乎现在是真的一点正经内容都找不到了。这么多回答居然高赞没一个正经讲讲什么是商业定价合同，甚至连项目本身只花了一个亿$都没怎么讲。

b站虽然也粉红泛滥，但是好歹找找还是能找到认真做科普的，不至于像现在的知乎这样一点都没有啊。

https://www.zhihu.com/question/13843765292

💊22

1.54K views03:42

David's random thoughts

虽然我一向不认同什么护城河，但是拿llama.cpp的CUDA/ROCm实现来当靶子也太容易了，什么时候拿Vulkan做个能打vLLM的再说（

https://x.com/karminski3/status/1896412929328902351

X (formerly Twitter)

karminski-牙医 (@karminski3) on X

CUDA 的护城河还能持续多长时间？

图片是 Vulkan 和 CUDA 在 4070 显卡上的token生成速度性能对比。可以看到有些项目仅有10%左右的差距了。（当然目前只是推理，训练还不行）

顺便，Vulkan 是用于与 GPU 进行交互的图形API。是开源的哦

文章地址：https://t.co/Rx5qecQfP8

#大模型竞技场

😁23❤1

1.79K views04:29

David's random thoughts

llama.cpp的rocWMMA flash attention进入主线了，现在可以用RDNA3/3.5/CDNA1+的tensor core加速flash attention实现更好性能的prefill和batch decode。较小模型的单用户吐字速度也有些许提升，应该不会再落后于Vulkan。不过目前主线版本暂时还需要手动打开编译选项。

https://github.com/ggml-org/llama.cpp/commit/becade5de77674696539163dfbaf5c041a1a8e97

GitHub

HIP: implement FlashAttention via rocWMMA for CDNA and RDNA3+ (#12032) · ggml-org/llama.cpp@becade5

Adds GGML_HIP_ROCWMMA_FATTN and rocwmma header check
Adds rocWMMA support to fattn-wmma-f16

---

Signed-off-by: Carl Klemm <carl@uvos.xyz>
Co-authored-by: Johannes Gäßler <joh...

🥰2

1.76K views02:19

David's random thoughts

这可太激动人心了

https://x.com/reaktor_field/status/1896638819367350374

X (formerly Twitter)

🇨🇦ReaktorField🇨🇦 (@reaktor_field) on X

@hardwarecanucks All three media outlets are owned by Future US Inc if that means anything.

🤣8

1.96K views06:38

David's random thoughts

Qwen QwQ实际用起来效果比几个DS蒸馏模型要强得多，试了之前几个经典问题都比DS用更少的token做出来。

可惜因为vocab有一些细微差异导致没法用qwen 2.5小模型来做draft model，以及因为众所周知的原因大概率热度远不如DS😆

👍27❤1

2.5K views08:17

David's random thoughts

试着往Open WebUI里扔50k token的内容，结果Chrome毫无压力，Firefox死了……🙃

😁30😭15😱1

1.69K views06:09

David's random thoughts

厉害了他的国！

😇29🤡4

1.6K views14:13

David's random thoughts

看起来前阵子进pytorch main branch的RDNA4支持现在已经有nightly build出来可以用了。。。。。然而我首发没抢到原价卡🙃

👍12

1.42K views17:05

David's random thoughts

不如把C#编译器也拿golang重写一遍得了

😁37👍18

1.77K views03:16

David's random thoughts

Twitter/X的代码质量现状：想uncheck掉推送里的中文都做不到了。

😁29

1.42K views06:31

David's random thoughts

vLLM 4卡W7800 48G vs 双卡W7900单用户llama 3.3 70B 4bit + 1B 4bit 3-token投机解码

图形卡走PCIe P2P扩展到4卡也还能看到明显收益，最好的情况甚至达到了>50%。

说实话，哪怕不考虑计算卡，只是跟专业图形卡运行vLLM比起来，类似Mac或者多通道服务器CPU LLM方案的性能也有点行为艺术的感觉。。

👍7

1.44K views15:44

David's random thoughts

为什么又聊到Mac跑LLM是行为艺术，因为Apple最近又开始吹一些非常不实际的应用场景(官网声称支持>600B LLM)，还有一群KOL真的出来测DS 671B跑出将近20t/s

但是实际情况呢？刚开始确实可以接近20 t/s，但reasoning非常吃上下文长度。而13k上下文之后只剩6.3t/s，基本不可用。

https://www.reddit.com/r/LocalLLaMA/comments/1j9vjf1/comment/mhgksp9/

🤣36😁7🔥1

2.07K views03:41

David's random thoughts

.NET Core这种LTS只支持3年还喜欢日常搞breaking change的support policy，后果就是我们一大群屎山业务逻辑代码费了老大的劲移植到 .NET Core 之后还要隔三差五的去升级 .NET 版本修兼容性问题，而隔壁躺平在 .NET 4.7.2 的业务则可以一直享受Windows的无感security patch + 无敌向下兼容。

😁55

1.62K views05:43

David's random thoughts

这怎么能叫bug呢，明明是无敌feature好吧

https://www.windowslatest.com/2025/03/16/microsoft-windows-11-march-2025-update-bug-deletes-copilot-app-unpins-from-the-taskbar/

Windows Latest

Microsoft: Windows 11 March 2025 update bug deletes Copilot app, unpins from the taskbar

Microsoft confirms Windows 11 March 2025 update bug deletes Copilot app, unpins from the taskbar. Offers fix.

😁34🍾9

1.56K views14:59

David's random thoughts

2077 1080p路径追踪RDNA 3 vs 4，后者用上新的traversal指令之后RT shader寄存器压力骤降（240 -> 96），occupation也直接满了（6/16 -> 16/16）。

2077的RT shader不算特别复杂，因此没有观察到使用动态寄存器(s_alloc_vgpr)。在黑神话悟空里则有观察到5-20%的wave时间被用于循环等待动态分配。

🔥14👍1

1.65K views06:38

2025/07/13 01:44:19
Back to Top

HTML Embed Code:

<iframe width="100%" src="https://www.tgoop.com/buyppe/web?embed=1" title="Telegram Web" frameborder="0" allow="accelerometer; autoplay; clipboard-write; encrypted-media; gyroscope; picture-in-picture" allowfullscreen></iframe>