David's random thoughts
主流游戏卡真的是一点都不能用,说是双槽卡但是上下都要恰好入侵到相邻插槽,实际上就是个4槽卡。
为什么不像之前那样继续用延长线呢,是因为上次尝试用Intel GPU在Linux下玩游戏又出现了神秘的整机reset问题……只能把延长线拿掉先排除一下影响。
于是只能暂时喜提损失两个PCIe槽的惨痛代价。
于是只能暂时喜提损失两个PCIe槽的惨痛代价。
❤5
David's random thoughts
为什么不像之前那样继续用延长线呢,是因为上次尝试用Intel GPU在Linux下玩游戏又出现了神秘的整机reset问题……只能把延长线拿掉先排除一下影响。 于是只能暂时喜提损失两个PCIe槽的惨痛代价。
基本确认是延长线的问题,直连PCIe 4.0x16槽之后玩了几个小时都再也没有出现任何故障(
👏7
终于不当CloseAI了吗😅
要是能把o3 mini开源出来还是不错的,但是这个“-level”又显得有点可疑了
https://x.com/sama/status/1891667332105109653
要是能把o3 mini开源出来还是不错的,但是这个“-level”又显得有点可疑了
https://x.com/sama/status/1891667332105109653
X (formerly Twitter)
Sam Altman (@sama) on X
for our next open source project, would it be more useful to do an o3-mini level model that is pretty small but still needs to run on GPUs, or the best phone-sized model we can do?
🤣15🤡3🔥2👍1
看了一圈首发评测,测70B LLM基本上都是在windows上用基于llama.cpp vulkan版本的方案在共享显存里跑出来的成绩,性能损失比较大。所以参考价值比较一般,Linux下把vLLM搭起来再上个投机解码之类的可以快不少。
不过这种平台跑LLM根本上还是跟我之前M4 Pro文章里讲的有差不多的问题,状况都比较尴尬。
https://x.com/kele_plus/status/1892081534443630771
不过这种平台跑LLM根本上还是跟我之前M4 Pro文章里讲的有差不多的问题,状况都比较尴尬。
https://x.com/kele_plus/status/1892081534443630771
🔥12🐳1
😁9
😁34❤3
看着50系首发这么多drama我本来都懒得说啥,不过最近感觉NVIDIA这个公司在我心目中的形象已经成功升级成独一份了。
集合了Google,华为以及挤牙膏时期的Intel的所有《优点》,最顶上那位PPT吹牛的能力比马斯克还强,还有一帮神奇的信徒。如此强大的公司怎么能不招人喜欢呢。
集合了Google,华为以及挤牙膏时期的Intel的所有《优点》,最顶上那位PPT吹牛的能力比马斯克还强,还有一帮神奇的信徒。如此强大的公司怎么能不招人喜欢呢。
😁42🗿5👏3
其实这种事应该算常识而不是什么阴谋论之类的(
https://x.com/hjc4869/status/1893230565056229688
没有任何别的解释能说得通。如果是生产过程中没有筛出来缺陷品,那么在用户手里应该表现为玩游戏崩溃不稳定或者花屏等等故障。但如果NVAPI/驱动软件层面能识别,说明封测时已经发现缺陷并且作了对应的屏蔽、降级处理。
https://x.com/hjc4869/status/1893230565056229688
X (formerly Twitter)
David Huang (@hjc4869) on X
@deskflag 没有任何别的解释能说得通。如果是生产过程中没有筛出来缺陷品,那么在用户手里应该表现为玩游戏崩溃不稳定或者花屏等等故障。但如果NVAPI/驱动软件层面能识别,说明封测时已经发现缺陷并且作了对应的屏蔽、降级处理。
😁10
David's random thoughts
看了一圈首发评测,测70B LLM基本上都是在windows上用基于llama.cpp vulkan版本的方案在共享显存里跑出来的成绩,性能损失比较大。所以参考价值比较一般,Linux下把vLLM搭起来再上个投机解码之类的可以快不少。 不过这种平台跑LLM根本上还是跟我之前M4 Pro文章里讲的有差不多的问题,状况都比较尴尬。 https://x.com/kele_plus/status/1892081534443630771
为什么说vLLM在Strix Halo上值得一试
拿近似架构的W7900来说,双卡使用llama.cpp row split运行70B-72B q8的LLM大约是13 t/s左右的性能。但vLLM+投机解码可以实现30-40 t/s,当然96G显存极其紧张。
70-72B目前在STXH平台使用llama.cpp q4上限大约在5-6 t/s,提升后可能刚好到> 10t/s的高度可用水平。
拿近似架构的W7900来说,双卡使用llama.cpp row split运行70B-72B q8的LLM大约是13 t/s左右的性能。但vLLM+投机解码可以实现30-40 t/s,当然96G显存极其紧张。
70-72B目前在STXH平台使用llama.cpp q4上限大约在5-6 t/s,提升后可能刚好到> 10t/s的高度可用水平。
😁3
话说之前一直都看到有人说MLX比llama.cpp快,但是实际测下来好像mlx 4bit vs ggml iq4_xs并没有快多少啊……
🤡3
不知道Intel在倒闭的那一天之前能不能把各种场景漏显存的bug全都修完,从当年刚毕业入职开始这种核显漏内存的场景就没有停过,我怀疑等到我退休它还是这个鬼样。
🔥18⚡1
看很多讨论Framework STXH的顶配,但实际反而低配更好玩
799刀门槛低,在北美买套7700板u内存+4060都不止这个价格,这方面STXH居然有性价比。再一个之前讨论过这些设备运行LLM的尴尬,256b位宽适合32B q4模型,就算追求LLM用途也没必要上更大的内存
当然价格方面的结论仅限北美,国内还得深圳系努力
799刀门槛低,在北美买套7700板u内存+4060都不止这个价格,这方面STXH居然有性价比。再一个之前讨论过这些设备运行LLM的尴尬,256b位宽适合32B q4模型,就算追求LLM用途也没必要上更大的内存
当然价格方面的结论仅限北美,国内还得深圳系努力
👍14