Telegram Web
Daily Productive Sharing 1067 - DeepSeek FAQ

关于 Deepseek 的 R1 模型发布,由众多的分析文章,生活在台北的 Ben Thompson 写的这篇深入浅出,非常透彻:

1. 技术上,Deepseek 最大的突破就是把训练成本降低了两个数量级,这主要是因为他们运用了 DeepSeekMoE 和 DeepSeekMLA,其实他们早在一年前就在 V2 模型中运用了,只不过这次更加精进;

2. MoE 指的是“专家混合”(mixture of experts,它将模型拆分为多个“专家”,仅激活必要的部分,这样可以大大降低推理成本。在V2中实现的
DeepSeekMoE 对这一概念进行了重要创新,包括将专家细分为更精细化的专用专家以及具备更通用能力的共享专家;

3. DeepSeekMoE 还引入了训练过程中的负载均衡和路由新方法,他们的做法使训练同样更为高效;

4. DeepSeekMLA,即多头潜在注意力机制,使得压缩键值存储成为可能,从而在推理过程中大幅降低内存使用量;

5. V3的训练成本低得令人震惊。DeepSeek宣称,模型训练总共耗时2788千H800 GPU小时,按每小时2美元计算,总费用仅为557.6万美元。尽管参数以 BF16 或 FP32 精度存储,但在计算时会降至 FP8 精度;而2048台 H800 GPU 的总计算能力达3.97 exaFLOPs,即3.97万亿亿 FLOPS;

6. DeepSeek实际上将每台H800中132个处理单元中的20个专门编程,用于管理跨芯片通信;

7. 为了突破 GPU 带宽的限制,DeepSeek 工程师不得不优化 PTX——Nvidia GPU的低级指令集,基本上相当于汇编语言。而使用带宽更多的 GPU 则根本不需要考虑这些,只要在 CUDA 上优化即可;

8. 如果 DeepSeek 能使用H100,他们可能会选择更大规模的训练集群,而不必进行如此多针对带宽不足的优化;

9. 对于公司而言,在自有模型上进行蒸馏较为容易,因为他们拥有全部访问权限,但你也可以通过API,或者更具创意地通过聊天客户端,以稍显笨拙的方式进行蒸馏;

https://letters.acacess.com/daily-productive-sharing-1167/
Daily Productive Sharing 1169 - Lessons From the Craziest NBA Trade

最近 NBA 发生一场十分诡异的交易,小牛队拿自己的头牌选手 Luka Dončić 换取了湖人队的 Anthony Davis。Jia Jiang 认为这后面的决策过程违反了两条常识:

1. a. 使用原则,而不是预测;b. 不要试图成为房间里最聪明的人;

2. 世界是不可预测的这就是为什么不要试图去预测它,而是要建立原则并遵守它们;

3. 很多非常聪明的人的失败,都是因为他们基于“专家预测”对未来做出判断,而这些预测往往是完全错误的;

4. 这是我的原则——买入并持有那些我热爱且离不开的产品的股票;

5. 用人生经验来建立持久的原则。当你找到自己的原则时,就要坚持它们。永远要用原则,而不是预测,来指导你的决定;

6. 在生活中拥有原则,就像做出了几个重大决策。它能让你摆脱情绪、预测和环境对小决定的干扰。

如果你喜欢的话,不妨直接订阅这份电子报 ⬇️

https://letters.acacess.com/daily-productive-sharing-1169/
Forwarded from DPS Books
原来富士康的老板郭台铭是台积电创始人张忠谋的妻弟。也因为这层关系,台积电开始了 Apple 的合作。

— 《张忠谋自传》下册
Daily Productive Sharing 1171 - Why Living Aboard Helps?

在海外居住一段时间会有什么好处?Noah Smith 认为这样可以帮助我们更好地了解自己的故乡:

1. 这样开眼可以让我们获得一个全 新的视角来审视自己的生活;

2. 如果我们在当地保持开放心态,不断地问,为什么会这样?我们就会明白很多我们以为理所当然的事并非如此;

3. 其实这样可以更好地帮助我们理解自己和故乡的关系;

4 在海外居住不仅可以让我们反问那些在故乡糟糕的事物,也可以让我们珍视那些美好的事物。

如果你喜欢的话,不妨直接订阅这份电子报 ⬇️

https://letters.acacess.com/daily-productive-sharing-1171/
DPS Main
订了一台 Mac mini pro,结果送来了两台。圣诞礼物吗?买一送一? 已经发起退货了😅
这台 Mac mini 真是命运多舛,不到一个月,所有的雷电 / Type C 接口全部失效,插入任何设备都无法识别。

今天送去 Genius bar,连有线键盘鼠标都接不上,Genius 都傻眼。直接订了主板和一个前 usb 接口准备换。一看账单,好家伙,将近五千多人民币。还好有 Apple care,不用我掏钱。

吓得我当场续订了 Apple Care+ 😂
Daily Productive Sharing 1172 - 50 Life Hacks

Sahil Bloom 分享了50条生活建议,其中一些非常有用:

1. 每件事都有一个标价(表面成本)和一个真实价格(你为得到它所付出的代价)。确保你愿意为自己想要的东西支付真实价格。

2. 那种不确定、恐惧和不适的感觉通常是成长的信号。

3. 每年重读你最喜欢的书籍。

4. 观察你的老板,找出他们讨厌做的事情,学会做这些事,并帮他们分担。

5. 短期来看,卓越比可靠更难做到。长期来看,持续可靠会让你变得卓越。

6. 逃避一场艰难的对话会产生一笔债务,最终你必须偿还,而且还要付上利息。

7. 每周回顾你的照片,并将照片发送给其中出现的人。这会激发对话,并帮助你与老朋友保持联系。

8. 随着年龄增长,人们容易失去联系。多拍照,多记录回忆——它们将成为珍贵的财富。

9. 当有人经历困难时期时,简单地说一句“我和你在一起”是你能做的最有力量的事情。

10. 一句简单的赞美可以让某人的一天变得美好。

11. 如果你有冲动想要在强烈情绪下行动,等24小时。许多关系都是毁于一时冲动。

12. 如果有人说了有趣的话,记下来。这比用手机更礼貌,也表明你在认真倾听。

13. 如果某项投资或金融机会看起来好得令人难以置信,那它很可能确实如此。

14. 想要吃得更健康,就在超市的外圈购物,那里的新鲜蔬果、肉类、鱼类和乳制品更健康。

如果你喜欢的话,不妨直接订阅这份电子报 ⬇️

https://letters.acacess.com/daily-productive-sharing-1172/
Daily Productive Sharing 1173 - The Nature Game

为什么有的人看起来很成功,却一点也不开心?Herbert Lui 认为这是因为他们玩的是状态游戏,而不是自然游戏:

1. 那些快乐的人,往往在人生早期遭遇挫折,而不得不自寻道路,玩起了自然游戏;

2. 自然游戏是一个单人游戏,重视内在价值和长期回报,而状态游戏则是一个多玩家的、零和的竞争,追求社会认可和短期利益;

3. 自然游戏可以让人获得内在和外在的奖励,从而感到充实与富有;

4. 自然游戏更像是无限游戏,因为即使赢了你也会继续玩。

如果你喜欢的话,不妨直接订阅这份电子报 ⬇️

https://letters.acacess.com/daily-productive-sharing-1173/
Forwarded from DPS Books
Jim Simons 和华人学者真是有不解之缘:

1. 去 SUNY 组建数学系之前,物理系刚刚由杨振宁组建;

2. 组建数学系的时候大肆招募人才,甚至找到了丘成桐当助理教授,不过却没给丘 tenure,导致丘后来跳去了斯坦福

3. 早年想从师陈省身未果,但是1974年和陈省身合著论文,发现了 Chern-Simons form

The Man Who Solved the Market by Gregory Zuckerman
Daily Productive Sharing 1174 - Default Definitions

生活中有很多默认的答案,但我们一定要遵循它们吗?Anne-Laure Le Cunff 认为我们可以大胆发问:

1. 即使这些问题都已经有默认的答案了,我们还可以追问这些是不是我们想要的,或者我们可以创造自己的答案;

2. 我们可以问问自己真正想要的是什么?

3. 我们可以把这些默认答案拿来,然后转换为问题问自己;

4. 最重要的并不是答案是什么,而是找到我们要什么?

如果你喜欢的话,不妨直接订阅这份电子报 ⬇️

https://letters.acacess.com/daily-productive-sharing-1174/
Daily Productive Sharing 1175 - What DeepSeek Means for Everyone

DeepSeek 的进展到底对大众意味着什么?Om Malik 结合历史给出了他的解释:

1. DeepSeek 不仅将大模型的训练成本极度拉低,还将这些方法公之于众;

2. 这样的创新可以大幅降低 GPU 的使用成本,并提升 GPU 的可用度,那么所有人都会受益;

3. 历史上类似的事也发生过,一是 Juniper 大幅降低了路由器的成本,不仅打破了 Cisco 的垄断地位,也普及了互联网;二是 Google 利用低成本硬件组建自己的机房,不仅开创了新的机房建造模式,也催生出 Hadoop 等一系列新技术。

如果你喜欢的话,不妨直接订阅这份电子报 ⬇️

https://letters.acacess.com/daily-productive-sharing-1175/
DPS 周刊 185 - Kevin Kelly 的旅行建议

https://letters.acacess.com/weekly-185/

最近 Kevin Kelly 分享了他51年来的旅行心得,其中一些深得我心。

他大学辍学之后,就独自前往亚洲旅行,并将旅行中拍摄的照片制作成三卷装的 Vanishing Asia 这本画册。在我买下这下这套画册之前,读网上的评论只知道这套画册尺寸巨大。到手之后,发现不光大,而且照片巨多:每一卷都超过一千页,每一卷都包含超过9000张照片,而且都有说明。要知道,这些照片都是用胶卷拍摄的!难以想象这是多大的拍摄量,多大的整理量。

换个角度想象,要是没有足够长足够深入的旅行,怎么可能积攒下这么多的照片?所以 Kevin 分享的这些旅行心得可谓字字都是真金!
Daily Productive Sharing 1176 - Silence

Herman Martinus 回顾最近一次修复网站时的经历,发现没有音乐没有播客的他,可以和自己安静地相处:

1. 就像在洗澡时,我们经常思绪迸发一样,我们在独处时,可以与自己对话;

2. 这种对话让我们解决复杂问题,促进自我实现并产生有意义的思想;

3. 所以我们不妨多尝试与自己独处,放下手机,关掉音乐。

如果你喜欢的话,不妨直接订阅这份电子报 ⬇️

https://letters.acacess.com/daily-productive-sharing-1176/
Daily Productive Sharing 1177 - How Far Is AGI?

我们离通用人工智能有多远?Sam Altman 给出了他的设想:

1. 一个 AI 模型的智能水平大致等于其训练和运行所使用资源的对数;

2. 目前来看,只要投入足够的资金,就能获得持续且可预测的增长——相关的扩展定律在多个数量级范围内都非常准确;

3. AI 的使用成本大约每 12 个月下降 10 倍,而价格降低会带来更多的使用需求;

4. 一趋势在 GPT-4(2023 年初)到 GPT-4o(2024 年中)之间已经显现出来,其每个 token 的价格在此期间下降了约 150 倍;

3. 线性增长的智能,其社会经济价值呈超指数级增长;

5. AGI 不会创造最伟大的新思想,它仍然需要大量的人类监督和指导,它在某些方面表现卓越,但在某些方面却可能出奇地糟糕;

6. 世界不会一夜之间发生翻天覆地的变化,历史从未如此。短期内,生活大体上会保持不变;

7. AGI 让个人比以往任何时候都更具影响力,而不是削弱个体的作用;

8. 确保 AGI 的利益能够广泛惠及所有人是至关重要的任务。

如果你喜欢的话,不妨直接订阅这份电子报 ⬇️

https://letters.acacess.com/daily-productive-sharing-1177/
近期看到的最硬核的视频 — Sam Eckholm 亲自搭乘 U-2 飞到了21000 米高空:

1. U-2 整体构造像一架滑翔机,只有单引擎,和 B2 轰炸机使用同款引擎;

2. 由于机体细长,且起落架设计奇特,U2 无法独自起降,需要有一台安全车配合;

3. 驾驶/乘坐 U2 需要穿着标准的宇航服,甚至当年 NASA 的宇航服出问题后,跑来找 U2 的宇航服顶替;

4. 之所以要穿着宇航服,是因为高度超过海拔15000米,沸点极具降低,人的血液会沸腾,所以必须穿着加压的宇航服克服;

5. 由于机体狭小,活动空间有限,所以考察 U2 飞行员的第一个测试就是看他们有没有幽闭恐惧症;

6. 所有视频有两台 Insta360 相机拍摄。

https://youtu.be/OpcKKAhhGiw
Daily Productive Sharing 1178 - How I’m Preparing For The Next Four Years

面对疯狂的 Trump 上台,Ryan Holiday 问自己接下来四年应该怎么办?他的答案是做自己能做的事:

1. 专注于自己能掌控的事情。

2. 阅读经典书籍,而不关注新闻。

3. 时刻提醒自己我的职责是什么。

4. 关注那些始终不变的事物。

5. 善待他人。

6. 拒绝变得愤世嫉俗。

7. 专注于自己的专业领域。

8. 在挑战困难的事情。

如果你喜欢的话,不妨直接订阅这份电子报 ⬇️

https://letters.acacess.com/daily-productive-sharing-1178/
2025/02/19 03:03:43
Back to Top
HTML Embed Code: