一个有趣的问题:LLMs是怎么处理,或者说理解censorship的?
这个问题的起因是, #我的一个朋友 遇到了一个很尴尬的事。他要给雇主写点东西,打算仿照我平时那样丢给deepseek去写初稿然后再加工,结果折腾了半天写不出来,就来跟我吐槽。
我一问细节,原来是每次自动生成到某些token,比如“习近平”,审查系统就自动中断了。这也正常,但问题就在,这个朋友的雇主呢……是办公厅……是吧。所以我理解他要写的东西怎么想prompt都没办法绕开某些关键词。最终还是只能手写。
我尝试复现了一下他遇到的问题,似乎还真是如此。我想了一些时政性很强的大概怎么也绕不开习近平的问题,然后果然,R1有些问题一上来就拒绝回答了,另外一些问题却并不是在我提问之后马上表示无法回答的,而是会很丝滑地按token生成内容,直到意识到“可能说漏嘴了”,这才停下来。
所以我猜测LLMs用的是一种token based的方法,它并不能预测人类问的问题,也就是生成链路的起点是不是合规,也没有经历过把最终生成结果喂给审查员猩猩打√×的训练方法来反向调教。只能选择用“走着瞧”的方式。
(欢迎读者指正,因为我是猜测,但我知道读者里有那么几个你们是真的知道how it works)
当然这个方法有个最大的优点就是,天杀的审查词汇是可以变的。所以也只能外生地限制token而不能把审查内置到炼丹炉当中。总不能网信办下个文就重train一次模型吧🙈
这个问题的起因是, #我的一个朋友 遇到了一个很尴尬的事。他要给雇主写点东西,打算仿照我平时那样丢给deepseek去写初稿然后再加工,结果折腾了半天写不出来,就来跟我吐槽。
我一问细节,原来是每次自动生成到某些token,比如“习近平”,审查系统就自动中断了。这也正常,但问题就在,这个朋友的雇主呢……是办公厅……是吧。所以我理解他要写的东西怎么想prompt都没办法绕开某些关键词。最终还是只能手写。
我尝试复现了一下他遇到的问题,似乎还真是如此。我想了一些时政性很强的大概怎么也绕不开习近平的问题,然后果然,R1有些问题一上来就拒绝回答了,另外一些问题却并不是在我提问之后马上表示无法回答的,而是会很丝滑地按token生成内容,直到意识到“可能说漏嘴了”,这才停下来。
所以我猜测LLMs用的是一种token based的方法,它并不能预测人类问的问题,也就是生成链路的起点是不是合规,也没有经历过把最终生成结果喂给审查员猩猩打√×的训练方法来反向调教。只能选择用“走着瞧”的方式。
(欢迎读者指正,因为我是猜测,但我知道读者里有那么几个你们是真的知道how it works)
当然这个方法有个最大的优点就是,天杀的审查词汇是可以变的。所以也只能外生地限制token而不能把审查内置到炼丹炉当中。总不能网信办下个文就重train一次模型吧🙈
👍3🤔2🕊1
Forwarded from 深绿大声公 Shenzhen Enlightened Megaphone (Ethern)
Niantic 拟作价35亿美金出售游戏业务
收购方为美国游戏公司Scopely Inc,代表作品为手游《大富翁GO!》。
更新:根据线报可能会在未来几周内公开交易细节。
来源:Bloomberg
#可持续发展 #新闻
收购方为美国游戏公司Scopely Inc,代表作品为手游《大富翁GO!》。
更新:根据线报可能会在未来几周内公开交易细节。
来源:Bloomberg
#可持续发展 #新闻
离了个大谱,大半夜睡着睡着,床塌了???
掀掉床上用品和床垫,发现床板本来应该架在床框上的,一个角却从床框滑了下去。应该是年久床框变形加上床板床框没有硬固定导致的。
研究了一下发现本来应该四个角用螺丝限位,也不知道是当年安装师傅偷懒还是我老婆不懂,总之就是没弄。然后最近小孩子在床上蹦蹦跳跳,上下结构之间滑动就塌了。
螺丝找不到了,尝试用筷子限位未果。灵机一动把小孩子的防撞条当成防滑垫片拿来粘上,管用。于是至少这床应该能再用几年。
掀掉床上用品和床垫,发现床板本来应该架在床框上的,一个角却从床框滑了下去。应该是年久床框变形加上床板床框没有硬固定导致的。
研究了一下发现本来应该四个角用螺丝限位,也不知道是当年安装师傅偷懒还是我老婆不懂,总之就是没弄。然后最近小孩子在床上蹦蹦跳跳,上下结构之间滑动就塌了。
螺丝找不到了,尝试用筷子限位未果。灵机一动把小孩子的防撞条当成防滑垫片拿来粘上,管用。于是至少这床应该能再用几年。
🤔4🔥2
还有270w满级,当前队列为空。那么有没有可能转生之前给队列强塞一个呢?
……
刷tg刷小红书刷b站刷朋友圈,brainstorming开始
……
南师大那个事好火爆呢,老婆都开始管我叫猪猪了🙈
……
虽然这种事很人神共愤且损学校声誉吧,但不得不说,南师大处理还是蛮快的。24网上爆出来,25就宣布免职了。
……
想到一个一般化的问题:面对负面舆情,什么情况下上级/单位会保下级/个人,什么情况下会快速处理撇清关系?
……
由此上升到,比较一下我们当下的批判官员尺度和十几年前,为什么有了很大差异?这是由什么决定的?
……
不管是认为政府的目标函数是服务民众还是服务上级,都有一种无形的力量改变了社会的某种状态参数。想用贝叶斯精炼纳什均衡的方法建模分析一下。
这东西挂在这,啥时候做出来啥时候结。
……
刷tg刷小红书刷b站刷朋友圈,brainstorming开始
……
南师大那个事好火爆呢
……
虽然这种事很人神共愤且损学校声誉吧,但不得不说,南师大处理还是蛮快的。24网上爆出来,25就宣布免职了。
……
想到一个一般化的问题:面对负面舆情,什么情况下上级/单位会保下级/个人,什么情况下会快速处理撇清关系?
……
由此上升到,比较一下我们当下的批判官员尺度和十几年前,为什么有了很大差异?这是由什么决定的?
……
不管是认为政府的目标函数是服务民众还是服务上级,都有一种无形的力量改变了社会的某种状态参数。想用贝叶斯精炼纳什均衡的方法建模分析一下。
这东西挂在这,啥时候做出来啥时候结。