LLM 对战 LLM:Codenames 大战
Codenames 是一个很流行的桌游,公司 team event 的常客,对战双方分为两队,每队有一个猜词人和(一或多位)描述者,描述者需要通过描述让猜词人猜到尽可能多的己方词汇(误猜到对方的话算对方的分),同时避免踩雷(一轮死),哪组的词先被翻完或者对方踩到雷就能获胜。
博主实验了 GPT-4o、Claude-3.5 和 Gemini-1.5-pro 的 codenames 游戏表现,还提供了参考的源码,并提供了一些对实验结果的分析。(GPT 险胜 Claude,Gemini 惨败)
(先前我找工的时候也想写一个 LLM 刷题测试报告来着,结果找完工根本不想再打开 leetcode 一秒🤣)
#indieblog #AI
Codenames 是一个很流行的桌游,公司 team event 的常客,对战双方分为两队,每队有一个猜词人和(一或多位)描述者,描述者需要通过描述让猜词人猜到尽可能多的己方词汇(误猜到对方的话算对方的分),同时避免踩雷(一轮死),哪组的词先被翻完或者对方踩到雷就能获胜。
博主实验了 GPT-4o、Claude-3.5 和 Gemini-1.5-pro 的 codenames 游戏表现,还提供了参考的源码,并提供了一些对实验结果的分析。(GPT 险胜 Claude,Gemini 惨败)
(先前我找工的时候也想写一个 LLM 刷题测试报告来着,结果找完工根本不想再打开 leetcode 一秒🤣)
#indieblog #AI
tgoop.com/mtfront/3589
Create:
Last Update:
Last Update:
LLM 对战 LLM:Codenames 大战
Codenames 是一个很流行的桌游,公司 team event 的常客,对战双方分为两队,每队有一个猜词人和(一或多位)描述者,描述者需要通过描述让猜词人猜到尽可能多的己方词汇(误猜到对方的话算对方的分),同时避免踩雷(一轮死),哪组的词先被翻完或者对方踩到雷就能获胜。
博主实验了 GPT-4o、Claude-3.5 和 Gemini-1.5-pro 的 codenames 游戏表现,还提供了参考的源码,并提供了一些对实验结果的分析。(GPT 险胜 Claude,Gemini 惨败)
(先前我找工的时候也想写一个 LLM 刷题测试报告来着,结果找完工根本不想再打开 leetcode 一秒🤣)
#indieblog #AI
Codenames 是一个很流行的桌游,公司 team event 的常客,对战双方分为两队,每队有一个猜词人和(一或多位)描述者,描述者需要通过描述让猜词人猜到尽可能多的己方词汇(误猜到对方的话算对方的分),同时避免踩雷(一轮死),哪组的词先被翻完或者对方踩到雷就能获胜。
博主实验了 GPT-4o、Claude-3.5 和 Gemini-1.5-pro 的 codenames 游戏表现,还提供了参考的源码,并提供了一些对实验结果的分析。(GPT 险胜 Claude,Gemini 惨败)
(先前我找工的时候也想写一个 LLM 刷题测试报告来着,结果找完工根本不想再打开 leetcode 一秒🤣)
#indieblog #AI
BY 椒盐豆豉剪报
Share with your friend now:
tgoop.com/mtfront/3589