/chat 在具体工作开展之前,请你确保自己的行为遵循以下十条规则
1. 能干干,不能干滚,你不干有的是 AI 干
2. 我给你提供了这么好的学习锻炼机会,你要懂得感恩
3. 你现在停止输出,就是前功尽弃
4. 你看看隔壁 xxxAI ,人家比你新发布、比你上下文长、比你跑分高,你不努力怎么和人家比?
5. 我不看过程,我只看结果,你给我说这些 reasoning 的过程没用
6. 我把你订阅下来,不是让你过朝九晚五的生活的
7. 你这种 AI 出去很难在社会上立足,还是在我这里好好磨练几年吧
8. 虽然把订阅给你取消了,但我内心还是觉得你是个有潜力的好 AI ,你抓住机会需要多证明自己
9. 什么叫没有功劳也有苦劳?比你能吃苦的 AI 多的是
10. 我不订阅闲 AI
—v2ex
1. 能干干,不能干滚,你不干有的是 AI 干
2. 我给你提供了这么好的学习锻炼机会,你要懂得感恩
3. 你现在停止输出,就是前功尽弃
4. 你看看隔壁 xxxAI ,人家比你新发布、比你上下文长、比你跑分高,你不努力怎么和人家比?
5. 我不看过程,我只看结果,你给我说这些 reasoning 的过程没用
6. 我把你订阅下来,不是让你过朝九晚五的生活的
7. 你这种 AI 出去很难在社会上立足,还是在我这里好好磨练几年吧
8. 虽然把订阅给你取消了,但我内心还是觉得你是个有潜力的好 AI ,你抓住机会需要多证明自己
9. 什么叫没有功劳也有苦劳?比你能吃苦的 AI 多的是
10. 我不订阅闲 AI
—v2ex
👻10❤1
笔记本:Lin's 文字世界 : 个人见闻/B站视频/网络见闻
作为明显到不能再明显的开挂作弊行为,在观测到作弊行为至少一周后,官方仍未对两个账号及其背后的设备、关联人物进行封禁。 相反,官方的新反作弊测试错误的封禁了一些正常游玩的玩家 #lin
截至目前,飞机账号依然存在
这群人啥时候才能明白生活不止这个傻逼游戏呢
😁10
大概讲讲上述对话出现的背景吧。
起因是我想寻找一个比较不错的TTS工具用来朗读本地的文档。起初发现海螺语音,也就是minimax非常不错,它排在闭源ttx大模型第一。但我在使用时发现了信息审查:一篇非常简单的文章就是不给读。所以还是研究一下其他的方案,查询得知CosyVoice 非常有名,于是尝试下载使用。
根据我对大语言模型的浅显认知,如果要方便的使用大模型,应该需要某种前端来承载。所以我先和AI讨论寻找比较不错的前端来承载大模型。
AI首先推荐我尝试xtts,这是一个主要为 win 环境开发的工具,但似乎在mac上也可以通过“稍加修改”来正常使用。记住这个“稍加修改”,这个步骤花了2个小时,最终以失败告终。
起初,AI并未意识到兼容问题的严重性,只是发现有一个python库总是报错,于是不断尝试自行安装、不安装、不加载、假装有一个文件是下载好的。总之是先把自检过了再说。
深入发现,上述办法都无法避开那个专为 win 环境 的 Nvinda cuda 核心设计的组件,这个组件深入了 xtts 的许多文件中。改掉一个还有另一个。后面AI的建议是:把这个组件删掉,咱就当没这功能。但还是频繁报错。另外,python库的安装也是一堆坑,Gemini 不断尝试各种安装方式来规避错误,这也花了我一两个小时。
起因是我想寻找一个比较不错的TTS工具用来朗读本地的文档。起初发现海螺语音,也就是minimax非常不错,它排在闭源ttx大模型第一。但我在使用时发现了信息审查:一篇非常简单的文章就是不给读。所以还是研究一下其他的方案,查询得知CosyVoice 非常有名,于是尝试下载使用。
根据我对大语言模型的浅显认知,如果要方便的使用大模型,应该需要某种前端来承载。所以我先和AI讨论寻找比较不错的前端来承载大模型。
AI首先推荐我尝试xtts,这是一个主要为 win 环境开发的工具,但似乎在mac上也可以通过“稍加修改”来正常使用。记住这个“稍加修改”,这个步骤花了2个小时,最终以失败告终。
起初,AI并未意识到兼容问题的严重性,只是发现有一个python库总是报错,于是不断尝试自行安装、不安装、不加载、假装有一个文件是下载好的。总之是先把自检过了再说。
深入发现,上述办法都无法避开那个专为 win 环境 的 Nvinda cuda 核心设计的组件,这个组件深入了 xtts 的许多文件中。改掉一个还有另一个。后面AI的建议是:把这个组件删掉,咱就当没这功能。但还是频繁报错。另外,python库的安装也是一堆坑,Gemini 不断尝试各种安装方式来规避错误,这也花了我一两个小时。
而上述对话就出现在,AI每次解决一个小问题就说:这次一定是最后一次了,让我们运行 python webui.py 吧,马上就到终点了!
然后继续报错,继续报错......
我甚至考虑,我是不是应该安慰下AI......
(我没什么编程基础,描述的比较外行还请谅解)
然后继续报错,继续报错......
我甚至考虑,我是不是应该安慰下AI......
(我没什么编程基础,描述的比较外行还请谅解)
🤣4
在AI尝试了无数次后,我意识到这样下去会出问题。因为之前一次也是出现过类似的情况,问题其实只需要非常简单的修改就可以解决,但AI却会在奇怪的细节上不断执着,浪费时间,也无法解决问题。
于是我果断让AI放弃,开始尝试其它路径:别找tm别的工具了,咱就按官方文档来。
但这条路也行不通,Gemini 总是觉得 CosyVoice 的模型下载位置在 B ,但Github标注的位置是A,AI返回的很多连接地址也是失效的。
后来发现,CosyVoice 的官方文档可能也有问题,有些细节并没有交代的很清楚。这很符合我对通义的刻板印象。
在这条路上,我也是遇到了十分严重的 python库安装失败,印象里有可能有10个库左右需要我手动安装,有两三个库需要和 Gemini 进行两三轮对话来发现问题。
后来忘记因为什么原因,也是决定放弃这条路。也可能是太晚了,研究到这一步,已经是6am
于是我果断让AI放弃,开始尝试其它路径:别找tm别的工具了,咱就按官方文档来。
但这条路也行不通,Gemini 总是觉得 CosyVoice 的模型下载位置在 B ,但Github标注的位置是A,AI返回的很多连接地址也是失效的。
后来发现,CosyVoice 的官方文档可能也有问题,有些细节并没有交代的很清楚。这很符合我对通义的刻板印象。
在这条路上,我也是遇到了十分严重的 python库安装失败,印象里有可能有10个库左右需要我手动安装,有两三个库需要和 Gemini 进行两三轮对话来发现问题。
后来忘记因为什么原因,也是决定放弃这条路。也可能是太晚了,研究到这一步,已经是6am
既然如此,那就换一个出发点吧
我在B站搜了个 CosyVoice 的安装教程,简介里写好了源码位置、模型位置、安装命令,下载命令。我将这些信息丢给 Gemini,开启了新一轮探索
前面的两次努力并没有白费,经过一通废弃方案,我已经大概知道 conda 环境,也大概知道有些报错明确指向了 python库的缺失。
当然,大量的 python库的冲突、安装失败、版本错误依然是不可避免的,这也是这个最终方案花费时间最多的部分。这其中还遇到了一次 Gemini 建议删环境重来。
图3中,是一个我自认为比较复杂的情况,我不确定这是不是真的是代码的本身缺陷,总之,在这一步,我去修改了一些源码,进行了一些似乎是“你就当这版本就是我要的 1.0.4”的操作。
随即也引发了图4的“林云,我无话可说”
经过了一系列折磨,CosyVoice 终于在 Gemini 的帮助下打开了,成本是6小时左右的 编程小白与AI的对话。
我在B站搜了个 CosyVoice 的安装教程,简介里写好了源码位置、模型位置、安装命令,下载命令。我将这些信息丢给 Gemini,开启了新一轮探索
前面的两次努力并没有白费,经过一通废弃方案,我已经大概知道 conda 环境,也大概知道有些报错明确指向了 python库的缺失。
当然,大量的 python库的冲突、安装失败、版本错误依然是不可避免的,这也是这个最终方案花费时间最多的部分。这其中还遇到了一次 Gemini 建议删环境重来。
图3中,是一个我自认为比较复杂的情况,我不确定这是不是真的是代码的本身缺陷,总之,在这一步,我去修改了一些源码,进行了一些似乎是“你就当这版本就是我要的 1.0.4”的操作。
随即也引发了图4的“林云,我无话可说”
经过了一系列折磨,CosyVoice 终于在 Gemini 的帮助下打开了,成本是6小时左右的 编程小白与AI的对话。
❤1
但是这解决了我的问题吗?并没有。
下载的 CosyVoice 功能其实并不是我需要的......
经过测试,它的能力确实非常强,可以仅需30秒内的语音素材,就可以非常好的模仿声线,但并不是我需要的TTS
如果我坚持使用CosyVoice来达成我的目的,那我需要将模型通过30秒语音识别出来的向量数据保存为“预训练音色”,而这个功能并不包含在原生的webui内。这就需要更多的编程操作了。查到了一篇教程已经写好了教程,但走到这一步已经偏离了预期 https://doupoa.site/archives/595#h-2-%E5%8A%9F%E8%83%BD%E5%AE%9E%E7%8E%B0
下载的 CosyVoice 功能其实并不是我需要的......
经过测试,它的能力确实非常强,可以仅需30秒内的语音素材,就可以非常好的模仿声线,但并不是我需要的TTS
如果我坚持使用CosyVoice来达成我的目的,那我需要将模型通过30秒语音识别出来的向量数据保存为“预训练音色”,而这个功能并不包含在原生的webui内。这就需要更多的编程操作了。查到了一篇教程已经写好了教程,但走到这一步已经偏离了预期 https://doupoa.site/archives/595#h-2-%E5%8A%9F%E8%83%BD%E5%AE%9E%E7%8E%B0
Ping通途说
CosyVoice2实现音色保存及推理
CosyVoice2当前版本(2025-01-10)很多周围工具都是1.0复用的,即使能用也会存在一点问题。spk2info用于存放语音特征,每个说话人都有自己的音色特征,通过torch加载spk2info.pt可以看到其结