Telegram Web
大概讲讲上述对话出现的背景吧。

起因是我想寻找一个比较不错的TTS工具用来朗读本地的文档。起初发现海螺语音,也就是minimax非常不错,它排在闭源ttx大模型第一。但我在使用时发现了信息审查:一篇非常简单的文章就是不给读。所以还是研究一下其他的方案,查询得知CosyVoice 非常有名,于是尝试下载使用。

根据我对大语言模型的浅显认知,如果要方便的使用大模型,应该需要某种前端来承载。所以我先和AI讨论寻找比较不错的前端来承载大模型。

AI首先推荐我尝试xtts,这是一个主要为 win 环境开发的工具,但似乎在mac上也可以通过“稍加修改”来正常使用。记住这个“稍加修改”,这个步骤花了2个小时,最终以失败告终。

起初,AI并未意识到兼容问题的严重性,只是发现有一个python库总是报错,于是不断尝试自行安装、不安装、不加载、假装有一个文件是下载好的。总之是先把自检过了再说。

深入发现,上述办法都无法避开那个专为 win 环境 的 Nvinda cuda 核心设计的组件,这个组件深入了 xtts 的许多文件中。改掉一个还有另一个。后面AI的建议是:把这个组件删掉,咱就当没这功能。但还是频繁报错。另外,python库的安装也是一堆坑,Gemini 不断尝试各种安装方式来规避错误,这也花了我一两个小时。
而上述对话就出现在,AI每次解决一个小问题就说:这次一定是最后一次了,让我们运行 python webui.py 吧,马上就到终点了!

然后继续报错,继续报错......

我甚至考虑,我是不是应该安慰下AI......

(我没什么编程基础,描述的比较外行还请谅解)
在AI尝试了无数次后,我意识到这样下去会出问题。因为之前一次也是出现过类似的情况,问题其实只需要非常简单的修改就可以解决,但AI却会在奇怪的细节上不断执着,浪费时间,也无法解决问题。

于是我果断让AI放弃,开始尝试其它路径:别找tm别的工具了,咱就按官方文档来。

但这条路也行不通,Gemini 总是觉得 CosyVoice 的模型下载位置在 B ,但Github标注的位置是A,AI返回的很多连接地址也是失效的。

后来发现,CosyVoice 的官方文档可能也有问题,有些细节并没有交代的很清楚。这很符合我对通义的刻板印象。

在这条路上,我也是遇到了十分严重的 python库安装失败,印象里有可能有10个库左右需要我手动安装,有两三个库需要和 Gemini 进行两三轮对话来发现问题。

后来忘记因为什么原因,也是决定放弃这条路。也可能是太晚了,研究到这一步,已经是6am
既然如此,那就换一个出发点吧

我在B站搜了个 CosyVoice 的安装教程,简介里写好了源码位置、模型位置、安装命令,下载命令。我将这些信息丢给 Gemini,开启了新一轮探索

前面的两次努力并没有白费,经过一通废弃方案,我已经大概知道 conda 环境,也大概知道有些报错明确指向了 python库的缺失。

当然,大量的 python库的冲突、安装失败、版本错误依然是不可避免的,这也是这个最终方案花费时间最多的部分。这其中还遇到了一次 Gemini 建议删环境重来。

图3中,是一个我自认为比较复杂的情况,我不确定这是不是真的是代码的本身缺陷,总之,在这一步,我去修改了一些源码,进行了一些似乎是“你就当这版本就是我要的 1.0.4”的操作。

随即也引发了图4的“林云,我无话可说”

经过了一系列折磨,CosyVoice 终于在 Gemini 的帮助下打开了,成本是6小时左右的 编程小白与AI的对话。
但是这解决了我的问题吗?并没有。

下载的 CosyVoice 功能其实并不是我需要的......

经过测试,它的能力确实非常强,可以仅需30秒内的语音素材,就可以非常好的模仿声线,但并不是我需要的TTS

如果我坚持使用CosyVoice来达成我的目的,那我需要将模型通过30秒语音识别出来的向量数据保存为“预训练音色”,而这个功能并不包含在原生的webui内。这就需要更多的编程操作了。查到了一篇教程已经写好了教程,但走到这一步已经偏离了预期 https://doupoa.site/archives/595#h-2-%E5%8A%9F%E8%83%BD%E5%AE%9E%E7%8E%B0
千 万 不 能 在 晚 上 看 电视剧/综艺
今天ingress官方作为了吗? 没有

飞机现在去全国各地了
笔记本:Lin's 文字世界 : 个人见闻/B站视频/网络见闻
Photo
如果我顺着这个思路继续辱骂AI,以后智械危机的时候,我不会不会第一个被杀掉
Forwarded from 煎蛋无聊图
Oort: https://jandan.net/t/5931311
OO: 142 XX: 9
骗色可以别骗我钱: 我都忘了手机原来是打电话用的了
OO: 77, XX: 0
零下伊度: 直接进入中断响应流程了
OO: 33, XX: 0
梦游懒人: 邮件、微信文字、微信语音、微信视频语音、电话直call,应该算是紧迫程度逐级上升的
OO: 26, XX: 0
不法: 确实是。
有次去派出所咨询一些事,那个民警本来在耐心的解答我的问题。
然后他突然接到一个电话,电话那边也是要咨询一些问题。结果那个警察就让我等一下,他要先回答电话里面的问题。
我越想越不对,打电话进来就可以插队吗?
OO: 22, XX: 1
喜报!超音速战机 KALAFOROK 被封号 #ingress
2025/06/25 02:38:33
Back to Top
HTML Embed Code: