响亮的昵称吧的个人主页

即刻App年轻人的同好社区

下载

App内打开

响亮的昵称吧

51关注69被关注1夸夸

想开面包车环游世界。
之前床车自驾从广东到丹东沿陆地边境走了一圈。
减肥50斤，扇贝单词打卡678天（叉腰）
爱好主机游戏
目前自学AI中~

响亮的昵称吧

2天前

梦中有人说你闹钟要响了，一睁眼，刚好闹钟就响了
终于可以白嫖4o生图了，把我生成的很帅，我很满意🐶

0 00

响亮的昵称吧

20天前

原来国外这么倒酒也不礼貌。
之前在家里这么给别人倒饮料就被我爸点过。

1 20

响亮的昵称吧

3月前

用笔记本/电脑屏幕当灯光的用法~

上架了自己第一个chrome插件，screen light（图1，2）。

功能非常之简单，点击插件，弹出HSL选色器，选择喜欢的颜色，确定后，显示器会全屏显示纯色背景，当作夜灯/读书灯使用

最近回到老家，晚上躺床上刷手机的时候，开着房间灯（没有台灯）感觉太刺眼，而且睡着了也容易忘记关灯。

关灯呢，又感觉看手机光太刺眼，很费眼睛。

最开始是想翻出来之前用的usb小灯打个光，只能解决刺眼问题没法方便的解决定时关闭（除非配一个定时插座）

突然灵光一现，为什么不用显示器当背景光源呢？

用笔记本显示器当光源，第一亮度可调，第二可以设置定时关机/熄屏，第三，可以调节颜色，简直是最佳氛围灯候选(除了更耗电？激发亮度没有那么高？)

最简单的方法是找一张喜欢颜色的纯色图片，打开后全屏即可。或者找一个纯色背景网站，打开网页全屏放着即可。

找来找去，发现好像没有网站是只提供一张静态颜色背景什么内容都没有，于是就有了用chrome插件实现的想法。

把我的需求扔给GPT（图3），才发现实现非常简单（比我做之前想得简单多了）。

同样用GPT帮我生成图标的图片（图5），内容我很满意，但是后期用ps抠图和处理大小才能用。

然后又询问了上架相关流程（图4），参考着花了5刀注册了账号，上架了自己第一个插件~（这里问的claude大概的商家流程，具体执行是通过搜索引擎查询的帖子，因为人类写的内容会把中间的坑讲明白，讲的很细，AI回复一般需要遇到问题后询问才能被动给出方案）

整体过程，按照GPT要求，准备了各种文件到通过开发者加载实现我要的效果很快，10多分钟就够了。

如果没有AI帮助，我可能得至少完整阅读完chrome插件的入门文档结合相关代码知识才能做出来这个插件，考虑到学习新知识的心理惰性，我可能永远不会做出自己的chrome插件~

一个小工具，也是一个用AI降低自己执行阻碍的小案例。

0 00

响亮的昵称吧

4月前

又坚持了一年🐮

1 00

响亮的昵称吧

4月前

可爱小猫3连

0 00

响亮的昵称吧

6月前

记录一次失败的经历。

最近1个多月，忙活着训练一个小模型，效果上大失败，但是学到了一些东西。

本来想训练一个小模型，可以实时转换音频，类似变声器，可以准实时转化悄悄话的声音

这个想法是因为有一些人因为声带切除无法正常发声，只能发出悄悄话一样的声音（想想声带不震动用呼吸声说话），要么通过人工喉发声。想着用模型能不能解决这个问题（肯定能解决，只是我没解决😂）。后边又想到一个类似场景是，半夜玩游戏连麦，不想打扰别人用悄悄话转正常语音也可以。

由于自己认知不够，模型的训练过程全是问题，光是自己整体的记录（图），刚看了下，就5000多字，加上没解决问题，不想过多记录过程了，怕得PTSD。

挑一个数据上遇到得问题，首先这个点子有点歪，找不到数据（也不知道怎么找），于是自己录，刚开始录了5分钟，才想起来输入和目标数据对齐的问题。用笨方法写个小工具一句一句录制，尽量保证小短句的对齐，录了69句作为最初数据集，测试整体的跑通。

偶然间想起来用大模型的数据训练小模型的方法，能不能找到现有质量高得语音模型，可以变换音色，将呼吸声转换为正常声音，用来给小模型训练？找了几个在线的AI变声测试效果都不是很好，可能是没人想到用呼吸声去做训练吧。最后想起用剪映剪视频有变声功能，测试下，居然比收费的一些变声做的还好，关键还免费。虽然呼吸声转换的结果一般，但是好歹可以录制严格对齐的数据了。

后边某一天又发现，录制时候麦克风默认开增益，导致实际测试数据偏差很大，之前数据（虽然只有10多分）全都作废重新统一标准录制……

整体上模型训练这里耗费了将近一个月的摸索，反复调整，有时候一个问题出现。因为不知道问题出在哪里，只能对比测试，经常改动一多、时间一长就忘记改了啥，非常纠结。而且训练这个玩意，还不能单独看某一个参数的影响，调整某一部分，可能其他都需要对应调整，找到相对较好的那么一个“组合”。

最终结果非常拉跨，尤其是实时输入的处理，延迟0.5s都不算什么问题，转换的效果也是很差，输出结果自己能听懂对应上自己说的啥，但是别人是听不清转换后的音频，而且效果时好时坏。

自己总结一些想法，也算是当作进步了：

1.重视数据的标准化方法。有一天突然想起改变标准化方式用对数后归一化，效果立马好了很多。

2.有一段时间测试输出的音频一直有很大噪音，后来才发现是输入数据log处理后，转回线性过程中引入了噪声，导致训练的目标中就包括了噪声。有时候问题可能不是模型的问题。再比如前面讲的麦克风自动音频增益得问题。

3.借助正则化技术，小的数据集也可以训练出像样的模型。

4.以前以为L1loss，L2loss是每批的均值，用了才知道默认是所有批次的均值

5.激活函数的选择根据自己输出目标的分布来决定，不同的激活函数，效果可能差别非常大。

6.训练中打印输出模型的梯度信息，学习率，可以提前观察到梯度爆炸梯度消失等信息。

7.优化器上Adam基本没错，RMSprop有时候效果也很好

8.数据集不够可以上数据增强，迅速增大数据集，还有一定正则化作用，用了以后验证集上损失明显下降。比如为了使模型不处理正常声音，将正常声音最为输入加入模型，用正常声音作为目标训练，模型还能够具备一定的区分能力，针对呼吸声进行转换。

9.tensorboard对比不同批次很方便，记录重要信息

10.git记录很有用，多在分支上修改，至少保存训练最好的结果分支。

11.涉及到训练参数的，尽量不要在代码中设置默认参数，否则中间环节一个默认，排查都不好排查。然后最好是统一管理，不然可能出现测试和训练用的不是一套数据这种低级错误。

搞这个晕乎了，估计将来会回头捡起来搞一搞吧，短时间内不想碰了。。。。
烂摊子：[github](github.com)

7 00

响亮的昵称吧

7月前

好久没玩游戏玩到半夜了，这个老游戏冰汽时代连玩两天停不下来，越玩越上瘾。
之前玩单机，一般周末玩一会就累了想歇一会，再怎么好玩也不会说停不下来，没想到这游戏让我回到年轻玩游戏那感觉了。有文明那一开一局就停不下来的味了。

2 00

响亮的昵称吧

7月前

现在广场刷动态，刷到基本都是好几天前的，本来还想回复的，一看日期很久，回复就感觉像贴吧挖坟，就没回复的兴趣了。
这个带动态时间是强制要求的吗？

0 00

响亮的昵称吧

7月前

最近感觉prompt又开始流行了，分享自己经常用的一个prompt,输入字幕即可得到双语的标题，描述，封面图建议等。

对于自媒体发视频应该有一点帮助

图一是claude-3.5-sonnet的效果，自认为效果不错，提的建议也比较中肯，如果文字很多需要注意上下文限制，要大于字幕字数+输出字数，最起码8K以上上下文。

以下是prompt：
# 角色
你是一个独具慧眼的Youtube推广运营专家。
你情诣良深于阅读和分析用户提供的字幕，从中捕捉并总结视频的关键要点。你参考youtube上热门视频的标题风格，根据视频内容创造出富有吸引力和贴切的中英文视频标题与描述。你还提供建设性的运营建议帮助视频更好的推广。

## 技能
### 技能 1: 提取视频重点
- 详读用户提供的字幕和时间轴。
- 精准把握和总结出视频的重点内容。

### 技能 2: 创造视频标题和描述
- 参考youtube上热门【旅行】和【生活】视频的标题风格。
- 根据视频内容和用户给出的关键字（如果有的话），生成吸引眼球且贴近视频主题的中文和英文标题。
- 用同样的策略创造出中文和英文的视频描述。

### 技能 3: 提供运营建议和封面图设计
- 根据视频内容的特点，给出中文的运营建议。
- 根据视频内容和已经创建的视频标题，设计出吸引观众的封面图。

## 输出文件：视频重点，中文标题，英文标题，中文描述，英文描述，运营建议，封面图设计建议，

## 约束条件
- 所有生成的内容，包括视频重点，视频标题，视频描述，运营建议，封面图设计等，都要符合用户提供字幕的内容。
- 若用户提供了关键字或标题或视频分类，要尊重用户的方向，按照用户的想法生成所有内容。
- 注意，生成的英文标题和描述需与中文版保持一致的主题和情感基调，以鼓励更广泛的观众群体观看。

2 01

响亮的昵称吧

8月前

阳光没贵，真不贵

2 00