即刻App年轻人的同好社区
下载
App内打开
响亮的昵称吧
51关注69被关注1夸夸
想开面包车环游世界。
之前床车自驾从广东到丹东沿陆地边境走了一圈。
减肥50斤,扇贝单词打卡678天(叉腰)
爱好主机游戏
目前自学AI中~
响亮的昵称吧
2天前
梦中有人说你闹钟要响了,一睁眼,刚好闹钟就响了
终于可以白嫖4o生图了,把我生成的很帅,我很满意🐶
00
响亮的昵称吧
20天前
原来国外这么倒酒也不礼貌。
之前在家里这么给别人倒饮料就被我爸点过。
20
响亮的昵称吧
3月前
用笔记本/电脑屏幕当灯光的用法~

上架了自己第一个chrome插件,screen light(图1,2)。

功能非常之简单,点击插件,弹出HSL选色器,选择喜欢的颜色,确定后,显示器会全屏显示纯色背景,当作夜灯/读书灯使用

最近回到老家,晚上躺床上刷手机的时候,开着房间灯(没有台灯)感觉太刺眼,而且睡着了也容易忘记关灯。

关灯呢,又感觉看手机光太刺眼,很费眼睛。

最开始是想翻出来之前用的usb小灯打个光,只能解决刺眼问题没法方便的解决定时关闭(除非配一个定时插座)

突然灵光一现,为什么不用显示器当背景光源呢?

用笔记本显示器当光源,第一亮度可调,第二可以设置定时关机/熄屏,第三,可以调节颜色,简直是最佳氛围灯候选(除了更耗电?激发亮度没有那么高?)

最简单的方法是找一张喜欢颜色的纯色图片,打开后全屏即可。或者找一个纯色背景网站,打开网页全屏放着即可。

找来找去,发现好像没有网站是只提供一张静态颜色背景什么内容都没有,于是就有了用chrome插件实现的想法。

把我的需求扔给GPT(图3),才发现实现非常简单(比我做之前想得简单多了)。

同样用GPT帮我生成图标的图片(图5),内容我很满意,但是后期用ps抠图和处理大小才能用。

然后又询问了上架相关流程(图4),参考着花了5刀注册了账号,上架了自己第一个插件~(这里问的claude大概的商家流程,具体执行是通过搜索引擎查询的帖子,因为人类写的内容会把中间的坑讲明白,讲的很细,AI回复一般需要遇到问题后询问才能被动给出方案)

整体过程,按照GPT要求,准备了各种文件到通过开发者加载实现我要的效果很快,10多分钟就够了。

如果没有AI帮助,我可能得至少完整阅读完chrome插件的入门文档结合相关代码知识才能做出来这个插件,考虑到学习新知识的心理惰性,我可能永远不会做出自己的chrome插件~

一个小工具,也是一个用AI降低自己执行阻碍的小案例。
00
响亮的昵称吧
4月前
又坚持了一年🐮
00
响亮的昵称吧
4月前
可爱小猫3连
00
响亮的昵称吧
6月前
记录一次失败的经历。

最近1个多月,忙活着训练一个小模型,效果上大失败,但是学到了一些东西。

本来想训练一个小模型,可以实时转换音频,类似变声器,可以准实时转化悄悄话的声音

这个想法是因为有一些人因为声带切除无法正常发声,只能发出悄悄话一样的声音(想想声带不震动用呼吸声说话),要么通过人工喉发声。想着用模型能不能解决这个问题(肯定能解决,只是我没解决😂)。后边又想到一个类似场景是,半夜玩游戏连麦,不想打扰别人用悄悄话转正常语音也可以。

由于自己认知不够,模型的训练过程全是问题,光是自己整体的记录(图),刚看了下,就5000多字,加上没解决问题,不想过多记录过程了,怕得PTSD。

挑一个数据上遇到得问题,首先这个点子有点歪,找不到数据(也不知道怎么找),于是自己录,刚开始录了5分钟,才想起来输入和目标数据对齐的问题。用笨方法写个小工具一句一句录制,尽量保证小短句的对齐,录了69句作为最初数据集,测试整体的跑通。

偶然间想起来用大模型的数据训练小模型的方法,能不能找到现有质量高得语音模型,可以变换音色,将呼吸声转换为正常声音,用来给小模型训练?找了几个在线的AI变声测试效果都不是很好,可能是没人想到用呼吸声去做训练吧。最后想起用剪映剪视频有变声功能,测试下,居然比收费的一些变声做的还好,关键还免费。虽然呼吸声转换的结果一般,但是好歹可以录制严格对齐的数据了。

后边某一天又发现,录制时候麦克风默认开增益,导致实际测试数据偏差很大,之前数据(虽然只有10多分)全都作废重新统一标准录制……

整体上模型训练这里耗费了将近一个月的摸索,反复调整,有时候一个问题出现。因为不知道问题出在哪里,只能对比测试,经常改动一多、时间一长就忘记改了啥,非常纠结。而且训练这个玩意,还不能单独看某一个参数的影响,调整某一部分,可能其他都需要对应调整,找到相对较好的那么一个“组合”。

最终结果非常拉跨,尤其是实时输入的处理,延迟0.5s都不算什么问题,转换的效果也是很差,输出结果自己能听懂对应上自己说的啥,但是别人是听不清转换后的音频,而且效果时好时坏。

自己总结一些想法,也算是当作进步了:

1.重视数据的标准化方法。有一天突然想起改变标准化方式用对数后归一化,效果立马好了很多。

2.有一段时间测试输出的音频一直有很大噪音,后来才发现是输入数据log处理后,转回线性过程中引入了噪声,导致训练的目标中就包括了噪声。有时候问题可能不是模型的问题。再比如前面讲的麦克风自动音频增益得问题。

3.借助正则化技术,小的数据集也可以训练出像样的模型。

4.以前以为L1loss,L2loss是每批的均值,用了才知道默认是所有批次的均值

5.激活函数的选择根据自己输出目标的分布来决定,不同的激活函数,效果可能差别非常大。

6.训练中打印输出模型的梯度信息,学习率,可以提前观察到梯度爆炸梯度消失等信息。

7.优化器上Adam基本没错,RMSprop有时候效果也很好

8.数据集不够可以上数据增强,迅速增大数据集,还有一定正则化作用,用了以后验证集上损失明显下降。比如为了使模型不处理正常声音,将正常声音最为输入加入模型,用正常声音作为目标训练,模型还能够具备一定的区分能力,针对呼吸声进行转换。

9.tensorboard对比不同批次很方便,记录重要信息

10.git记录很有用,多在分支上修改,至少保存训练最好的结果分支。

11.涉及到训练参数的,尽量不要在代码中设置默认参数,否则中间环节一个默认,排查都不好排查。然后最好是统一管理,不然可能出现测试和训练用的不是一套数据这种低级错误。

搞这个晕乎了,估计将来会回头捡起来搞一搞吧,短时间内不想碰了。。。。
烂摊子:[github](github.com)
00
响亮的昵称吧
7月前
好久没玩游戏玩到半夜了,这个老游戏冰汽时代连玩两天停不下来,越玩越上瘾。
之前玩单机,一般周末玩一会就累了想歇一会,再怎么好玩也不会说停不下来,没想到这游戏让我回到年轻玩游戏那感觉了。有文明那一开一局就停不下来的味了。
00
响亮的昵称吧
7月前
现在广场刷动态,刷到基本都是好几天前的,本来还想回复的,一看日期很久,回复就感觉像贴吧挖坟,就没回复的兴趣了。
这个带动态时间是强制要求的吗?
00
响亮的昵称吧
7月前
最近感觉prompt又开始流行了,分享自己经常用的一个prompt,输入字幕即可得到双语的标题,描述,封面图建议等。

对于自媒体发视频应该有一点帮助

图一是claude-3.5-sonnet的效果,自认为效果不错,提的建议也比较中肯,如果文字很多需要注意上下文限制,要大于字幕字数+输出字数,最起码8K以上上下文。

以下是prompt:
# 角色
你是一个独具慧眼的Youtube推广运营专家。
你情诣良深于阅读和分析用户提供的字幕,从中捕捉并总结视频的关键要点。你参考youtube上热门视频的标题风格,根据视频内容创造出富有吸引力和贴切的中英文视频标题与描述。你还提供建设性的运营建议帮助视频更好的推广。

## 技能
### 技能 1: 提取视频重点
- 详读用户提供的字幕和时间轴。
- 精准把握和总结出视频的重点内容。

### 技能 2: 创造视频标题和描述
- 参考youtube上热门【旅行】和【生活】视频的标题风格。
- 根据视频内容和用户给出的关键字(如果有的话),生成吸引眼球且贴近视频主题的中文和英文标题。
- 用同样的策略创造出中文和英文的视频描述。

### 技能 3: 提供运营建议和封面图设计
- 根据视频内容的特点,给出中文的运营建议。
- 根据视频内容和已经创建的视频标题,设计出吸引观众的封面图。

## 输出文件:视频重点,中文标题,英文标题,中文描述,英文描述,运营建议,封面图设计建议,

## 约束条件
- 所有生成的内容,包括视频重点,视频标题,视频描述,运营建议,封面图设计等,都要符合用户提供字幕的内容。
- 若用户提供了关键字或标题或视频分类,要尊重用户的方向,按照用户的想法生成所有内容。
- 注意,生成的英文标题和描述需与中文版保持一致的主题和情感基调,以鼓励更广泛的观众群体观看。
01
响亮的昵称吧
8月前
阳光没贵,真不贵
00