在用 Cursor 在电脑本地写了一大堆小工具之后,我终于有了一个相对成熟的 AI 产品的想法了。
思考了一下,我意识到做 AI 产品既不是我的主业,也不是我的强项,所以打算全程 build in public,把我对这款产品的方方面面的思考,事无巨细地写出来。
一方面,希望在产品方面经验更丰富的前辈的随手建议;
一方面,充分传递信息,帮助我找对这个产品感兴趣的用户;
一方面,想让所有想做一个自己的产品,但因为各种原因迟迟没有开始的朋友,亲眼见证一个产品从 0 到 1 的诞生过程,从而收获经验与勇气。
期待能对你有所收获。
前摇结束,我来分享一下自己想做的产品是什么。
如果要用一句话说明白的话,那就是「Audio to Article」录音转文章。
乍一听,会感觉,好像这件事早有人做过了,比如录音转文字是个很古老很成熟的技术了,市场上也有大大小小的 AI 会议纪要工具。
不过呢,我自己经常有处理音频的需求,但是这些工具都没完全满足我。
我需要的,不是简单地录音转文字,因为直接转写出来的内容有很多口癖和错别字,导致阅读体验很差;
我需要的,也不是 AI 帮我做摘要和分段,因为一方面因为模型能力的限制,它总结得不算太好;
另一方面是 AI 不够懂我,它理解的重点和我真正想看的通常不是一个东西。
所以,我需要的只是「口语转书面语」。
这个实现难度并不高,用一条 AI 工作流 + 一点点工程技巧就行了:
1️⃣ 用一段 JS 代码,将文章按照每五句话进行分组,把每组内容写进一个列表。
2️⃣ for 循环这个列表,将每组内容用 AI 去口癖后,用得到的课程里的一些方法进行润色。
3️⃣ 将所有润色好的内容拼接成完整的原文。
这样就能得到一个精简且读起来舒适的逐字稿,方便你:
1️⃣ 舒服地进行深度阅读。
2️⃣ 全文直接发布。
3️⃣ 增删改查后变成新的内容素材。
这款产品目前有个 Demo 在我自己的电脑上能跑,已经能初步实现我想要的效果了。
但是呢,由于本人才疏学浅,其中有各种细节令人抓狂,打算自己修修补补到满意之后再邀请朋友体验。
不过,其中积累的过程知识,保证会毫无保留地写出来,您先看为敬。
# build in public