即刻App
年轻人的同好社区
下载
App内打开
似乎没有意外
20
关注
3
被关注
0
夸夸
认清形势,放弃幻想
似乎没有意外
7月前
当你对“多尝试吧”四个字有了新的理解,你会看到不一样的世界。
0
0
0
似乎没有意外
7月前
歸藏: 发现 Minimax 更新了 Speech-02 音频模型 试了一下现在咋这么强! 训的我自己的语音模型我已经分不出来了 你现在拿一段我的音频问我是不是我说的,我都迷糊 👇下面是详细的测试内容:https://mp.weixin.qq.com/s/mwl0NiqFaf-j2k9yliTOiw Speech-02 在Artificial Analysis 的 ELO 评价榜单上吊打 Open AI 和 ElevenLabs 一众海外音频模型。 基本上霸榜了。Hugging Face上,不出意外,也是第一名的成绩。 Speech-02 依旧延续了 01 的传统优势,有丰富的预设音色选择,同时每个音色还有丰富的情感选项,基本上这些已有的音色+情感+其他选项调节能够搞出大部分需要的人设和音色。 我这里整了个小活,找了一个小说中的对话,做了一个类似游戏的小场景,可以看到还是调整出来的还是非常符合人设的,比如 17 岁来应聘男公关的声音和 KTV 故作深沉准备压价的面试官。 之后是 Speech-02 最基本的准确率问题 大家听过 AI 语音的都知道,生僻字读音和多音字读音是非常难得事情,有的时候 AI 读错了真的很出戏。 我这次直接给了一个终极难题,搞了一段连贯的,但是包含非常多生僻字和多音字的内容,真的里面很多字我都得查拼音。 没想到 Speech-02 这次居然一个字都没错,太强了,你可以跟着下面的音频听一下。 这代模型语言多样性也变强了 支持30多个语种;单语种的情绪、音色多样性表现在 01 版本的时候已经很强了,这里整个高难度的多语言混合文案。 里面主体是中文,包含了英语、西班牙语、日语、法语、俄语、德语,文案让 o3 生成的,非常离谱。 没想到 Speech-02 居然生成的还不错,虽然偶尔一两个读音不够特别标准,但已经强的没边了,让人在没准备的情况下读估计能搞定的没几个。 Speech-02 的老牌强势能力 声音参考 我这里上传了我自己的一段语音做了个自己的声音模型,然后找了一段自己之前的其他录音,转成文字之后让 Speech-02 生成了一下,做了个对比。 我找我周围的同事听了一遍,他们没有一个可以听出这是生成的声音,他甚至学到了我的说话停顿节奏和口癖,还有语气词,非常邪门。 下面是两段话的对比,你随便拿出生成的来问我,我要是不记得的话,自己都够呛能分清是不是我说的。 前面看技术报告的时候发现,现在 Speech-02 声音和语言是解耦的,也就是说可以用经过声音参考后的模型去生成别的语种的音频。 这里我随便找了一段英文推特文案让自己的模型读了一下,哈哈,真的有我自己读英语的那个味道,停顿节奏、语气也都能对上,这下是不是录视频的时候可以用字幕转英文视频内容了。 上面就是这次测试的全部内容了,期待那个通过提示词自定义音色的功能早日全量上线,感觉应用场景非常广泛。 音频内容生成一直是AI领域中较被低估的一环,但实际上它的重要性不可忽视。在日常生活中,我们有相当多的时间只能通过听觉来获取信息;而在视频创作中,高质量的音频同样是决定内容质量的关键因素。 MiniMax敏锐地抓住了这一市场需求,通过持续迭代已经在技术表现上超越了ElevenLabs和OpenAI等国际平台。
0
0
0
似乎没有意外
8月前
康斯坦丁师傅: 虽然已经知道gpt4o很强了,但看到这个新玩法还是会被震惊到…提示词如p2所示,可以生成真实感很强的iphone自拍照,经网友测试,各种名人的都能生成,包括在世的和已故的… 这里使用的是浏览器插件deepsider,很方便,安装之后每天都有免费生成4o画图的条数,还支持gpt4.1,gemini,claude,这些模型。
0
0
0
似乎没有意外
8月前
Bullepop: MNN是阿里巴巴旗下开源的一个轻量级的深度神经网络引擎,目前在多个客户端都有软件支持,我这个视频演示的就是安卓手机端的展示效果,它使用的是本地的数据集和手机自己的CPU算力实现的模型推理,可以看到我是在飞行模式下演示的。 项目地址:https://github.com/alibaba/MNN
0
0
0
似乎没有意外
8月前
北峰新思维: 分享2个AI提示词网站,利用的好很有价值! 1️⃣ StockCake:https://stockcake.com 这个网站都是AI生成的图片,分类清楚还能搜索 (p1)。看不懂英文装个沉浸式翻译插件就行。每张图下面都带了原始提示词,直接能复制。 拿这些词去即梦、豆包跑图做小红书壁纸号、头像号都很不错。另外,这些好用的提示词本身就能当内容,直接发笔记或者去闲鱼做引流钩子,吸引精准粉,玩法很多。 2️⃣ GPT-4o 提示词精选: https://github.com/jamez-bondos/awesome-gpt4o-images 这里搜集了不少 X(推特)上大佬们分享的 GPT-4o 提示词,而且还在持续更新。最近大家最近看到很多4o生图的玩法都可以在这里找到。 用好这些工具很重要,但我想结合自己踩过的一些坑,给刚加入可能还在摸索AI工具的圈友们提个醒,特别是关于工具选择: 有些刚做副业的朋友可能对 AI 工具还有点懵,或者觉得像 ChatGPT 这些有点难上手。说实在的,今年以来像豆包、即梦这类国产AI工具已经非常给力,对于咱们大部分业务场景来说,尤其是 0 到 1 启动阶段,是真够用了,轻松满足90%的需求。关键在于不要过度追逐最新最热的工具,容易陷入信息焦虑。先把手头的工具用熟练,快速把一个项目或玩法从0到1跑起来最重要!等做出结果了,再考虑迭代工具也不迟。 再分享点具体的实操小贴士,豆包用的其实就是即梦3.0那个模型,关键它免费而且出图很快(见图P3)。我个人感觉它出的图效果甚至比即梦官网还好点(也许是豆包特别调教过或者官网有保留?猜的哈)。缺点就是生成的图清晰度一般,可以试着在提示词里加点超高细节、8K分辨率之类的词改善一下。保存图片的话,用即梦App点分享到抖音就会自动无水印保存到手机,豆包目前主要就靠截图了。大家可以按自己需求选着用。 OK,就分享这些,希望能给正在琢磨怎么用 AI 生图的大家一点启发或帮助。
0
0
0
似乎没有意外
9月前
2025年4月7号,退订了音乐软件vip,删除了手机里的音乐app。
0
0
0
似乎没有意外
9月前
为什么大家都知道自己是一个牛马,却还是一直甘心当一个牛马呢。
0
0
0
似乎没有意外
1年前
果然牛马都喜欢做一些不切实际的幻想,来从精神层面上慰藉一下自己劳碌的身体和疲惫的内心,但实际上不过是在工位上临近猝死前遥不可及的泡影罢了
0
0
0
似乎没有意外
2年前
听着歌码字真容易出戏。
码着码着随机播放到一些与情节完全不符的歌曲。
调动好的情绪一下子就没了。
本来挺严肃的事情总感觉有点搞笑。
0
0
0
似乎没有意外
4年前
朋友们,这张图怎么样,能PP吗🌝
14
8
0