即刻App年轻人的同好社区
下载
App内打开
歸藏
558关注20k被关注42夸夸
产品设计师、模型设计师、 不会代码的独立开发者。
关注人工智能、LLM 、 Stable Diffusion 和设计。
置顶
歸藏
2年前
很多朋友最近老问我一些我之前写过的东西在哪里,所以整理了一下写个置顶贴,内容会定期更新:

1️⃣ 我运营的 AIGC 周刊每周一更新,主要内容是上周 AI 领域的重点动态解析以及相关的产品和文章:
op7418.zhubai.love

2⃣️ 我的Midjourney作品汇总和对应的提示词:
walling.app

3⃣️ 我开发的一些产品

帮你将 Midjourney 的图片和提示词快速收集到你的 Notion 数据库中:
mp.weixin.qq.com

帮你自动分段翻译 Midjoureny 官网的提示词:
mp.weixin.qq.com

利用 ChatGPT 自动监控对应领域的信息并处理和发送到Discord 频道:
op7418.zhubai.loveposts/2251721691841511424

4⃣️ 我写的一些教程

AI 歌手系列课程教你使用和训练自己的 AI 歌手模型:
mp.weixin.qq.com
mp.weixin.qq.com

Stable Diffusion 保姆级入门教程包括 Web UI 的部署和 LoRA 模型的使用:
op7418.zhubai.loveposts/2238998671356555264
op7418.zhubai.loveposts/2239983151969951744

Stable Diffusion 模型大神工作流解析:
mp.weixin.qq.com
web.okjike.com

教你十几分钟不用代码创建自己的AI应用
mp.weixin.qq.com
22165
歸藏
1天前
发现 Minimax 更新了 Speech-02 音频模型

试了一下现在咋这么强!

训的我自己的语音模型我已经分不出来了

你现在拿一段我的音频问我是不是我说的,我都迷糊

👇下面是详细的测试内容:mp.weixin.qq.com

Speech-02 在Artificial Analysis 的 ELO 评价榜单上吊打 Open AI 和 ElevenLabs 一众海外音频模型。

基本上霸榜了。Hugging Face上,不出意外,也是第一名的成绩。

Speech-02 依旧延续了 01 的传统优势,有丰富的预设音色选择,同时每个音色还有丰富的情感选项,基本上这些已有的音色+情感+其他选项调节能够搞出大部分需要的人设和音色。

我这里整了个小活,找了一个小说中的对话,做了一个类似游戏的小场景,可以看到还是调整出来的还是非常符合人设的,比如 17 岁来应聘男公关的声音和 KTV 故作深沉准备压价的面试官。

之后是 Speech-02 最基本的准确率问题

大家听过 AI 语音的都知道,生僻字读音和多音字读音是非常难得事情,有的时候 AI 读错了真的很出戏。
我这次直接给了一个终极难题,搞了一段连贯的,但是包含非常多生僻字和多音字的内容,真的里面很多字我都得查拼音。
没想到 Speech-02 这次居然一个字都没错,太强了,你可以跟着下面的音频听一下。

这代模型语言多样性也变强了

支持30多个语种;单语种的情绪、音色多样性表现在 01 版本的时候已经很强了,这里整个高难度的多语言混合文案。
里面主体是中文,包含了英语、西班牙语、日语、法语、俄语、德语,文案让 o3 生成的,非常离谱。
没想到 Speech-02 居然生成的还不错,虽然偶尔一两个读音不够特别标准,但已经强的没边了,让人在没准备的情况下读估计能搞定的没几个。

Speech-02 的老牌强势能力 声音参考

我这里上传了我自己的一段语音做了个自己的声音模型,然后找了一段自己之前的其他录音,转成文字之后让 Speech-02 生成了一下,做了个对比。
我找我周围的同事听了一遍,他们没有一个可以听出这是生成的声音,他甚至学到了我的说话停顿节奏和口癖,还有语气词,非常邪门。
下面是两段话的对比,你随便拿出生成的来问我,我要是不记得的话,自己都够呛能分清是不是我说的。

前面看技术报告的时候发现,现在 Speech-02 声音和语言是解耦的,也就是说可以用经过声音参考后的模型去生成别的语种的音频。
这里我随便找了一段英文推特文案让自己的模型读了一下,哈哈,真的有我自己读英语的那个味道,停顿节奏、语气也都能对上,这下是不是录视频的时候可以用字幕转英文视频内容了。

上面就是这次测试的全部内容了,期待那个通过提示词自定义音色的功能早日全量上线,感觉应用场景非常广泛。
音频内容生成一直是AI领域中较被低估的一环,但实际上它的重要性不可忽视。在日常生活中,我们有相当多的时间只能通过听觉来获取信息;而在视频创作中,高质量的音频同样是决定内容质量的关键因素。
MiniMax敏锐地抓住了这一市场需求,通过持续迭代已经在技术表现上超越了ElevenLabs和OpenAI等国际平台。
03:05
517
歸藏
1天前
老马又打钱了

一个月 300 美元,再涨涨够交基础的社保了
91
歸藏
1天前
买了 Mengto 的这个产品 Aura,尝试了一下他这个可视化提示词的逻辑,怎么说呢谨慎购买

我只能说想法很好,实现出来,就不那么美好了

跟我想的是一样的,AI 并不能理解这些提示词

只有 Tailwind class 的相关属性可以正常映射

Gemini 效果更差,Cluade 勉强能完成,可以跟藏师傅的提示词效果对比一下

另外整个软件各种 bug:
- 最严重的是买了 Pro 会员无法使用应该能用的 Gemini 模型(他应该用的免费的多账号轮训然后付费卖给你)
- 是输入框非英文内容输入会跳字丢字
- 网页预览窗口固定,无法调整大小和位置
- 左侧聊天记录列表随机出现重复的同名记录
21
歸藏
1天前
🚨 前几天申请过 Lovart AI 的都看一下收件箱

应该都发放了使用资格
132
歸藏
1天前
浏览器公司 CEO 终于开始宣传 Dia 浏览器了,介绍了一些他们在构建 Dia 浏览器时的思考

非常有价值,建议看看,我总结了一下:

背景与初衷:

这次分享的目的希望以“公开构建”的方式,让感兴趣的人了解产品的成长过程。
团队花了很长时间打磨 Dia 的愿景,如今各个拼图逐渐拼合,准备重新开始对外分享。

测试反馈与自我反思:

聊天其实是很好的界面:他原本认为“聊天”只是个噱头,但实际测试发现,聊天式交互非常适合 AI 浏览器。
传统的电脑使用模型并不理想:他们原先设想的电脑使用方式并没有预期中好,说明需要新的交互范式。
“记忆”功能非常难做对:如何让 AI 记住用户的上下文和历史,是个极具挑战的问题。

“上下文”是核心突破:

Josh 强调,经过测试后,团队发现他们做对了一件大事——上下文(Context)。
他引用了 OpenAI Michelle Pokrass 的话:“AI 最大的瓶颈不是模型能力,而是如何获取足够相关的上下文。”
Josh 认为,AI 的真正价值在于理解和利用用户的上下文,但目前在应用中获取上下文非常繁琐。

浏览器即上下文:

他进一步解释说,现代浏览器其实就是用户的上下文:
标签页反映了我们的工作、学习、项目、问题和正在写的文档。
Dia 的创新点在于自动获取这些上下文,无需用户手动复制粘贴或设置,AI 就能“知道”你在做什么。

深度集成与技术突破:

Josh 还透露,Dia 内置了一些“秘密集成”,可以深度嵌入到网页应用中(这只有在浏览器层才能做到,因为没有公开 API)。
这意味着 Dia 能够获取到人类用户和其他应用无法直接看到的信息,从而为 AI 提供更完整的上下文。例如,YouTube 集成可以让 AI 直接理解视频内容,而不仅仅是截图或表面信息。

来源:x.com/joshm/status/1922639507033149597
26
歸藏
1天前
Anthropic 的新模型也要来了,6 月又要开始狂欢了

在未来几周推出新版Claude Sonnet和Claude Opus模型。

模型具备在思考与调用外部工具/应用程序/数据库之间自由切换的能力,通过动态交互寻找问题答案。

在代码生成场景中,模型会自动测试所编写代码。若发现错误,能暂停执行流程进行错误诊断并实时修正
18
歸藏
1天前
谷歌发布重磅研究 AlphaEvolve,结合 Gemini 和评估器自动发现和优化算法

谷歌用它提升了自己数据中心的运行效率,同时这个算法还在参与芯片设计、加速 Gemini 的训练

又左脚踩右脚了,Gemini 自己优化自己

AlphaEvolve的核心原理:

它首先利用谷歌自家的Gemini系列大语言模型(如Gemini Flash和Gemini Pro)生成大量不同的算法实现(即代码)。
这些代码会被自动评估器验证、运行和打分,确保其正确性和效率。
评估器会根据表现优异的代码,决定哪些方案被保留、变异或组合,进入下一轮“进化”。
这一过程不断迭代,最终产生高质量、创新性的算法。

主要应用与成果:

数据中心调度优化:AlphaEvolve为谷歌的数据中心调度系统(Borg)发现了一种高效的启发式算法,已实际部署一年多,平均提升了0.7%的全球算力利用率。

芯片设计协助: 在硬件设计领域,AlphaEvolve提出了Verilog代码的优化建议,帮助谷歌TPU(AI专用芯片)中的关键电路去除冗余,提升了芯片效率,并通过严格验证确保功能正确。

AI训练与推理加速: AlphaEvolve优化了AI模型训练中的矩阵乘法核心操作,使Gemini模型的训练时间缩短了1%。在GPU底层指令优化方面,AlphaEvolve为Transformer模型的FlashAttention内核带来了高达32.5%的加速。

数学与算法前沿突破: AlphaEvolve不仅能优化已知算法,还能提出全新解法。例如,它发现了一种4x4复数矩阵乘法的新算法,打破了自1969年以来的最佳记录。此外,在50多个数学难题中,AlphaEvolve在20%的案例中改进了已知最优解,包括著名的“亲吻数问题”(kissing number problem),在11维空间中找到了新的下界。

详细信息:deepmind.google
12
歸藏
1天前
AI 会议记录软件 Granola 2.0 推出一堆更新

包括:团队协作功能、智能文件夹、AI 聊天分析、模型选择、企业级浏览、Slack 集成等

另外还宣布了 4300 万美元的 B 轮融资,海外的这类产品是真的吃香

另外到现在这玩意还是只支持英文会议内容的转录
00:29
24
歸藏
1天前
吴恩达跟 Anthropic 官方合作的关于 MCP 的新课

- 了解 MCP 的内部工作原理
- 如何构建自己的服务器
- 如何在本地或远程将其连接到由 Claude 提供支持的应用程序。

课程地址:www.deeplearning.ai
024
歸藏
2天前
阿里开源Wan2.1-VACE,一体化视频创作和编辑模型

几乎能完成所有视频素材的编辑工作

包括参考视频生成 (R2V)、视频到视频编辑 (V2V) 和蒙版视频到视频编辑 (MV2V)

而且是用一整个模型完成的多种任务

模型下载:huggingface.co
01:06
216