即刻App年轻人的同好社区
下载
App内打开
AI觉醒独立计划
83关注328被关注0夸夸
探索AI创新&搞钱项目,数字游民,超级个体之路!
AI觉醒独立计划
10天前
Lumina-T2X 分区域合成:强大且融合效果极佳
Lumina-T2X 是一款强大的图像生成模型,支持分区域合成,并且融合效果非常好。

主要特性:
分区域合成:支持对不同区域分别输入提示词,模型自动融合生成整体图像。
高分辨率支持:支持一键生成 2K 分辨率图像。
ComfyUI 插件:已经有 ComfyUI 插件,方便用户使用。
使用步骤:
安装 ComfyUI 插件:确保你已经安装了 Lumina-T2X 的 ComfyUI 插件。
分区域输入提示词:在 ComfyUI 中对不同区域分别输入提示词。
生成图像:点击生成按钮,Lumina-T2X 模型会自动融合各区域,生成高质量图像。

地址:github.com
00
AI觉醒独立计划
11天前
AI 工具 Hedra:让人物肖像直接说话唱歌
Hedra 是一款强大的 AI 工具,只需上传一张人物照片和任何类型的语音,即可让人物说话或唱歌。

主要特性:
高一致性:人物的一致性、唇形、表情和姿态表现非常出色。
简单操作:上传照片和语音,即可生成内容。
免费体验:目前可以免费体验,每 60 秒可生成 90 秒内容(视显存供应情况)。
使用步骤:
上传人物照片:选择你想让其说话或唱歌的人物照片。
上传语音文件:上传你希望人物说出的语音或歌曲文件。
生成视频:Hedra 会自动处理并生成带有口型同步的说话或唱歌视频。

体验地址:www.hedra.com
00
AI觉醒独立计划
13天前
苹果的 “备忘录数学计算器” 开源版来了!
在 WWDC 2024 大会上,苹果展示了在 iPad 上通过键入或手写数学表达式,并利用 AI 立即呈现解答结果的功能。

开源项目推荐:AI Math Notes
在 GitHub 上,一位开发者发布了开源项目 “AI Math Notes”,完美实现了类似的功能。

主要特性:
交互式绘图应用:使用 Python 语言开发。
绘制数学方程:允许你在画布上绘制数学方程。
多模态 LLM:利用多模态大语言模型来计算并在旁边显示结果。

GitHub 项目地址: github.com
16
AI觉醒独立计划
14天前
众所周知,OpenAI 开源的 Whisper 语音转文本模型效果颇好。

Whisper Web 允许你直接在浏览器中运行和使用 Whisper 模型。

主要特性:
无需后端服务器:基于 ML 进行语音识别,通过 WebGPU 进行运行加速,直接开箱即用。
多文件格式导出:识别到的文本支持导出为 TXT 和 JSON 文件格式。

GitHub 项目地址:github.com

在线体验:huggingface.co
426
AI觉醒独立计划
17天前
Suno AI 正式推出声音生成音乐功能
Suno AI 推出了全新功能,根据声音生成音乐,为音乐创作带来了全新的可能性。

亮点功能:
声音生成音乐:用户哼唱一段音调,Suno 即可接着完成音乐创作。
高效创作:提升音乐创作效率,让音乐制作更加轻松。
使用说明:
目前仅限付费用户:该功能目前仅向付费用户开放。
官网链接:suno.com
02
AI觉醒独立计划
18天前
吴恩达老师开源了一套 AI Agent 翻译工作流 Translation Agent。

工作流主要分三个步骤:

1. 通过指定大语言模型(LLM)进行语言之间的翻译;
2. 对翻译结果进行反思,并提出改进建议;
3. 再根据这些建议进行优化翻译。

另外,这也是高度可控的翻译工作流,你只需通过修改提示词,就可以指定语气(正式或非正式)、地区等,还可以提供专业术语表来确保术语翻译的一致性。

GitHub:GitHub - andrewyng/translation-agent

经他们的测试,该工作流翻译质量甚至可以媲美领先的商业翻译工具。
757
AI觉醒独立计划
20天前
阿里发布 LLM 自动对齐方案论文
阿里巴巴近期发布了一篇详细介绍大语言模型(LLM)自动对齐方案的论文,解决了构建符合人类需求的大语言模型的关键问题。

论文亮点:
自动化对齐问题:研究大语言模型自动化对齐的核心问题,是构建符合人类需求的 LLM 的重要一步。
全面概述:论文全面概述了大语言模型自动对齐的主要技术路径。
高效对齐:旨在以最少的人工干预,构建高质量、可扩展的对齐系统,满足人类需求。
主要内容:
技术路径:详细介绍了 LLM 自动对齐的主要技术路径,涵盖模型训练、数据处理和对齐算法等方面。
案例分析:通过实际案例展示了自动对齐技术在不同场景中的应用效果。
未来发展:探讨了自动对齐技术的未来发展方向和应用前景。
00
AI觉醒独立计划
24天前
王炸级别的文本转语音(TTS)模型——Seed-TTS
字节跳动推出的 Seed-TTS,能够生成几乎无法与人类语音区分的自然声音。

主要特性:
高度逼真:生成自然、逼真的语音。
无需训练:无需额外训练即可生成自然语音。
多样化表现:理解语音上下文,生成带有情感和表现力的语音。
多语种支持:适用于视频博主等需要多语种支持的场景。

应用场景:
小说推文:生成带有情感的生动语音。
视频博主:轻松更换视频语音,支持多语种。

项目介绍及演示:
bytedancespeech.github.io

GitHub 项目地址:github.com
2075
AI觉醒独立计划
25天前
推荐一款新的视频下载神器——Cobalt!

主要特性:
开源免费:无广告,完全免费使用。
多平台支持:支持 B站、YouTube、Instagram、TikTok 和 Twitter 视频下载。
GitHub 项目地址:github.com

在线体验:cobalt.tools
使用指南:
访问在线体验网站:直接进入 Cobalt 在线体验网站。
输入视频链接:在网站上输入你想下载的视频链接。
选择下载选项:选择下载格式和质量,点击下载按钮即可。

总结:
Cobalt 是一个强大的视频下载工具,开源免费且无广告,支持多种主流视频平台。无需部署,直接通过在线体验网站即可使用,非常适合小白用户。
00
AI觉醒独立计划
27天前
NVIDIA 发布全套数字人微服务,为 AI 数字人的未来铺平道路!
NVIDIA 宣布全面推出 NVIDIA ACE 生成式 AI 微服务,推动下一代数字人类的发展,带来新的生成式 AI 突破。

传送门:nvidianews.nvidia.com

ACE 技术服务套件:
NVIDIA Riva:

用于自动语音识别 (ASR)、文本到语音 (TTS) 转换和机器翻译 (NMT)。
NVIDIA Nemotron 大语言模型:

用于语言理解和上下文响应生成。
NVIDIA Audio2Face:

基于音轨的逼真面部动画。
NVIDIA Omniverse RTX:

用于实时路径追踪的逼真皮肤和头发渲染。
NVIDIA Audio2Gesture:

用于生成基于音轨的身体姿势(即将推出)。
NVIDIA Nemotron-3 4.5B:

一种新的小型语言模型 (SLM),专为低延迟的 RTX AI 个人电脑设备推理而设计。
核心优势:
通过整套 ACE 技术服务,可以实现自然语言理解、数字人语音生成、面部和身体动画,同时做到低延迟实时交互,提供沉浸式的数字人体验。该服务可以灵活部署在云端或者本地。

应用场景:
AI 数字人客服:提升客户服务体验。
游戏 NPC:增强游戏中的互动性和现实感。
远程医疗:提供更自然的患者互动。
展望未来:
正如 NVIDIA CEO 黄仁勋所说:“数字人将彻底改变各行各业。” 率先采用该技术的行业已经在改变世界,我们离全面进入 AI 数字人世界的未来越来越近!
00