即刻App年轻人的同好社区
下载
App内打开
XiaoGang.XYZ
71关注42被关注0夸夸
XiaoGang.XYZ
9月前
HeyGem真的可以说是目前效果最好的开源数字人解决方案。
这个视频的流程是使用Flux模型生成了人物和背景的图片,人物用即梦的大师对口型生成了口播初始视频,主要是HeyGem不支持图片,只能用口播素材进行训练。
使用腾讯元宝生成口播文案,用开源的Spark-TTS把文案生成语音,发现长音频中每段的开头Spark-TTS会出现无关语下次再留意下。
用可灵把背景图生成背景视频,Suno生成背景音乐,剪映把人物抠像合成。
这个方案的优势是自由定制高清数字人,长口播视频省钱~
HeyGem缺点也不少,只能使用正面人脸视频,有点侧脸都不行,视频中右脸部分就比较明显的虚影,另外卡通人物兼容性也比较差。
02:40
01
XiaoGang.XYZ
9月前
尝试用非人物形象在即梦对口型大师模式,看上去效果确实还不错,估计只要有人形的嘴和眼就能识别开口说话。

Manus与阿里通义千问达成战略合作
双方将基于通义千问系列开源模型,致力于在国产模型和算力平台上实现Manus的全部功能。目前两家技术团队已展开紧密协作,共同致力于为中国用户打造更具创造力的通用智能体产品。我们期待通过此次合作,尽快将Manus的创新体验带给广大中文用户。

DeepSeek官方辟谣R2模型发布传闻
DeepSeek官方于3月11日明确否认“3月17日发布R2模型”传闻,称消息不实,具体发布日期和技术细节仍未公布。此前路透社报道称DeepSeek可能将R2发布时间从5月提前至3月,但官方表示仍在加速开发中。

阿里巴巴AI搜索引擎Accio助力全球贸易智能化
阿里巴巴AI搜索引擎Accio用户突破百万,通过新增深度研究、商业探索等AI功能,为全球中小企业提供智能贸易支持。
• 基于DeepSeek等先进推理模型,帮助中小企业分析市场趋势、优化采购策略,日均处理超500万次查询。
• 支持多轮对话理解模糊需求,如用“适合热带气候的轻便建材”等口语化描述精准匹配商品。
• 为每款商品生成含专业建议、使用场景的维基式页面,降低信息理解门槛。
网址:www.accio.com

网易有道推出14B小参数翻译大模型
网易有道基于自研子曰2.0大模型推出14B小参数翻译模型,在保持专业水准的同时降低60%计算资源消耗,现已全面上线软件及词典笔等硬件。
• 模型体积缩小但性能更强,训练资源消耗仅为通用大模型的36%,响应速度提升3.2倍,支持离线环境使用
• 独创"大模型蒸馏+在线偏好优化"技术,解决传统AI翻译的术语混乱、句式僵硬等问题
00:10
00
XiaoGang.XYZ
10月前
2025年3月4日 AI日报

# 今日封面所用Lora:糖果色幻想风格插画
www.liblib.art

# 智谱发布 CogView-4
智谱AI开源中文绘图神器CogView-4,输入一句话即可生成带汉字的海报/插画,免费商用且低门槛上手。
• 支持中英双语提示词输入,擅长理解和遵循中文提示词
• 支持生成任意宽高的图片以及任意长度提示词输入
项目地址:github.com
在线试用:huggingface.co

# 设计新玩法
歸藏大佬分享了Claude 3.7 写完的网页直接就能转成设计稿的方法:
1、先用 Claude 3.7 生成前端页面
2、把网页上传托管到yourware,获得url链接
3、用 html.to.design Figma 插件转成设计稿

网页托管:www.yourware.so
Figma 插件:www.figma.com

# 混元图生视频(I2V)模型即将发布
混元图生视频(I2V)模型计划于2025年3月6日16点发布。混元图生视频模型基于时空压缩的潜在空间训练技术,采用Causal3D-VAE和Transformer架构,支持从静态图像生成动态视频。据官方信息,该模型在生成速度、画面流畅度及物理规律还原等方面均有显著提升。

# google 推出 Data Science Agent
这是一款集成在Google Colab平台中的AI驱动数据分析工具,旨在降低数据科学门槛并提升效率。
• 直接内置于免费的云端Jupyter Notebook环境Google Colab,用户无需安装软件或配置环境,即可在浏览器中运行Python代码,并免费调用Google Cloud的GPU/TPU资源。
• 基于谷歌最新大语言模型Gemini 2.0,支持自然语言指令解析,自动完成从数据加载到模型训练的完整流程。
网址:labs.google.com

# Anthropic 完成35亿美元的E轮融资
Anthropic宣布完成35亿美元的E轮融资,投后估值达615亿美元,成为全球估值最高的人工智能初创公司之一。
资金将用于下一代AI系统研发、提升计算基础设施、深化AI机制可解释性(如模型决策透明化)与对齐性(确保AI符合人类价值观)研究,并加速亚洲和欧洲市场的国际扩张。

# Spotify 推出 AI 音乐创作工具
Spotify近期推出的AI音乐创作工具标志着音乐流媒体服务从“被动消费”向“主动创作”的重大转型。
新工具"Music Pro"允许用户对歌曲进行多维度个性化改编,包括:
- 节奏调校:通过音频信号处理技术调整歌曲速度,适配运动、冥想等场景需求
- 风格重构:运用GAN生成对抗网络将流行歌曲转化为爵士、古典等不同风格
- 人声替换:基于声纹克隆技术更换演唱者声线,例如将男声改编为女声版本
- 互动娱乐:支持用户生成内容(UGC)的社交传播,形成“创作-分享-再创作”的闭环

# 雷军2025两会建议:聚焦人工智能终端与AI换脸拟声治理
雷军两会中除了提出推动人工智能终端产业高质量发展外,还建议针对“AI换脸拟声”技术滥用引发的肖像权侵犯、诈骗等问题,建议探索人工智能单行法,提高立法位阶,明确技术应用的“红线”范围,完善侵权证据规则,并加大对犯罪行为的刑事处罚力度。
雷总确实是受伤最深的人~
00
XiaoGang.XYZ
10月前
2025年2月18日 AI日报 马斯克Grok3正式发布 阶跃星辰开源Step-Audio 昆仑万维开源SkyReels-V1
今天的大新闻无疑是马斯克的Grok3,看推上貌似还算可以,40刀的订阅才能用到,可以在X上订阅。得益于DeepSeek的开源,最近国内公司开源了不少模型,包括阶跃星辰的文生视频大模型Step-Video-T2V、语音交互大模型Step-Audio(看上去类似豆包的语音功能),昆仑万维的视频生成模型 SkyReels-V1,是在混元的基础上训练的,算是补齐了混元的图生视频。SkyReels发布后接着K佬就完成了ComfyUI的节点更新,不过看up主的视频我现在是不太想尝试部署,还是等子弹再飞一会。
00
XiaoGang.XYZ
10月前
2025年2月17日 精选AI日报
00
XiaoGang.XYZ
10月前
2025-02-16 AI日报 今天刚开始整理,发现总结也没那么容易~
20
XiaoGang.XYZ
2年前
【【维权快讯】AI画出奥特曼?侵犯复制权、改编权!-哔哩哔哩】 b23.tv
10
XiaoGang.XYZ
2年前
连明星都下场玩 AI 了,说明 AI 行了?具有更广泛的群众基础了?但是看这粉丝量又感觉好像还不太行😂
10
XiaoGang.XYZ
2年前
新年快乐🎉
00
XiaoGang.XYZ
2年前
GPTs 文字互动游戏《Aetharion》宣传片
专门给配了个网址😁
Aetharion.com

脚本&图片:ChatGPT+DALL·E 3
图片到视频:Runway Gen-2
解说音频:Speech Studio
背景音乐:Stable Audio
Logo:Ideogram
合成:剪映
01:12
02