XiaoGang.XYZ的个人主页

即刻App年轻人的同好社区

下载

XiaoGang.XYZ

71关注45被关注0夸夸

XiaoGang.XYZ

1年前

HeyGem真的可以说是目前效果最好的开源数字人解决方案。
这个视频的流程是使用Flux模型生成了人物和背景的图片，人物用即梦的大师对口型生成了口播初始视频，主要是HeyGem不支持图片，只能用口播素材进行训练。
使用腾讯元宝生成口播文案，用开源的Spark-TTS把文案生成语音，发现长音频中每段的开头Spark-TTS会出现无关语下次再留意下。
用可灵把背景图生成背景视频，Suno生成背景音乐，剪映把人物抠像合成。
这个方案的优势是自由定制高清数字人，长口播视频省钱~
HeyGem缺点也不少，只能使用正面人脸视频，有点侧脸都不行，视频中右脸部分就比较明显的虚影，另外卡通人物兼容性也比较差。

02:40

4 01

XiaoGang.XYZ

1年前

尝试用非人物形象在即梦对口型大师模式，看上去效果确实还不错，估计只要有人形的嘴和眼就能识别开口说话。

Manus与阿里通义千问达成战略合作
双方将基于通义千问系列开源模型，致力于在国产模型和算力平台上实现Manus的全部功能。目前两家技术团队已展开紧密协作，共同致力于为中国用户打造更具创造力的通用智能体产品。我们期待通过此次合作，尽快将Manus的创新体验带给广大中文用户。

DeepSeek官方辟谣R2模型发布传闻
DeepSeek官方于3月11日明确否认“3月17日发布R2模型”传闻，称消息不实，具体发布日期和技术细节仍未公布。此前路透社报道称DeepSeek可能将R2发布时间从5月提前至3月，但官方表示仍在加速开发中。

阿里巴巴AI搜索引擎Accio助力全球贸易智能化
阿里巴巴AI搜索引擎Accio用户突破百万，通过新增深度研究、商业探索等AI功能，为全球中小企业提供智能贸易支持。
• 基于DeepSeek等先进推理模型，帮助中小企业分析市场趋势、优化采购策略，日均处理超500万次查询。
• 支持多轮对话理解模糊需求，如用“适合热带气候的轻便建材”等口语化描述精准匹配商品。
• 为每款商品生成含专业建议、使用场景的维基式页面，降低信息理解门槛。
网址：www.accio.com

网易有道推出14B小参数翻译大模型
网易有道基于自研子曰2.0大模型推出14B小参数翻译模型，在保持专业水准的同时降低60%计算资源消耗，现已全面上线软件及词典笔等硬件。
• 模型体积缩小但性能更强，训练资源消耗仅为通用大模型的36%，响应速度提升3.2倍，支持离线环境使用
• 独创"大模型蒸馏+在线偏好优化"技术，解决传统AI翻译的术语混乱、句式僵硬等问题

00:10

0 00

XiaoGang.XYZ

1年前

2025年3月4日 AI日报

# 今日封面所用Lora:糖果色幻想风格插画
www.liblib.art

# 智谱发布 CogView-4
智谱AI开源中文绘图神器CogView-4，输入一句话即可生成带汉字的海报/插画，免费商用且低门槛上手。
• 支持中英双语提示词输入，擅长理解和遵循中文提示词
• 支持生成任意宽高的图片以及任意长度提示词输入
项目地址：github.com
在线试用：huggingface.co

# 设计新玩法
歸藏大佬分享了Claude 3.7 写完的网页直接就能转成设计稿的方法：
1、先用 Claude 3.7 生成前端页面
2、把网页上传托管到yourware，获得url链接
3、用 html.to.design Figma 插件转成设计稿

网页托管：www.yourware.so
Figma 插件：www.figma.com

# 混元图生视频（I2V）模型即将发布
混元图生视频（I2V）模型计划于2025年3月6日16点发布。混元图生视频模型基于时空压缩的潜在空间训练技术，采用Causal3D-VAE和Transformer架构，支持从静态图像生成动态视频。据官方信息，该模型在生成速度、画面流畅度及物理规律还原等方面均有显著提升。

# google 推出 Data Science Agent
这是一款集成在Google Colab平台中的AI驱动数据分析工具，旨在降低数据科学门槛并提升效率。
• 直接内置于免费的云端Jupyter Notebook环境Google Colab，用户无需安装软件或配置环境，即可在浏览器中运行Python代码，并免费调用Google Cloud的GPU/TPU资源。
• 基于谷歌最新大语言模型Gemini 2.0，支持自然语言指令解析，自动完成从数据加载到模型训练的完整流程。
网址：labs.google.com

# Anthropic 完成35亿美元的E轮融资
Anthropic宣布完成35亿美元的E轮融资，投后估值达615亿美元，成为全球估值最高的人工智能初创公司之一。
资金将用于下一代AI系统研发、提升计算基础设施、深化AI机制可解释性（如模型决策透明化）与对齐性（确保AI符合人类价值观）研究，并加速亚洲和欧洲市场的国际扩张。

# Spotify 推出 AI 音乐创作工具
Spotify近期推出的AI音乐创作工具标志着音乐流媒体服务从“被动消费”向“主动创作”的重大转型。
新工具"Music Pro"允许用户对歌曲进行多维度个性化改编，包括：
- 节奏调校：通过音频信号处理技术调整歌曲速度，适配运动、冥想等场景需求
- 风格重构：运用GAN生成对抗网络将流行歌曲转化为爵士、古典等不同风格
- 人声替换：基于声纹克隆技术更换演唱者声线，例如将男声改编为女声版本
- 互动娱乐：支持用户生成内容（UGC）的社交传播，形成“创作-分享-再创作”的闭环

# 雷军2025两会建议：聚焦人工智能终端与AI换脸拟声治理
雷军两会中除了提出推动人工智能终端产业高质量发展外，还建议针对“AI换脸拟声”技术滥用引发的肖像权侵犯、诈骗等问题，建议探索人工智能单行法，提高立法位阶，明确技术应用的“红线”范围，完善侵权证据规则，并加大对犯罪行为的刑事处罚力度。
雷总确实是受伤最深的人~

0 00

XiaoGang.XYZ

1年前

2025年2月18日 AI日报马斯克Grok3正式发布阶跃星辰开源Step-Audio 昆仑万维开源SkyReels-V1
今天的大新闻无疑是马斯克的Grok3，看推上貌似还算可以，40刀的订阅才能用到，可以在X上订阅。得益于DeepSeek的开源，最近国内公司开源了不少模型，包括阶跃星辰的文生视频大模型Step-Video-T2V、语音交互大模型Step-Audio（看上去类似豆包的语音功能），昆仑万维的视频生成模型 SkyReels-V1，是在混元的基础上训练的，算是补齐了混元的图生视频。SkyReels发布后接着K佬就完成了ComfyUI的节点更新，不过看up主的视频我现在是不太想尝试部署，还是等子弹再飞一会。