搞设计的花生仁的个人主页

即刻App年轻人的同好社区

下载

搞设计的花生仁

13关注204被关注0夸夸

✨分享 AI绘画、AI文本、AI 语音、AI视频、AI 3D 等工具和 AI 资讯
✨优设 120w+ 人气，AIGC 专栏作者

搞设计的花生仁

5月前

Anthropic 发布 Claude Opus 4.1，作为 Claude Opus 4 的升级版，它在智能体任务、编程实操和推理能力上实现了全面飞跃，上下文窗口达 200K。

编程性能亮眼，SWE-bench Verified 测试达 74.5%，深度研究与数据分析能力增强，细节追踪和智能体搜索表现突出。

GitHub、Rakuten Group 等机构好评，称其多文件重构、代码库精准修正等能力显著提升。

现已向付费 Claude 用户和 Claude Code 用户开放，也已在 API、Amazon Bedrock 和 Google Cloud 的 Vertex AI 上推出。价格与 Opus 4 相同。官方预告未来几周将有更大升级。

0 10

搞设计的花生仁

5月前

OpenAI 发布两个开源模型：gpt-oss-120b、gpt-oss-20b，是首个支持 FP4 的原生开源大模型，也就是说你可以使用更小的显存运行。

gpt-oss-120b：在推理基准测试中与 o4-mini 相当，可以在单个 80GB GPU 上运行。
gpt-oss-20b：表现与 o3-mini 相似，可以在内存为 16GB 的边缘设备上运行。

官方介绍：openai.com
Hugging Face：
huggingface.co
huggingface.co
Github：github.com
试用：gpt-oss.com

0 00

搞设计的花生仁

5月前

Runway 即将发布他们的上下文视频模型 Aleph，通过对话就能对视频进行编辑。
例如可以添加、删除、变换视频中的任意元素，生成场景的任意角度视频，修改光照、风格等更多操作。
目前仅对合作者和超创推出早期访问权限，很快对所有人开放。

官方博客：runwayml.com

02:15

0 00

搞设计的花生仁

5月前

【腾讯重磅开源 3D 世界生成模型！】

只需一句话或一张图，几分钟就能生成一个沉浸式、可探索、可交互的 3D 世界。

在 2025 上海 WAIC 大会上，腾讯正式发布并开源了自研的 3D 世界生成模型 —— HunyuanWorld 1.0。它由 Hunyuan3D v2.5 驱动，是全球首个采用稀疏 3D 原生架构的大模型。

📦 支持文本生成 & 图像生成
🌍 场景风格多样，支持 360° 沉浸式漫游
🧠 具备语义层次建模能力，自动区分前景/背景、地面/天空
🕹️ 生成结果可导出为标准网格模型，与现有图形引擎无缝兼容
🔧 零建模经验也能上手，普通用户一句指令就能“搭世界”

无论是游戏开发、虚拟展览，还是AI影视、空间设计，都将因 HunyuanWorld 的到来而大大提效。
这不仅是对 3D 生成的一次升级，更是普通人“创造世界”的新起点。

项目介绍：3d-models.hunyuan.tencent.com
使用地址：3d.hunyuan.tencent.com
Github：github.com
Hugging Face：huggingface.co

01:24

0 00

搞设计的花生仁

5月前

Midjourney 已支持首尾帧视频生成和循环视频生成

00:05

0 00

搞设计的花生仁

5月前

阿里发布他们的最强翻译模型 —— Qwen3-MT，在数万亿的多语言 token 上进行训练，它支持 92 种以上的语言——覆盖全球 95%以上的人口。

卓越的翻译质量
可定制：术语控制、领域提示、翻译记忆库
超快且经济高效：从 0.5 美元/百万个标记（MoE）
面向大规模：低延迟，高并发

Hugging Face Demo：huggingface.co ModelScope Demo：modelscope.cn API 文档：www.alibabacloud.com 博客：qwenlm.github.io

0 00

搞设计的花生仁

5月前

字节发布同声传译模型 —— Seed LiveInterpret 2.0，可实现中英双向同传，延时只有 2-3 秒。

能做到声音克隆、实时翻译，并且还能还原声音情绪的表达。

不论是影视剧、相声、诗词、绕口令，都能实现同声传译。

体验地址：console.volcengine.com+cn-beijing/experience/voice?type=SI
技术报告：lf3-static.bytednsdoc.com

00:30

1 00

搞设计的花生仁

5月前

阿里发布最新的非思考模型 Qwen3-235B-A22B-Instruct-2507

在指令遵循、逻辑推理、文本理解、数学、科学、编码和工具使用上有显著提升。
增强了多语言长尾知识覆盖方面性能。
增强了 256K 长上下文理解能力。

模型地址：huggingface.co

0 00

搞设计的花生仁

5月前

这个 IndexTTS 2 模型听起来效果不错，马上就要开源了，模型权重和推理代码统统开放。

可以做到把一句音频丢进去，它能把声音、语速、味儿都克隆得跟本人一样，还能随意切换“低语、尖叫、发疯”等情绪。
而且还可以给它一段带情绪的音频，要么直接打字告诉它想要啥感觉。
增加了时长控制，手动设定秒数或放飞自我都行。

感觉效果比本地最强的 MaskGCT、F5-TTS 还稳，中文英文都支持，字准、音似、情感到位。

项目介绍：index-tts.github.io

00:40

2 00

搞设计的花生仁

6月前

Qwen 发布最新的 Qwen-TTS，可通过 API 调用，会根据输入文本自动调整韵律、节奏和情绪变化。

目前，支持 3 种中国方言：北京、上海、四川，7种中英双语音色：Cherry、Ethan、Chelsie、Serena、Dylan（北京话）、Jada（上海话）和 Sunny（四川话）。更多语言和风格选项即将在近期推出。

官方博客：qwenlm.github.io
API：help.aliyun.com

00:18

3 01