即刻App年轻人的同好社区
下载
App内打开
搞设计的花生仁
13关注204被关注0夸夸
✨分享 AI绘画、AI文本、AI 语音、AI视频、AI 3D 等工具和 AI 资讯
✨优设 120w+ 人气,AIGC 专栏作者
搞设计的花生仁
5月前
Anthropic 发布 Claude Opus 4.1,作为 Claude Opus 4 的升级版,它在智能体任务、编程实操和推理能力上实现了全面飞跃,上下文窗口达 200K。

编程性能亮眼,SWE-bench Verified 测试达 74.5%,深度研究与数据分析能力增强,细节追踪和智能体搜索表现突出。

GitHub、Rakuten Group 等机构好评,称其多文件重构、代码库精准修正等能力显著提升。

现已向付费 Claude 用户和 Claude Code 用户开放,也已在 API、Amazon Bedrock Google Cloud Vertex AI 上推出。价格与 Opus 4 相同。官方预告未来几周将有更大升级。
10
搞设计的花生仁
5月前
OpenAI 发布两个开源模型:gpt-oss-120b、gpt-oss-20b,是首个支持 FP4 的原生开源大模型,也就是说你可以使用更小的显存运行。

gpt-oss-120b:在推理基准测试中与 o4-mini 相当,可以在单个 80GB GPU 上运行。
gpt-oss-20b:表现与 o3-mini 相似,可以在内存为 16GB 的边缘设备上运行。

官方介绍:openai.com
Hugging Face:
huggingface.co
huggingface.co
Github:github.com
试用:gpt-oss.com
00
搞设计的花生仁
5月前
Runway 即将发布他们的上下文视频模型 Aleph,通过对话就能对视频进行编辑。
例如可以添加、删除、变换视频中的任意元素,生成场景的任意角度视频,修改光照、风格等更多操作。
目前仅对合作者和超创推出早期访问权限,很快对所有人开放。

官方博客:runwayml.com
02:15
00
搞设计的花生仁
5月前
【腾讯重磅开源 3D 世界生成模型!】

只需一句话或一张图,几分钟就能生成一个沉浸式、可探索、可交互的 3D 世界。

在 2025 上海 WAIC 大会上,腾讯正式发布并开源了自研的 3D 世界生成模型 —— HunyuanWorld 1.0。它由 Hunyuan3D v2.5 驱动,是全球首个采用稀疏 3D 原生架构的大模型。

📦 支持文本生成 & 图像生成
🌍 场景风格多样,支持 360° 沉浸式漫游
🧠 具备语义层次建模能力,自动区分前景/背景、地面/天空
🕹️ 生成结果可导出为标准网格模型,与现有图形引擎无缝兼容
🔧 零建模经验也能上手,普通用户一句指令就能“搭世界”

无论是游戏开发、虚拟展览,还是AI影视、空间设计,都将因 HunyuanWorld 的到来而大大提效。
这不仅是对 3D 生成的一次升级,更是普通人“创造世界”的新起点。

项目介绍:3d-models.hunyuan.tencent.com
使用地址:3d.hunyuan.tencent.com
Github:github.com
Hugging Face:huggingface.co
01:24
00
搞设计的花生仁
5月前
Midjourney 已支持首尾帧视频生成和循环视频生成
00:05
00
搞设计的花生仁
5月前
阿里发布他们的最强翻译模型 —— Qwen3-MT,在数万亿的多语言 token 上进行训练,它支持 92 种以上的语言——覆盖全球 95%以上的人口。

卓越的翻译质量
可定制:术语控制、领域提示、翻译记忆库
超快且经济高效:从 0.5 美元/百万个标记(MoE)
面向大规模:低延迟,高并发

Hugging Face Demo:huggingface.co ModelScope Demo:modelscope.cn API 文档:www.alibabacloud.com 博客:qwenlm.github.io
00
搞设计的花生仁
5月前
字节发布同声传译模型 —— Seed LiveInterpret 2.0,可实现中英双向同传,延时只有 2-3 秒。

能做到声音克隆、实时翻译,并且还能还原声音情绪的表达。

不论是影视剧、相声、诗词、绕口令,都能实现同声传译。

体验地址:console.volcengine.com+cn-beijing/experience/voice?type=SI
技术报告:lf3-static.bytednsdoc.com
00:30
00
搞设计的花生仁
5月前
阿里发布最新的非思考模型 Qwen3-235B-A22B-Instruct-2507

在指令遵循、逻辑推理、文本理解、数学、科学、编码和工具使用 上有显著提升。
增强了多语言长尾知识覆盖方面性能。
增强了 256K 长上下文理解能力。

模型地址:huggingface.co
00
搞设计的花生仁
5月前
这个 IndexTTS 2 模型听起来效果不错,马上就要开源了,模型权重和推理代码统统开放。

可以做到把一句音频丢进去,它能把声音、语速、味儿都克隆得跟本人一样,还能随意切换“低语、尖叫、发疯”等情绪。
而且还可以给它一段带情绪的音频,要么直接打字告诉它想要啥感觉。
增加了时长控制,手动设定秒数或放飞自我都行。

感觉效果比本地最强的 MaskGCT、F5-TTS 还稳,中文英文都支持,字准、音似、情感到位。

项目介绍:index-tts.github.io
00:40
00
搞设计的花生仁
6月前
Qwen 发布最新的 Qwen-TTS,可通过 API 调用,会根据输入文本自动调整韵律、节奏和情绪变化。

目前,支持 3 种中国方言:北京、上海、四川,7种中英双语音色:Cherry、Ethan、Chelsie、Serena、Dylan(北京话)、Jada(上海话) 和 Sunny(四川话)。更多语言和风格选项即将在近期推出。

官方博客:qwenlm.github.io
API:help.aliyun.com
00:18
01