即刻App年轻人的同好社区
下载
App内打开
Simon的白日梦
82关注1k被关注3夸夸
🧐AI/艺术/设计/建筑/生态跨领域佛系研究者
‍💼发量充足的建筑学在读博士
‍💼UCL🇬🇧及UIBK🇦🇹AI应用课程导师
置顶
Simon的白日梦
11月前
✨大家好~ 我是Simon阿蒙,我现在的身份有:不知道啥时候能毕业的PhD / 佛系自媒体人 / 菜鸟独立开发者 / 断更艺术创作者 / 半个数字游民 / 初创公司打杂人员🐶
👉个人独立站:shengyu.me

✨想成为理解AI,但AI无法取代之人

📑我分享过的有用资源📑:

- 🌟科普教程:
- 我上 AI 顶会啦!CVPR AI Art Gallery 作品极简创作教程 (2024.06): mp.weixin.qq.com
- OpenAI Sora视频生成模型技术报告中英全文+总结+影响分析 (2024.02): mp.weixin.qq.com
- 送立体动态新年红包+最好用的SD客户端+开源视频生成模型 (2024.02): mp.weixin.qq.com
- AI时代抗焦虑指北 —— 被AI包围之后,人类“完蛋”了吗?(2023.12):mp.weixin.qq.com
- AI生成3D问题的简化和解决,以及随之而来的新问题(2023.11):mp.weixin.qq.com
- 如何制造大语言模型的意识幻觉?斯坦福AI小镇论文精读 (2023.09):mp.weixin.qq.com
- ChatGPT基本原理(告诉你为啥它啥都懂)(2023.04):mp.weixin.qq.com
- 从用手建模到用嘴建模:一文说透最新用文字生成三维模型的人工智能算法原理 (2022.10):mp.weixin.qq.com
- 5分钟上手人工智能设计:借AI之力用文字生成图片(无软硬件+前置知识要求,2021.08):mp.weixin.qq.com

- 🌟工具合集:
- 关于声音生成的一切(2024.01):mp.weixin.qq.com
- 关于4D 生成的一切(2024.01):mp.weixin.qq.com
- 关于 chatGPT 的一切(实用工具篇,2023.05):mp.weixin.qq.com
- 关于 ControlNet 的一切(2023.04):mp.weixin.qq.com
- 关于3D 内容人工智能 (AI) 生成的一切(2023.01):mp.weixin.qq.com
- 关于人工智能内容生成(AIGC)的一切(2022.10):mp.weixin.qq.com

😶‍🌫️
💽AIGC代表作💽:

- 🌟代码开发:
- 我攒了一扇 AI 平行时空传送门——3D gaussian 复杂大场景迁移(2024.04 已暂停):mp.weixin.qq.com
- 我,编程菜鸟,攒了一个用文字生成三维模型的AI工具(Dreamfields-3D,已开源,2022.09):mp.weixin.qq.com

- 🌟艺术商业案例:
- 我如何用AI为小米国际限量版手机做宣传片(2023.03):mp.weixin.qq.com
- AI创作的正确打开方式:雪佛兰×全屏本是×Simon的白日梦 | AIGC商业落地案例复盘 (2023.02):mp.weixin.qq.com
- 国家地理中文网:“守护海洋原住民”系列数字藏品创作(2022.05):mp.weixin.qq.com

- 🌟 AI视频作品:
- ✨微观宇宙:一木一浮生,一空一有无, 一念一无限 (2024.08): b23.tv
- 云端画意 —“古董”AI模型生成复古国风山水动画(2023.07):www.bilibili.com
- 硅基生物图鉴-硅藻云戏者(2023.06):www.bilibili.com
- 量子场-无AI生成艺术(2023.04):www.bilibili.com
- 微观世界极限深潜(2022.10):www.bilibili.com
- 幻时之砂(2021.12):www.bilibili.com
- 超级文明已经组队迁往二次元元宇宙了,而你还没有拿到船票?(2021.12):www.bilibili.com

🎖️AIGC经历🎖️:
- 做过课程或讲座的地方:英国伦敦大学学院 / 奥地利因斯布鲁克大学 / 中央美院 / 小米 / 深圳市插画协会 / 集智俱乐部 / 国际人机交互大会 / 艾厂 / 中国科普作家协会
- 合作过的厂商:小米 / 雪佛兰 / 现代 / 周大福 Tmark / 国家地理中文网
- 参展过的地方:上海设计周 / 上海喜马拉雅美术馆 / 威尼斯元宇宙艺术年展 / 北京Tong画廊 / 郑州海汇美术馆 / 北京-城市建筑双年展 / 伦敦 Zero to One Space / 奥地利-蒂罗尔建筑中心

📻我的社媒📻:
- 公众号 / 视频号 / B站 / 小红书 / 微博:Simon的白日梦
- 我的 AI 自动化创作替身 - CyberGenix:weibo.com
- 知识星球(核心社群):AI白日梦想家 (向我提问,72小时无条件退款,领券:t.zsxq.com

🥰写在最后🥰:
感谢你读到这里,其实我是一个佛系+拖延的人,能做那么多事情或许真的是因为一直以来大家给我的正反馈,所以我后续会一直在这里更新有用的资源(你可以收藏或者转发这个帖子)。如果你有问题或者希望找我合作,可以私信我也可以发到 📧simondaydream@163.com。如果我48小时后还没有回复,可以再提醒我一次。最后,希望世界和平,愿你身心自在🤗。
720
Simon的白日梦
3天前
今日份觉知🥰
20
Simon的白日梦
9天前
关于翻译之敌:Token的简明解释🥹
知识分享官 on X: "给孩子解释token在各个主要领域所代表的含义"
x.com
🧐这条推文由用户@knowledgefxg发布,简要介绍了“token”在Web3、计算机网络和AI领域的不同含义,以帮助孩子理解这个词在不同语境中的使用方式。
11
Simon的白日梦
9天前
开源视频模型训练器!finetune视频模型的时代也要来了?🥹
GitHub - VideoVerses/VideoTuna: Let's finetune video generation models!
🧐VideoTuna是一个视频生成模型的多功能代码库,集成了文本到视频、图像到视频和多种微调功能,支持用户进行视频生成模型的预训练、连续训练、对齐和微调,扩展多场景应用。
➡️链接:github.com
✨重点
● 🎥 多模型集成:VideoTuna支持多种视频生成模型,包括CogVideoX、Open-Sora、VideoCrafter等,能够处理不同分辨率的文本到视频和图像到视频任务。
● 🧩 全流程支持:提供预训练、连续训练、特定概念微调和RLHF对齐等完整视频生成流程,帮助用户构建高质量视频生成模型。
● 🎬 丰富的后处理功能:VideoTuna包含视频到视频的后处理和增强模块,有助于生成更精美的内容,支持基于人类偏好的后期对齐。
● 🚀 3D视频VAE和面部生成:项目计划推出3D视频VAE和可控面部视频生成模型,扩展用户在特定领域的视频生成应用。
● ⚙️ 可配置训练:支持Lora微调,适用于新概念、风格和角色的学习,用户可以针对不同应用需求快速调整模型配置。
00
Simon的白日梦
9天前
有点意思:通过文字引导去对3D模型中的特定部分进行雕刻🤔

MagicClay: 用生成神经场雕刻网格

🧐MagicClay是一款结合网格和距离场(SDF)的混合式工具,允许艺术家通过文字提示进行局部网格编辑,支持生成具纹理的三维模型,且不影响其他区域。

➡️链接:amirbarda.github.io

✨重点

● 🎨 艺术家友好:MagicClay支持通过自然语言文字提示局部编辑网格,提供更直观的操作体验。

● 🔧 混合表示:工具结合了网格和SDF表示,允许用户在不破坏其他部分的情况下对模型进行逐步编辑。

● 🖼️ 纹理支持:生成的网格还可包含纹理细节,满足动画、游戏等应用的高要求。

● 🧑‍🎨 实时应用场景:工具演示了如何在同一网格上依次添加“恶魔角”“精灵耳朵”等,适合反复多步骤的编辑需求。

● 📊 SIGGRAPH Asia 2024 论文:该项目将在2024年SIGGRAPH Asia展示,由来自特拉维夫大学和Adobe的研究人员合作完成。
00:19
00
Simon的白日梦
9天前
GitHub - AIFSH/OmniGen-ComfyUI

🧐OmniGen-ComfyUI是一个为OmniGen开发的自定义节点,旨在通过ComfyUI简化多任务图像生成和编辑操作。

➡️链接:github.com

✨重点 ● 🧑‍🎨 自定义节点支持:OmniGen-ComfyUI为OmniGen提供了一个自定义节点,使用户可以直接在ComfyUI中使用OmniGen进行图像生成和编辑任务。

● 📝 简单指令格式:用户可以通过特定格式的JSON指令,如“图像编辑”或“分割”,来定义操作需求,系统会自动生成对应的图像输出。

● 🎨 多任务支持:OmniGen-ComfyUI支持多种任务类型,包括文本生成图像、图像编辑、图像分割、姿势检测等,无需额外模块。

● ⚙️ 资源优化提示:对于内存或时间成本的优化,文档中提供了调整建议,帮助用户在不同硬件配置下优化性能。

● 📄 开源代码和依赖:仓库包含代码示例、初始配置文件(如__init__.py和requirements.txt)以及MIT开源许可证,方便开发者进一步扩展。

● 🔧 ComfyUI集成:OmniGen-ComfyUI与ComfyUI深度集成,通过标准界面和命令行简单调用OmniGen的功能,便于用户的无缝体验。
01
Simon的白日梦
10天前
好消息:智谱发布了目前性能最强的开源视频生成模型,看效果已经能和很多收费模型媲美了~!😮

坏消息:目前需要A100/H100才能跑,坐等大神优化🥹

THUDM/CogVideoX1.5-5B-SAT · Hugging Face

🧐CogVideoX1.5-5B-SAT是开源的CogVideoX1.5的最新版本,支持更高分辨率的10秒视频生成,具备从图像到视频(I2V)和从文本到视频(T2V)两种生成模式。

➡️链接:huggingface.co

✨重点

● 🎥 多模式视频生成:CogVideoX1.5-5B-SAT包含专用的I2V和T2V模块,允许用户根据图像或文本生成长达10秒的高分辨率视频。

● 🔄 模块化结构:模型包括VAE模块和T5文本编码器,允许兼容前版本的VAE权重,从而简化更新并增强生成稳定性。

● 🔧 SAT权重优化:利用SAT(优化序列)权重来提升模型生成效率,适合用于处理需要高质量和长时序的视频生成任务。

● 📜 学术支持:模型及其优化在2024年的arXiv论文中详细介绍,为生成式视频任务提供了理论支持。

(视频demo来自X用户)
00:05
20
Simon的白日梦
10天前
据称是目前为止开源文/图生3D开源模型的sota,而且这次生成的模型材质不是顶点色,而是正常的贴图,更方便导入使用(comfyui已出🥹)。

GitHub - Tencent/Hunyuan3D-1

🧐Hunyuan3D-1是腾讯推出的一个统一3D生成框架,支持从文本或图像到3D生成,通过多视角扩散模型和高效重建网络实现快速高质量的3D生成。

➡️链接:github.com

✨重点

● 🌌 多任务支持:Hunyuan3D-1.0支持从文本到3D、图像到3D的生成任务,能够为用户生成多视角的3D对象,适用于快速艺术创作与高质量渲染。

● ⚙️ 双阶段架构:框架包括一个多视角扩散模型(第一阶段)生成多视角图像,以及一个前馈重建网络(第二阶段)将这些图像重构为3D模型。

● ⏱️ 高效生成:标准版在约25秒内完成3D模型的生成,而轻量版约需10秒,适配不同硬件环境以兼顾速度和生成质量。

● 📦 预训练模型和依赖:提供多种预训练模型,包括标准和轻量版本,用户可以从Hugging Face下载并根据硬件需求选择合适的模型。

● 🖥️ 环境设置与快速启动:框架支持Linux,包含环境配置脚本(env_install.sh)和多种示例脚本,用户可快速完成环境搭建并开始推理生成。

● 🌐 Gradio集成:支持Gradio界面,通过标准或轻量版本的配置,用户可在网页上查看生成效果,便于跨平台访问与展示。

GitHub - jtydhr88/ComfyUI-Hunyuan3D-1-wrapper

🧐ComfyUI-Hunyuan3D-1-wrapper是一个自定义节点封装,允许用户在ComfyUI中运行Hunyuan3D-1,支持从文本或图像生成3D模型,简化了3D内容创建工作流程。

➡️链接:github.com

✨重点

● 🎛️ 兼容ComfyUI的3D生成节点:此封装节点将Hunyuan3D-1集成到ComfyUI中,支持文本到3D和图像到3D的生成,用户可以在界面中轻松调用。

● 🖥️ 多种安装配置:根据用户环境提供多种安装方案,支持Windows 10、CUDA 12.4和Python 3.12,推荐使用Conda环境以获得完整的3D渲染和GIF输出功能。

● 🛠️ 依赖与兼容性:该封装节点依赖于Pytorch3D、Open3D等库,包含详细安装步骤,支持显存优化,以确保在较低配置下实现基本功能。

● 🎨 工作流示例:提供了多种工作流(如文本到3D和图像到3D),方便用户基于现有示例快速上手,实现特定的3D生成效果。

● ⚠️ 已知问题:偶尔可能出现内存不足错误,建议通过固定随机种子来提升生成成功率。
03
Simon的白日梦
10天前
GitHub - wenqsun/DimensionX: Create Any 3D and 4D Scenes from a Single Image with Controllable Video Diffusion

今年到目前为止最期待的一个模型了~:单图输入生成任意角度的完整环绕视频!不管是做视频还是做3D场景重建都能用!😮(问就是等开源🥹;但是好像runway已经抢跑上线了有类似功能的商用版?🤔)

🧐DimensionX是一种生成模型,通过分解空间和时间因素的ST-Director模块,从单张图像生成3D和4D场景,实现高质量的可控视频扩散。

➡️链接:github.com

✨重点

● 🎥 空间-时间解耦:ST-Director模块将空间和时间参数分离,以控制不同维度,使得生成的3D和4D场景更加细致、动态。

● 📹 多场景生成:S-Director用于生成3D视角,T-Director生成4D动态视频,提供多视角组合,实现从单图像生成出色的立体效果。

● 🛠️ 模型发布计划:已发布部分S-Director模型检查点(左侧轨迹),未来还将添加更多摄像控制、视频插值及身份保持去噪的模型代码。

🔍 真实感增强:加入轨迹感知和身份保持去噪策略,以更好地弥合生成内容与真实场景的差距,提升生成视频的视觉连贯性。
01
Simon的白日梦
18天前
目前看到的最佳AI万圣节视频~很英国😂

Massimo's Halloween Post on X
🧐在X平台上,Massimo(@Rainmaker1973)分享了一段由ifonly.ai制作的视频,展示了英国万圣节的奇妙场景,引发了众多观看和点赞。
➡️链接:x.com
✨重点
🎃 英国的万圣节氛围:视频通过生动的场景展示了英国街头的万圣节装饰与氛围,凸显了当地的节日特色。
🎥 AI创作:视频由ifonly.ai生成,运用AI技术为节日增添了更加奇幻的元素,展示了创意与技术的结合。
👀 广泛关注:视频在平台上获得了超过200万次观看,显示出观众对这种AI驱动节日内容的兴趣。
00:21
13
Simon的白日梦
18天前
GitHub - ComfyUI-Detail-Daemon:用于控制图像生成细节的ComfyUI节点
🧐 ComfyUI-Detail-Daemon将muerrilla的sd-webui-Detail-Daemon移植为ComfyUI的节点。通过调整生成过程中的sigma值,该工具帮助用户在生成高分辨率图像时实现更精细的细节控制。
➡️链接:github.com
✨ 重点详解
● 🔧 核心功能:细节增强与控制
ComfyUI-Detail-Daemon的核心功能是通过调整“sigma”值来控制图像生成过程中的噪声去除水平。该工具在不同的生成步长中保持一致的噪声注入量,但降低每步去除的噪声量,从而增强图像的细节表现。调整sigma值可让用户在图像生成过程中定义细节的强度和范围,帮助实现高清晰度和细腻质感的图像。
● 📈 多样化的细节控制节点
ComfyUI-Detail-Daemon提供四种节点供用户选择:
Detail Daemon Sampler:此节点按用户设定的范围调节生成过程中各步的细节水平,从而增加或减少细节。适合需要在生成中途控制细节强度的用户。
Detail Daemon Graph Sigmas:生成sigma曲线图,用于直观展示不同参数设置对细节控制的影响。该节点不直接改变生成过程中的sigma值,而是用于可视化sigma的变化。
Multiply Sigmas:此节点按用户设定的倍数乘以每步的sigma值,适合整体细节增强,也可能改变图像构图。
Lying Sigma Sampler:简化版的Detail Daemon Sampler,支持基本的细节调节参数,适合轻量级调整需求。
● 🎛️ 详细的参数设置选项
每个节点提供丰富的参数配置,让用户可以灵活控制细节表现。例如,Detail Daemon Sampler包括以下参数:
detail_amount:主要用于调整生成过程中的细节强度。正值降低sigma值,从而保留更多细节,负值则减少细节。
start与end:定义调整开始和结束的步长百分比,例如从第10%步开始至90%步结束,适合控制细节应用的时机。
bias:偏移中间步长的细节强度。
exponent:控制曲线的弯曲度,设置为0时为直线,值越高则曲线越平滑。
smooth:是否启用曲线平滑,使生成过程更自然。
cfg_scale_override:用于自定义CFG scale。
● 🧪 适用模型与兼容性测试
该项目适配了Flux、SDXL、SD1.5等多个生成模型,适用面广,能够在不同模型上实现细节优化。作者提供了Flux和SDXL的示例工作流,用户可以加载这些示例对比不同节点的效果,便于测试和调整。
● 🛠️ 图像生成工作流与示例
工具提供示例JSON文件,展示Detail Daemon的设置和实际效果。用户可以在生成过程中使用这些文件快速体验不同细节控制方法的差异。
01