即刻App年轻人的同好社区
下载
App内打开
Simon的白日梦
87关注2k被关注3夸夸
🧐AI/艺术/设计/建筑/生态跨领域佛系研究者
‍📚发量充足的建筑学在读博士
‍💼中国美院/伦敦大学学院客座教师
置顶
Simon的白日梦
2年前
✨大家好~ 我是Simon阿蒙,我现在的身份有:不知道啥时候能毕业的PhD / 佛系自媒体人 / 菜鸟独立开发者 / 断更艺术创作者 / 半个数字游民 / 初创公司打杂人员🐶
👉个人独立站:shengyu.me

✨想成为理解AI,但AI无法取代之人

📑我分享过的有用资源📑:

- 🌟科普教程:
- 我上 AI 顶会啦!CVPR AI Art Gallery 作品极简创作教程 (2024.06): mp.weixin.qq.com
- OpenAI Sora视频生成模型技术报告中英全文+总结+影响分析 (2024.02): mp.weixin.qq.com
- 送立体动态新年红包+最好用的SD客户端+开源视频生成模型 (2024.02): mp.weixin.qq.com
- AI时代抗焦虑指北 —— 被AI包围之后,人类“完蛋”了吗?(2023.12):mp.weixin.qq.com
- AI生成3D问题的简化和解决,以及随之而来的新问题(2023.11):mp.weixin.qq.com
- 如何制造大语言模型的意识幻觉?斯坦福AI小镇论文精读 (2023.09):mp.weixin.qq.com
- ChatGPT基本原理(告诉你为啥它啥都懂)(2023.04):mp.weixin.qq.com
- 从用手建模到用嘴建模:一文说透最新用文字生成三维模型的人工智能算法原理 (2022.10):mp.weixin.qq.com
- 5分钟上手人工智能设计:借AI之力用文字生成图片(无软硬件+前置知识要求,2021.08):mp.weixin.qq.com

- 🌟工具合集:
- 关于声音生成的一切(2024.01):mp.weixin.qq.com
- 关于4D 生成的一切(2024.01):mp.weixin.qq.com
- 关于 chatGPT 的一切(实用工具篇,2023.05):mp.weixin.qq.com
- 关于 ControlNet 的一切(2023.04):mp.weixin.qq.com
- 关于3D 内容人工智能 (AI) 生成的一切(2023.01):mp.weixin.qq.com
- 关于人工智能内容生成(AIGC)的一切(2022.10):mp.weixin.qq.com

😶‍🌫️
💽AIGC代表作💽:

- 🌟代码开发:
- 我攒了一扇 AI 平行时空传送门——3D gaussian 复杂大场景迁移(2024.04 已暂停):mp.weixin.qq.com
- 我,编程菜鸟,攒了一个用文字生成三维模型的AI工具(Dreamfields-3D,已开源,2022.09):mp.weixin.qq.com

- 🌟艺术商业案例:
- 我如何用AI为小米国际限量版手机做宣传片(2023.03):mp.weixin.qq.com
- AI创作的正确打开方式:雪佛兰×全屏本是×Simon的白日梦 | AIGC商业落地案例复盘 (2023.02):mp.weixin.qq.com
- 国家地理中文网:“守护海洋原住民”系列数字藏品创作(2022.05):mp.weixin.qq.com

- 🌟 AI视频作品:
- ✨微观宇宙:一木一浮生,一空一有无, 一念一无限 (2024.08): b23.tv
- 云端画意 —“古董”AI模型生成复古国风山水动画(2023.07):www.bilibili.com
- 硅基生物图鉴-硅藻云戏者(2023.06):www.bilibili.com
- 量子场-无AI生成艺术(2023.04):www.bilibili.com
- 微观世界极限深潜(2022.10):www.bilibili.com
- 幻时之砂(2021.12):www.bilibili.com
- 超级文明已经组队迁往二次元元宇宙了,而你还没有拿到船票?(2021.12):www.bilibili.com

🎖️AIGC经历🎖️:
- 做过课程或讲座的地方:英国伦敦大学学院 / 奥地利因斯布鲁克大学 / 中央美院 / 小米 / 深圳市插画协会 / 集智俱乐部 / 国际人机交互大会 / 艾厂 / 中国科普作家协会
- 合作过的厂商:小米 / 雪佛兰 / 现代 / 周大福 Tmark / 国家地理中文网
- 参展过的地方:上海设计周 / 上海喜马拉雅美术馆 / 威尼斯元宇宙艺术年展 / 北京Tong画廊 / 郑州海汇美术馆 / 北京-城市建筑双年展 / 伦敦 Zero to One Space / 奥地利-蒂罗尔建筑中心

📻我的社媒📻:
- 公众号 / 视频号 / B站 / 小红书 / 微博:Simon的白日梦
- 我的 AI 自动化创作替身 - CyberGenix:weibo.com
- 知识星球(核心社群):AI白日梦想家 (向我提问,72小时无条件退款,领券:t.zsxq.com

🥰写在最后🥰:
感谢你读到这里,其实我是一个佛系+拖延的人,能做那么多事情或许真的是因为一直以来大家给我的正反馈,所以我后续会一直在这里更新有用的资源(你可以收藏或者转发这个帖子)。如果你有问题或者希望找我合作,可以私信我也可以发到 📧simondaydream@163.com。如果我48小时后还没有回复,可以再提醒我一次。最后,希望世界和平,愿你身心自在🤗。
821
Simon的白日梦
10天前
阿里开源了一个实时、可交互、无限时长的虚拟人主播生成器,实时生成影像+声音!🫨 虽然现在还要5*H800才能实现20帧,但是感觉未来的虚拟人应该不需要3D模型做后端支撑了🥹
{Live Avatar / Live Avatar:实时流式无限长交互式虚拟人视频生成框架}

🧐Live Avatar是由Giant AI Lab开发的140亿参数扩散模型驱动的实时视频生成框架,支持20 FPS流式生成与10,000+秒无限长视频创作,通过Block-wise Autoregressive处理实现实时对话交互与多模态生成能力。

➡️链接:
liveavatar.github.io

✨重点
●🔄【核心技术】
🎚️Distribution Matching Distillation:将14B多步扩散模型压缩为4步流式模型
🏗️Timestep-forcing Pipeline Parallelism (TPP):跨设备解耦降噪阶段,实现线性速度提升
🌀Rolling RoPE:动态更新位置编码稳定长序列身份
🛡️Adaptive Attention Sink (AAS):以生成帧替代初始参考消除分布漂移
🧪History Corrupt:注入噪声模拟推理误差,提取历史运动与稳定细节
●🎥【性能指标】
🔢5 H800 GPU集群实现20 FPS 4步采样
🔄Block-wise Autoregressive处理支持10,000+秒无漂移生成
📊84× FPS提升(对比基线),无需量化压缩
●🤖【应用场景】
🗣️实时对话:麦克风/摄像头输入驱动虚拟人实时响应
🤝Qwen3-Omni集成:支持自主代理间流式对话
🎨多模态生成:肖像/卡通/长视频等多样化内容创作
●🔍【技术突破】
解决长序列生成三大痛点:推理漂移、分布漂移、误差累积
动态RoPE与自适应注意力机制实现身份稳定
历史信息注入模拟真实推理误差提升鲁棒性
(注:所有展示内容均为AIGC生成,包含生成视频、对比分析及技术原理详解)
01:26
03
Simon的白日梦
10天前
微软开源了一个只有0.5B的实时文字到语音生成模型,试了下生成质量很不错,发声很自然,唯一遗憾是还不支持中文~
{VibeVoice-Realtime-0.5B / VibeVoice实时0.5B文本转语音模型}

🧐VibeVoice-Realtime-0.5B是微软开发的轻量级实时文本转语音模型,以0.5B参数实现约300ms首响延迟,支持流式输入与长文本生成,在LibriSpeech和SEED数据集上展现出低WER(2.00%/2.05%)和高说话人相似度(0.695/0.633)。

➡️模型链接:
huggingface.co
➡️试玩demo:huggingface.co

✨重点
●🔊【实时性能参数】
0.5B参数规模实现约300ms首响延迟,支持流式文本输入与连续语音生成
单说话人设计,支持多说话人模型扩展(需额外配置)
●🧠【技术架构创新】
采用Qwen2.5-0.5B LLM作为核心推理引擎
声学编码器基于σ-VAE变体,7阶段Transformer实现24kHz→3200x下采样
扩散头模块(4层,~40M参数)结合DDPM算法预测声学VAE特征
●📊【零样本性能指标】
LibriSpeech测试集:WER=2.00%,说话人相似度=0.695
SEED测试集:WER=2.05%,说话人相似度=0.633
长文本生成能力通过8192 tokens上下文长度训练验证
●🔄【两阶段训练策略】
第一阶段:预训练σ-VAE声学编码器(3200x压缩比)
第二阶段:冻结编码器,仅微调LLM+扩散头参数
●🔒【负责任使用限制】
仅支持英语,禁止语音模仿、虚假信息生成、非语音音频(音乐/环境音)生成
需在应用中明确标注AI生成内容,禁止规避技术安全措施
●🛠️【部署适配特性】
兼容LibriSpeech、SEED等标准数据集训练验证
提供GitHub代码库(microsoft/VibeVoice-Code)与Hugging Face Spaces推理环境
支持LibriSpeech Test-Clean等基准测试与自定义数据集微调
04:36
01
Simon的白日梦
10天前
生成分图层可修改的海报?开源版loveArt?
{Poster Copilot: 基于大模型的图形设计自动化框架}

🧐该框架通过Perturbed Supervised Fine-Tuning(PSFT)、Reinforcement Learning for Visual-Reality Alignment(RL-VRA)和Reinforcement Learning from Aesthetic Feedback(RLAF)三个阶段训练策略,结合生成模型实现专业级海报布局生成与可控编辑,解决现有大模型方法在几何准确性和迭代编辑上的不足。

➡️链接:
postercopilot.github.io

✨重点
●🔍[项目定位] 专注图形设计自动化,解决LMM模型在布局推理和专业级编辑中的痛点,通过三阶段训练提升几何理解与美学推理能力
●🧩[技术框架]
🔄Perturbed Supervised Fine-Tuning(PSFT):通过坐标回归的分布学习实现空间关系推理
🎯Reinforcement Learning for Visual-Reality Alignment(RL-VRA):引入几何奖励信号修正空间误差
🎨Reinforcement Learning from Aesthetic Feedback(RLAF):通过美学奖励模型生成高吸引力布局
●📊[数据集规模] 160K张海报,含2.6M层(1.2M文本+1.4M图像元素),覆盖40+领域(商业/娱乐/公告等)
●🎬[核心应用场景]
✨海报布局生成:自动整合用户资产生成专业排版
🧩资产不足合成:智能补充缺失图层并保持风格一致
🔄多轮精确编辑:支持分层修改(如调整相机材质/角色姿势)
🎭主题切换:无缝切换设计风格同时保持布局完整性
📏海报重构图:通过调整画布尺寸实现智能重新排版
●🚀[技术突破] 实现LMM模型从"生成"到"可控编辑"的跨越,支持多模态输入与全局视觉一致性维护
011
Simon的白日梦
10天前
分享一个claude skills合集~
🧐VoltAgent/awesome-claude-skills是一个精心整理的Claude技能集合——包含YAML元数据、说明和脚本的自包含文件夹,用于教授Anthropic Claude执行特定任务(例如,API测试、文档创建)。技能按需加载,可支持数百个技能而不影响性能,由VoltAgent社区维护,并提供官方定制指南。

➡️链接:github.com

✨重点
●🧠Claude技能定义:包含YAML元数据(名称/描述)、说明和用于特定AI任务(例如,API测试、数据分析)的可执行脚本的自包含文件夹。
●📂基本技能结构:例如“api-tester”,包括定义目的(“测试REST API并验证响应”)的YAML、分步说明和响应验证规则(检查必填字段、数据类型、嵌套对象)。
●⚡️按需加载:技能仅在触发时加载,即使仓库中有数百个技能也不会导致性能下降。
●🚀多任务能力:多个技能可一起运行以实现复杂的工作流程(例如,文档创建 + 代码测试 + 数据分析)。
●👥社区驱动:由VoltAgent开源AI代理框架社区维护,外部开发者也有贡献。
●📚官方资源:提供Anthropic官方技能仓库的链接和详细的自定义技能开发创建指南。
●🔄响应验证:像“api-tester”这样的技能的核心功能,确保API响应符合预期结构(例如,状态码、字段存在性)。
●🏗️定制模板:用户可以使用提供的YAML模板(例如,名称、描述、分步说明)创建新技能。
012
Simon的白日梦
10天前
不用一个一个找了,这个网址上就有700+ nano banana pro玩法~🥹

{文章或者工具的英文标题+中文标题}Nano Banana Pro Prompts - Nano Banana Pro 提示词

🧐{一句话总结}YouMind网站的“Nano Banana Pro 提示词”页面提供了精选的AI图像生成提示词集合、分类、示例、相关博客文章及快捷指令,帮助用户生成多样风格的图像。

➡️链接:
youmind.com

✨重点
●📝[Nano Banana Pro提示词集合] 提供一系列高质量AI图像生成提示词,可直接在YouMind中使用
●🎯[提示词分类] 分为自动、随机、生成、最新等类别,便于按需查找
●🖼️[提示词示例] 包含宽引言卡、德国水彩地图、伦敦户外餐厅人像等多种场景示例
●📖[实践博客] 提供10个真实案例的Nano Banana Pro动手体验文章
●💡[AI快捷指令] 支持Words Card(儿童识字卡片)、苹果风格PPT等一键生成功能
●🎨[风格多样性] 涵盖江户时代浮世绘、索尼商场快照、橄榄油社交媒体信息流等多元风格
●🔍[搜索功能] 可通过分类快速筛选不同类型的提示词资源
●🔗[扩展资源] 提供相关博客文章和案例,帮助用户深入了解应用场景
022
Simon的白日梦
10天前
分享一个无门槛免费获得gemini pro+1年全家桶的办法,亲测可用!(不需要edu邮箱,不需要p图,不需要国外号码,唯一要求是有一张能刷外币的卡,国内发行的visa/master卡都行)。

步骤1-登录这个页面 (one.google.com),点击“验证资格条件”:

步骤2-点击后跳转到“验证学生身份页面”,复制这个页面的网址。

步骤3-把刚才复制的验证页面网址,粘贴到这个网址(batch.1key.me)里面,然后点击“start Verification”,如果提示“success”,则验证成功;如果失败,多重来几次。

步骤4:回到最开始的验证资格页面,这时会提醒你绑卡(如果没绑卡),或者直接提醒你开通试用(1年后才会扣费,记得取消就可以白嫖1年)。享受你的gemini pro吧!
76288
Simon的白日梦
10天前
话说上个月Meta发的SAM 3D都没有人讨论?—— 识别/分割/3D重建图片场景中的所有物体。感觉可以有一些有意思的应用。🧐
{Meta's SAM 3D - AI-Powered 3D Reconstruction Tool}

🧐{一句话总结}Meta推出SAM 3D,通过Transformer和DiTs架构实现2D图像到3D物体/人体的精准重建,支持遮挡处理与场景级多对象定位,应用于电商AR预览、物理治疗与机器人感知等领域,配套高质量3D网格数据集推动行业基准提升。

➡️链接:
ai.meta.com

✨重点
●🔍[双模型架构] SAM 3D Body(人体形状/姿态重建)+ SAM 3D Objects(物体几何/纹理重建),单图输入支持多对象联合定位
●🎯[场景适配] 解决2D图像到3D空间的转化痛点,适用于Facebook Marketplace AR家居预览、物理治疗患者3D模型分析、机器人环境感知
●🏗️[技术突破] SAM 3D Body用Transformer编码器-解码器直接输出3D参数,SAM 3D Objects分两阶段DiTs架构优化细节
●📊[行业基准] 首创SAM 3D Artist Object Dataset,提供多样化3D网格,挑战现有3D重建基准的真实场景复杂度
●🔄[应用生态] 与Segment Anything系列联动,未来将支持文本-视觉提示的3D物体检测与跟踪,扩展AI视觉能力边界
●🤖[落地价值] 降低3D建模门槛,通过实时生成3D模型加速电商决策、医疗诊断与机器人交互系统开发
●🔬[性能表现] 在多场景基准测试中实现SOTA精度,尤其在复杂姿态估计与纹理还原上超越传统方法
●🎨[创作工具] 支持用户自定义3D物体参数,允许艺术家通过文本提示生成个性化3D内容,推动创意产业数字化转型
00:35
02
Simon的白日梦
18天前
推荐一个用Nano Banana 做的“美国登月造假”虚构报道的案例,太有意思太有代入感了,我愿意称之为艺术!🥹

{Nano Banana Review:摄影棚里的宇航员——美国登月造假调查 / 卫夕:AI生成的登月造假特稿实为Nano Banana Pro能力测评}

🧐这篇文章以虚构的阿波罗登月造假调查为叙事框架,通过"内华达戈壁布景师埃利亚斯·索恩"等亲历者的细节披露,实则是谷歌Gemini 3 Pro生成的Nano Banana Pro AI测评,揭示了视觉技术重构历史记忆的颠覆性影响,同时探讨了AI对新闻写作与摄影行业的冲击。

➡️链接:
mp.weixin.qq.com

✨重点
●📸 登月造假的技术还原:通过24个高强度氙气灯组成的"Helios"矩阵模拟月球光源,菲涅尔透镜修正阴影畸变,玄武岩与水泥粉末混合的月壤材料,以及7秒延迟的通讯信号处理,构建出完整的"摄影棚登月"假象。
●👨🔧 关键人物与破绽:
埃利亚斯·索恩:以"关闭星星"的灯光设计解释照片无星现象,暴露摄影棚技术局限;
道具失误:阿波罗11号照片中出现的可口可乐罐,导致剧组停工排查,成为"最接近真相的穿帮"。
●🔍 档案解密与技术漏洞:
"Crimson Horizon"档案曝光背景山脉纹理重复,证实为"如画背景"拼接;
谷歌图像算法检测到月壤样本实为地球玄武岩熔炼产物,荷兰国家博物馆所藏月岩被证实为石化木头。
●🤖 AI生成的视觉陷阱:所有照片由Nano Banana Pro生成,带有"柯达胶卷褪色感"和"冷战压抑氛围",完美复刻《华尔街日报》特稿风格,却隐藏着"背景山脉重复"等AI生成痕迹。
●💡 行业反思:
摄影写实功能消亡:AI可通过提示词生成"呼吸感"和"情绪张力",传统摄影的神圣性被解构;
模型权重公式:输出效果=模型²×(任务+提示词),强调工具先进性对创作的决定性作用;
人类独特价值:即便AI能重构历史,人类的"审美品味与情感体验"仍是不可替代的创作核心。
●🕰️ 历史记忆重构:物理层面的登月造假照片与体验层面的真实感形成矛盾,揭示"眼见为实"的时代已终结,历史记忆可能被AI以"逼真假象"重新定义。
●🔄 创作流程曝光:作者通过Gemini 3 Pro生成文章,仅修改100字后记,展示AI可快速复刻深度特稿风格,引发"技术伦理边界"的讨论。
01
Simon的白日梦
18天前
那啥,反正现在投论文也是被AI先审了,那何不自己找AI先审一下?斯坦福出了个免费AI审稿人自动给意见~大家可以试一下~
{Stanford Agentic Reviewer / 斯坦福AI论文评审服务}

🧐这是一个提供免费AI论文评审反馈的在线服务,支持选择目标会议/期刊(如ICLR、NeurIPS等),通过上传PDF(最大10MB,仅分析前15页)获取AI生成的详细评审建议,需提供邮箱接收通知,MIT开源协议,AI反馈仅供参考需人工验证。

➡️链接:
paperreview.ai

✨重点
●📄 核心功能:AI驱动的论文评审反馈,支持多领域(AI、CV、NLP、数据库等)学术论文
●🎯 目标会议选择:可选ICLR、NeurIPS、ICML、CVPR等30+顶级学术会议/期刊
●🔄 流程简单:上传PDF→填写邮箱→接收AI评审→查看反馈
●⚠️ 文件限制:仅支持10MB以内PDF,仅分析前15页内容
●✉️ 通知机制:评审完成后通过邮件推送结果,无需登录系统
●📚 多语言支持:支持英文/中文论文上传及反馈生成
●⚠️ AI局限性:生成的评审可能存在错误,需研究者结合自身判断
●💡 使用建议:建议先检查论文格式(如LaTeX排版)再上传,避免格式错误影响分析
01
Simon的白日梦
18天前
一篇很有所以的文章,关于我们为什么记不住小时候的事情,以及为什么2岁是神经元数量的顶峰——人类童年失忆(记不起2-4岁前的事)主要源于大脑发育优化:婴儿期海马体逐步成熟但功能有限,2岁后突触修剪导致早期记忆被“清理”,同时程序性记忆替代情景记忆,最终形成高效神经网络以支持后续认知发展。(所以大模型的参数了也不总是越多越好?🧐)

童年失忆症:大脑如何“删除”早期记忆?

▶️原文:mp.weixin.qq.com

🧠 一句话总结:

精彩摘要:

而人类童年记忆的消失,同样源于大脑的优化。

两岁之前,学习记忆信息来者不拒,会形成十分纷乱的神经网络。

两三岁的孩子基本停不下来,这里戳一戳,那里爬一爬。杂乱的神经网络,不仅不能形成稳定的人格,信息之间也会互相争夺感官资源,造成注意力的不集中。

一个人一生最复杂的神经网络出现在2岁左右。

2 岁的幼儿拥有成年人 2 倍的突触连接,每个神经元平均有 7000 个突触连接到其他神经元。

据估计,一个 3 岁儿童的大脑大约有 10^15 突触(1千万亿个)。而一个成年人的估计各不相同,从 10^14~5 x 10^14 突触(100 ~ 500 万亿)不等。

如果以突触连接复杂度论英雄,2岁幼儿无异是英雄中的王者。

但事实是,这样杂乱的神经网络是非常低效的

是时候建立比较稳定的人格了。

来自基因里的庞大力量,驱动着大脑前所未有的变化——一场盛况空前的突触修剪开始了。

对于长期不用的记忆,大脑判定相关信息没用了,就会逐渐削弱神经连接,甚至最终删除掉。

虽然你觉得幼儿园初恋的面孔是你珍贵的记忆,但基因里的祖传密码却告诉大脑,这些垃圾记忆如果不删,这脑子以后就不好使了。

最终,你的大脑留下主要的神经网络,开始删除绝大多数的杂乱链接。

这个过程很像磁盘整理+垃圾清理+智能迭代升级。

➡️ 核心机制:
海马体发育关键期:
9-12个月后,海马体后部开始编码视觉、空间等早期记忆,但此时记忆依赖“情境绑定”,缺乏语义标签(如时间、地点),难以被成年后检索。
2025年研究证实:婴儿对熟悉事物的偏好与海马体后部血氧活动增强相关,暗示早期记忆已形成但未稳定。
突触修剪的“记忆优化”:
2岁时突触连接达峰值(约10¹⁵个),远超成人(10¹⁴-5×10¹⁴个),大脑通过修剪低效连接(如杂乱的早期情景记忆),保留高效神经环路。
修剪过程伴随“记忆重编码”:程序性记忆(如走路、说话)被保留,而陈述性记忆(如具体事件)因缺乏强化逐渐模糊。
自我意识与记忆的“解绑”:
18-24个月婴儿开始形成自我意识(如通过镜子测试),但此时语义记忆未成熟,无法为早期记忆添加“身份标签”,导致成年后无法识别。
记忆类型的“优先级”:
婴儿期侧重程序性记忆(本能行为),而非陈述性记忆(事件细节),大脑优先保留后者以支持语言和概念学习,牺牲早期情景记忆。
研究证据与争议:
2025年最新研究显示:婴儿海马体后部可快速编码视觉经验,但需重复刺激才能转化为长期记忆。
部分学者认为“记忆未编码”是主因,而另一部分指出“编码后遗忘”更关键,目前尚无定论。
反常识视角:
“记忆未消失,只是被‘加密’”:早期记忆可能以潜意识形式存在(如对母亲气味的偏好),但无法通过语言或意识检索。
“童年失忆是大脑的‘节能策略’”:通过删除冗余早期记忆,大脑将资源集中于构建高效认知网络,为青春期学习奠基。
(注:本文核心数据来自海马体发育研究、突触修剪模型及2025年婴儿记忆实验,具体细节见原文参考文献)
00