即刻App年轻人的同好社区
下载
App内打开
Simon的白日梦
62关注875被关注2夸夸
🧐AI/建筑/生态/艺术跨领域佛系研究者
‍💼发量充足的建筑学在读博士
‍💼UCL🇬🇧及UIBK🇦🇹硕士AI+设计课程导师
置顶
Simon的白日梦
4月前
✨大家好~ 我是Simon阿蒙,我现在的身份有:不知道啥时候能毕业的PhD / 佛系自媒体人 / 菜鸟独立开发者 / 断更艺术创作者 / 半个数字游民 🐶

🍥
📑我分享过的有用资源📑:

- 🌟工具合集:
- 关于声音生成的一切(2024.01):mp.weixin.qq.com
- 关于4D生成的一切(2024.01):mp.weixin.qq.com
- 关于chatGPT的一切(实用工具篇,2023.05):mp.weixin.qq.com
- 关于ControlNet的一切(2023.04):mp.weixin.qq.com
- 关于3D内容人工智能(AI)生成的一切(2023.01):mp.weixin.qq.com
- 关于人工智能内容生成(AIGC)的一切(2022.10):mp.weixin.qq.com

- 🌟科普教程:
- AI时代抗焦虑指北 —— 被AI包围之后,人类“完蛋”了吗?(2023.12):mp.weixin.qq.com
- AI生成3D问题的简化和解决,以及随之而来的新问题(2023.11):mp.weixin.qq.com
- 如何制造大语言模型的意识幻觉?斯坦福AI小镇论文精读 (2023.09):mp.weixin.qq.com
- ChatGPT基本原理(告诉你为啥它啥都懂)(2023.04):mp.weixin.qq.com
- 从用手建模到用嘴建模:一文说透最新用文字生成三维模型的人工智能算法原理 (2022.10):mp.weixin.qq.com
- 5分钟上手人工智能设计:借AI之力用文字生成图片(无软硬件+前置知识要求,2021.08):mp.weixin.qq.com

🍥
💽AIGC代表项目💽:

- 🌟代码开发:
- 我攒了一扇AI平行时空传送门——3D gaussian复杂大场景迁移(WIP):mp.weixin.qq.com
- 我,编程菜鸟,攒了一个用文字生成三维模型的AI工具(Dreamfields-3D,已开源,2022.09):mp.weixin.qq.com

- 🌟艺术商业案例:
- 我如何用AI为小米国际限量版手机做宣传片(2023.03):mp.weixin.qq.com
- AI创作的正确打开方式:雪佛兰×全屏本是×Simon的白日梦 | AIGC商业落地案例复盘 (2023.02):mp.weixin.qq.com
- 国家地理中文网:“守护海洋原住民”系列数字藏品创作(2022.05):mp.weixin.qq.com

- 🌟(上古时代的)AI视频作品:
- 云端画意 —“古董”AI模型生成复古国风山水动画(2023.07):www.bilibili.com
- 硅基生物图鉴-硅藻云戏者(2023.06):www.bilibili.com
- 量子场-无AI生成艺术(2023.04):www.bilibili.com
- 微观世界极限深潜(2022.10):www.bilibili.com
- 幻时之砂(2021.12):www.bilibili.com
- 超级文明已经组队迁往二次元元宇宙了,而你还没有拿到船票?(2021.12):www.bilibili.com

🍥
🎖️AIGC经历🎖️:

- 做过课程或讲座的地方:英国伦敦大学学院 / 奥地利因斯布鲁克大学 / 中央美院 / 小米 / 深圳市插画协会 / 集智俱乐部 / 国际人机交互大会 / 艾厂 / 中国科普作家协会

- 合作过的厂商:小米 / 雪佛兰 / 现代 / 周大福 Tmark / 国家地理中文网

- 参展过的地方:上海设计周 / 上海喜马拉雅美术馆 / 威尼斯元宇宙艺术年展 / 北京Tong画廊 / 郑州海汇美术馆 / 北京-城市建筑双年展 / 伦敦 Zero to One Space / 奥地利-蒂罗尔建筑中心

🍥
📻我的社媒📻:
- 公众号 / 视频号 / B站 / 小红书 / 微博:Simon的白日梦
- 知识星球(核心社群):AI白日梦想家 (向我提问,72小时无条件退款,领券:t.zsxq.com

🍥
🥰写在最后🥰:
感谢你读到这里,其实我是一个佛系+拖延的人,能做那么多事情或许真的是因为一直以来大家给我的正反馈,所以我后续会一直在这里更新有用的资源(你可以收藏或者转发这个帖子)。如果你有问题或者希望找我合作,可以私信我也可以发到 📧simondaydream@163.com。如果我48小时后还没有回复,可以再提醒我一次。最后,希望世界和平,愿你身心自在🤗。
37
Simon的白日梦
6天前
今天真的是超越极限了,从德国加米施·帕瓦滕基兴出发,穿越了整个旺克山:9个半小时走了大概28公里,累计爬升大概有1500米,挑战了一大段冰雪路段,最后怕赶不上车还1个半小时速降了1000米😂 绝对是有生之年系列,没想到自己一把年纪还能这么勇🐶
00
Simon的白日梦
7天前
分享一个做llama3中文微调的宝藏仓库~!

GitHub - CrazyBoyM/llama3-Chinese-chat: Llama3 中文仓库(聚合资料,各种网友及厂商微调、魔改版本有趣权重 & 训练、推理、评测、部署教程视频 & 文档)

🧐该项目是Llama3的中文版本仓库,提供了多种微调、魔改版本的有趣权重,以及完整的训练、推理、评测和部署教程视频及文档,旨在支持中文场景下的Llama3模型应用和开发。

➡️链接:github.com

✨重点
●📚 项目聚合了Llama3中文相关的学习资料和交流平台,鼓励开发者和研究者共同参与改进和拓展。
●🔧 提供了各种网友和厂商微调的Llama3模型版本,以及详细的部署和使用教程,包括针对特定场景和需求的优化。
●🌐 包含网页部署指南,允许用户通过简单的web应用来运行和测试Llama3中文模型。
●🔄 支持多种增强的Llama3版本,如针对角色扮演、智能助手能力增强和长对话偏好的定制模型。
●📈 致力于提升模型的中文处理能力,采用高质量的中文数据集进行训练,以确保模型输出的自然性和准确性。
●📝 整合了优质的训练数据源和训练工具,为用户微调自己的中文Llama3模型提供支持。
●🔍 提供了详细的模型评测数据,帮助用户理解不同模型版本的性能特点和应用场景。
●🚀 最近更新包括了多个新的微调版本和模型部署选项,以及即将发布的AI笔记和思维导图浏览器插件。
131
Simon的白日梦
7天前
应该是目前最好用的二次元SDXL底模(而且国产🥹)

Neta Art XL - v1.0 | Stable Diffusion Checkpoint | Civitai Neta Art XL - v1.0 | 稳定扩散检查点 | Civitai

🧐Neta Art XL v1.0是一款易于使用的SDXL动漫模型,旨在通过改进角色覆盖、多样化风格和稳定的解剖结构,实现更稳定和生动的角色视觉叙事。

➡️模型:civitai.com
➡️发布页:nieta-art.feishu.cn

✨重点
●🎨 此模型在动漫艺术风格中保持高标准的美学水平,同时为普通用户提供吸引人的输出基线。
●👁️ 在处理多角色场景和复杂的摄影角度时,Neta Art XL在维持稳定性和解剖精确性方面表现出色,超过其他模型。
●🖌️ 包括长列表的艺术家风格,通过“by xxx”条款激活,支持用户创造没有干扰的新风格组合。
●🔧 提供了样本顺序器,推荐使用Eular a normal作为默认设置,建议步数为28步以上。
●📝 引入了有序的提示指南,通过确保提示的顺序来改善模型的指令遵循行为,例如从主题标签到风格、环境和动作的详细层次。
●🔍 模型支持非常广泛的CFG范围(5 - 20),高CFG通常可以带来更多细节和更高的对比度。
●🔄 对于风格的多样性,Neta Art XL选择了13个具有良好正交性的风格键,这些键在许多场景中常用,通过使用数据证明其效果。
●🌐 模型培训包括多源数据注释、语义去重和层次化标签组织等高级技术,以提高训练效果。
●📈 未来工作将集中在准备更大的训练集和更多基于知识的数据上,以改善角色、风格和细节处理。
13
Simon的白日梦
7天前
开源世界的多模态也要起飞了~!基于Phi-3和LLaMA-3的LLaVA++开源多模态LLM出来了,以后图片理解打标啥的也不再需要调API了~!🥹

GitHub - mbzuai-oryx/LLaVA-pp: 🔥🔥 LLaVA++: Extending LLaVA with Phi-3 and LLaMA-3 (LLaVA LLaMA-3, LLaVA Phi-3)

🧐LLaVA++项目扩展了LLaVA模型,集成了Phi-3 Mini Instruct和LLaMA-3 Instruct模型,提升了模型的视觉和语言指令处理能力。

➡️链接:github.com

✨重点
●🚀 LLaVA++是对既有LLaVA模型的扩展,增加了Phi-3 Mini Instruct 3.8B和LLaMA-3 Instruct 8B模型,专注于提高指令遵循能力和处理学术任务的数据集。
●📊 对比基准测试显示,Phi-3和LLaMA-3模型在多模态任务中表现出色,特别是在指令遵循和视觉语言任务中的表现。
●🔧 项目提供了详细的安装指南和更新脚本,使用户能够轻松地在本地环境中部署和测试这些模型。
●🤖 模型动物园部分列出了所有可用的模型和它们的Hugging Face页面链接,方便用户获取和使用预训练权重。
●🔍 发布了新的模型集成,如Phi-3-V和LLaVA-3-V,强调了与Hugging Face的协作和模型的开源贡献。
●💡 项目文档更新了最新进展,包括模型的最新发行和细节描述,支持开发者和研究者了解项目最新动态。
●📝 提供了完整的代码库,包括训练和微调模型所需的所有脚本和模块。
●📅 最近的更新包括改进的README文件,强调了项目的开源性和模型升级的意义。
23
Simon的白日梦
7天前
Llama3已经能帮我开车……啊不对,浏览网页了?😮

GitHub - McGill-NLP/webllama: Llama-3 agents that can browse the web by following instructions and talking to you

🧐WebLlama是一个由McGill-NLP团队开发的项目,旨在构建能够按照指令浏览网络的Llama-3代理,支持对话式的Web导航。

➡️链接:github.com

✨重点
●🌐 WebLlama允许用户通过对话指令来控制代理浏览网页,提升人机交互的自然性和效率。
●🔧 该项目基于最新的Llama-3模型进行微调,专注于网页导航任务,已在超过24K的Web交互实例上进行了训练。
●📊 WebLlama的首个模型Llama-3-8B-Web在WebLINX基准测试中显示出优越性能,该测试涵盖了网页导航和对话任务。
●💡 除了性能表现,WebLlama还强调易于部署和集成,支持与现有的Web部署平台如Playwright和BrowserGym兼容。
00
Simon的白日梦
7天前
空间斩……啊不对,空间场抹除术!🐶

GScream: Learning 3D Geometry and Feature Consistent Gaussian Splatting for Object Removal

🧐GScream是一个研究项目,专注于使用3D高斯喷溅技术进行对象移除,同时保持几何一致性和纹理连贯性。

➡️链接:w-ted.github.io

✨重点
●🌐 该技术通过优化高斯原始体的定位来改善被移除和可见区域之间的几何一致性,这一过程受单目深度估计的在线注册过程指导。
●🎨 采用了一种新颖的特征传播机制,通过跨注意设计加强纹理连贯性,该设计桥接了不确定区域和确定区域的采样高斯。
●🔍 通过广泛的实验验证了该方法不仅提高了对象移除场景下新视角合成的质量,还显著提升了训练和渲染速度。
00
Simon的白日梦
7天前
一个可以免费部署和立即使用的开源3D高斯在线编辑器~🥹

GitHub - playcanvas/supersplat: 3D高斯分割编辑器

🧐SuperSplat是一个专门用于编辑3D高斯分割(PLY)文件的工具,提供了一个交互式的Web界面,方便用户进行高斯分割的可视化编辑和调整。

➡️链接:github.com
➡️实时版本的编辑器链接:playcanvas.com

✨重点
●🎨 SuperSplat允许用户通过拖放或点击选择文件的方式加载3D高斯分割PLY文件,并提供了排除非编辑所需数据的选项以节省浏览器内存。
●🔧 编辑功能包括使用选择工具修改分割选区、删除场景中的分割以及重新定位场景的位置、旋转和缩放。
●💾 编辑完成后,用户可以导出编辑后的场景到本地文件系统中的PLY文件。
●🛠️ 对于本地开发者,项目提供了从克隆仓库到运行本地开发服务器的详细步骤,支持实时监测源代码更改并自动重建编辑器。
●📋 该编辑器目前还处于beta测试阶段,只支持高斯分割PLY文件,且导出时不旋转球面谐波数据等限制。
21
Simon的白日梦
7天前
一个SD中保持人物身份一致性的新工具,据说很好用🐶

ConsistentID: Portrait Generation with Multimodal Fine-Grained Identity Preserving

🧐ConsistentID是一个针对个性化ID图像生成的创新方法,旨在通过细粒度的多模态面部提示生成多样化、保持身份一致性的肖像。该项目由中山大学深圳校区团队开发,强调了在个性化面部生成中实现高保真度和细节精确的重要性。

➡️链接:ssugarwh.github.io

✨重点
●🔍 ConsistentID通过一个多模态面部提示生成器和一个身份保持网络,结合详细的面部特征和描述,以及总体面部环境来增强面部细节的精度。
●📈 该方法在个性化肖像生成上实现了显著的准确度和多样性,超越了现有方法。
●👤 提供了一个名为FGID的细粒度肖像数据集,包含超过500,000张面部图像,提供比公共面部数据集更大的多样性和全面性。
●🧠 ConsistentID的训练利用面部注意力定位策略,优化了ID保持网络,确保在面部区域保持身份一致性。
●🎨 实际应用案例包括改变角色的年龄属性、唤醒老照片和解决身份混淆等,展示了该技术在实际应用中的广泛可能性。
02
Simon的白日梦
7天前
突然发现一个huggingface出的特别好的训练器,即可以训练Lora / sd checkpoint,也可以训练一些小型LLM模型;界面接单,colab就能用!🥹

GitHub - huggingface/autotrain-advanced: 🤗 AutoTrain Advanced

🧐AutoTrain Advanced是一个由Hugging Face提供的无代码解决方案,旨在帮助用户快速且轻松地训练和部署最先进的机器学习模型。该工具强调了用户友好性和高效性,支持通过简单的点击几下就能完成模型训练。

➡️链接:github.com

✨重点
●🚀 AutoTrain Advanced提供了一个无代码界面,使机器学习模型的训练变得更快、更简单。
●🔗 需要用户上传正确格式的数据以创建项目,并提供了详细的文档帮助用户理解数据格式和定价。
●💻 支持在Hugging Face Spaces上运行AutoTrain,但只有在使用时才需支付资源费用。本地运行仅支付自己基础设施的资源使用费。
●📦 可通过PIP安装AutoTrain-Advanced Python包,要求Python版本不低于3.10。
●🛠️ 包含了安装torch、torchaudio和torchvision的步骤,推荐在conda环境中运行。
●👥 提供了多种预设任务的Colab链接,如LLM微调和DreamBooth训练。
●📘 完整的项目文档可以在Hugging Face的官方网站上查阅。
00
Simon的白日梦
7天前
MagickWand (开源版PS)的完整功能都能在comfyui里边使用了!🥹

GitHub - Fannovel16/ComfyUI-MagickWand: 在ComfyUI中正确实现ImageMagick

🧐该项目将ImageMagick——著名的数字图像编辑和处理软件套件——通过wandpy库整合到ComfyUI中,提供了一套完整的图像处理功能。

➡️链接:github.com

✨重点
●🎨 利用ImageMagick的强大功能,ComfyUI-MagickWand为用户提供了99种不同的图像处理方法,包括模糊、锐化、变色、阴影效果等。
●🖼️ 支持多种图像变换操作,如裁剪、翻转、旋转以及颜色空间变换等,极大地扩展了用户在数字图像处理上的可能性。
●📐 包括了对图像特征如边缘检测、线条检测的操作,以及高级功能如傅里叶变换的处理。
●🔧 项目提供了详细的安装指南,包括在Windows、Linux和Mac系统上安装ImageMagick的步骤。
●⚙️ 除了基本安装,用户还可以通过ComfyUI-Manager进行高级节点安装,进一步集成和使用MagickWand。
●👩‍💻 项目代码完全开源,包含丰富的示例和文档,帮助用户快速上手并应用到自己的项目中。
13