李同学-Timmy的个人主页 - 即刻App

即刻App年轻人的同好社区

下载

李同学-Timmy

295关注5被关注0夸夸

李同学-Timmy

3年前

👍

歸藏: 随着 Animatediff 视频生成流程在 Web UI 和 Comfy UI 的成熟，最近发现了很多脑洞大开的视频生成玩法，这里汇总一下最近看到的比较好的 Animatediff 生成的视频和相关讨论，内容会随时更新。首先就是@CitizenPlain这个非常出圈的 ControlNet 和 Animatediff 结合的应用： https://x.com/CitizenPlain/status/1710376812604248467?s=20 @c0nsumption_制作的这个视频和对应教程应该是这几天最早的教程，但是他没有用 UI 界面，用的代码门槛就有点高了。 https://x.com/c0nsumption_/status/1708618694421627390?s=20 @Machinedelusion 这个完成度高一点，把弹吉他的视频重绘成了春夏秋冬四季的景色。 https://x.com/Machinedelusion/status/1710604448840745419?s=20 @amli_art 除了视频之外还说了一些使用别人的 Comfy UI 流程时遇见的问题和解决办法。 https://x.com/amli_art/status/1711064088644862003?s=20 还是@CitizenPlain最早发酵的一个视频，老哥的视频效果都很好。 https://x.com/CitizenPlain/status/1708245390804332762?s=20 @CitizenPlain 的另一个实验，非常多的内容过渡很自然。 https://x.com/CitizenPlain/status/1709336639762202946?s=20 Blender简单建模生成视频后，在用 Animatediff 重绘成精细的视频内容。@TDS_95514874 https://x.com/TDS_95514874/status/1708103034214219897?s=20 Web UI 的 Animatediff 插件 Prompt travel 测试，生成的 PNG 然后用 ffmpeg 转换成的动画。@PlayShingo https://x.com/PlayShingo/status/1711308987285778704?s=20

0 00

李同学-Timmy

3年前

👍

PM贝尔熊.AI时代产品经理: 随着生成式AI技术（如Stable Diffusion、Midjourney）和个性化AI图像生成工具（如DreamBooth和LoRA）的不断发展，越来越多的人学会了如何创建静态图像。然而，现在大家已经不再满足于仅生成静态图像。最近，随着模型和算法的优化，AIGC动画趋势已经逐渐显现，不用多久，动画创作也将如Midjourney、Stable Diffusion一样飞入千家万户。我在这篇文章也有提到过相关的趋势：AIGC革命：拐点降临的内容产业，如何赢得时代先机？ https://mp.weixin.qq.com/s/L9T1QGpDLMmSStcfNVf8Vw 作为内容创作者我们要引起足够的重视，因为视频带来的流量机会和商业价值要比传统图文媒介大得多得多。在Stable Diffusion的生态中，我们洞察到两个东西。一个是ComfyUI，通过拖拽模块的方式降低了不会编程的创作者使用SD的门槛，另一个是AnimateDiff让SD能够做炫酷的动画，关键是动画效果是连续的，极大降低了闪动。AIGC动画热潮即将爆发。 https://mp.weixin.qq.com/s/EMspWso5KqvutepKEK8WjQ

0 00

李同学-Timmy

3年前

👍

彭康伟-iva: 有必要来简单回顾一下paypal黑帮。Paypal是一个由两家公司合并而成的组织，两家的创始人一个是马斯克，一个是Peter Thiel，他们形成了一个共识: 创造一家可以让成员之间相互发展长远友情的公司，即便公司不再存在，成员之间依然可以分享共同的理想，并互相扶持帮助。这个愿景逐渐编织起了一张巨大的人际网络。他们的员工不会是MBA、顾问、兄弟会成员、或者运动员，因为创始人大学时认识的每一位喜欢打篮球的人都是白痴，换句话说，他们招聘与自己类似的人。他们从来不聘请专业猎头，而是采取一种病毒模式，用员工人脉网络找人，所以找来的都是臭味相投的人。谷歌希望招聘博士，而他们则希望招聘那些放弃博士学位的人。天才也是需要同路人的，天才也需要相互激发，天才一个人能干很多事情，但一群志同道合的天才，形成网络效应，能干百倍量级的事情。

0 00

李同学-Timmy

3年前

关注下

歸藏: 尝试了一下昨天发布的文字生成视频的应用 @genmoai，相较于Pika和Runway它生成视频的清晰度确实大幅提高，而且人像的稳定性和美观度比其他两个强非常多，上来就支持镜头控制而且控制粒度更细。唯一不太好的就是还没开放图片生成视频，都只能用文字提示词。音乐是用@stableaudio做的。纯AI视频，哈哈。 Genmoai：https://www.genmo.ai/ StableAudio：https://www.stableaudio.com/

0 00

李同学-Timmy

3年前

假设，Universe有着更大的智能。
马斯克，第一性原理+切实可行的方案。
一般人，无｜无｜全无

0 00

李同学-Timmy

3年前

深以为然

Allen又在梭哈XR: 苹果的Vision pro，其实是在为两三年后的AR眼镜做应用生态铺路。苹果似乎只鼓励更适合AR的这两种形态的设计： 1、远场交互2D面板（因为未来AR眼镜的为了追求轻薄体积，性能与交互效率都会更低，不方便做复杂6dof近场交互，也更难做高对比度的虚实元素融合） 2、轻量化AR体验（因为未来AR眼镜环境感知能力偏弱，基于ARkit感知和reality kit渲染能实现的体验天花板也就是水果忍者级别的小游戏app，和场景化的应用app）除此之外的应用形态model，比如方块空间（volume）和沉浸VR空间（full space），都是在当做电脑生产力与重度娱乐生态看待的，重度的东西不需要平台扶持，也无法拔苗助长，存在痛点需求自然就会有开发者去做了，稳步发育到几年后量变产生质变，成为电脑一样的个人终端娱乐与生产力设备。所以堆料极致的Vision Pro严格意义上来说定位是iphone2/3GS/4合体的DK开发者版本，26年大规模出货的Vision1和Glass1才是真正苹果想要的一步到位不走弯路的走量MacBook与iPhone4s。整个24和25年，都看不到苹果带来的vstMR的消费级春天，还是安卓MR阵营卡在了游戏机与个人设备中间的不上不下尴尬定位，尽管行业体量也在快速增长这对于XR从业者来说已经颇为舒服，但远远称不上咸鱼翻身。换句话来说，24和25这两年时间就是留给创业公司最好的发育窗口期，也是行业技术快速发展期，比如眼动、OLED屏、结构设计与堆叠技术、AI多模态、环境感知SDK、多任务系统、轻应用生态等等，直到26年初时产业厚积薄发时，就要跟所有巨头带着资本的热钱拼刺刀了。下方视频是一个在Quest Pro上实现VisionOS的演示，尽管XR应用层的春天还没来，但热爱XR的我们仍旧享受地欣赏着冬末时的美景，欢迎有信仰的【UnityXR开发】和【AI模型工程开发】来投递简历：allenxiang@portalxr.ai（Base上海）。

0 00

李同学-Timmy

3年前

围观

萧墨: Ai 七问： 1、PC时代诞生了各大网站，移动互联网时代诞生了各大App。那么Ai时代，需要新的智能设备吗？ 2、在社交＋视频吃掉国民70%屏幕时间的今天，Ai产品能抢走哪些产品的时间？ 3、所谓的web2.0产品，已经解决了绝大部分的用户需求，Ai产品想创造商业价值，是创造新的需求，还是更好的满足旧需求？ 4、Ai的底层建立在随机上，那么在底层随机的情况下，怎么保证商业品质的稳定交付？ 5、在Ai秀肌肉的几个领域，翻译、围棋、绘画、问答上，Ai产生了多大的商业价值？ 6、怎么定义Ai产品和非Ai产品？推荐系统算Ai吗？ 7、Ai造成了更难打破的垄断，还是打破了垄断？

0 00

李同学-Timmy

3年前

👍

歸藏: 手把手教你训练你自己的AI歌手，最重要的一步来了。如何训练歌手的模型。这一步主要由两部分组成数据处理和模型训练。感谢各位的支持，下面是具体步骤🧶 详细教程和文件下载可以看这里：https://mp.weixin.qq.com/s/IeeW1PbMUbxMlLl529JTYQ 首先我们需要准备你训练的人的声音素材，尽量找质量比较高人声比较清晰的音频。歌手的声音素材是比较好找的，因为他们的歌就是天然的素材，我们在训练的时候最少要准备30分钟以上的人声素材，一般一个小时到两个小时最好。但是声音的质量大于时间长度，不要为了凑数搞一些质量不那么好的素材。在准备好足够的声音素材之后我们开始对素材进行处理，跟第一期一样，先把我们的素材转换为WAV格式，批量转换的话还是用格式工厂之类的本地软件比较快。获取到我们个WAV格式素材之后，继续进行跟上个教程一样的步骤利用UVR去掉我们素材的伴奏以及混响之类的声音，只留下单纯的人声。处理完成后扔掉分离出来的伴奏，只留下人声素材，整理好备用。类似我下图这样扔到一个文件夹里。接下来我们要对处理好的人声文件进行分割，因为如果训练的时候每段文件过长的话容易爆显存。这个时候就要用到下载文件里的【slicer-gui】这个软件了，它可以自动把声音素材分割成合适的大小。我们先打开slicer-gui，刚开始的参数按我的来就行。把你你准备好的人声素材拖到【Task List】里面，在Output位置设置好输出文件夹的位置，然后点Start就可以开始分割了。处理好的文件，基本上就是下面这个文件的样子，处理完成后在输出文件夹把文件从大到小排序，看一下最大的文件时多长的，分割完的素材每一段尽量不要超过15秒。不然有可能会爆显存。如果你发现有几条素材比较大的话可以拖进slicer-gui里面重新分割一下，参数按我下面图片设置就行。所有数据处理好之后，我们准备开始训练了首先需要把准备好的素材移动到so-vits-svcdataset_raw这个文件夹下，注意不要直接把素材放在dataset_raw文件夹里，拿个文件夹装好放进去，所有的目录不要有中文字符。我们开始模型训练，运行so-vits-svc根目录的【启动webui.bat】打开Web UI界面，切换到训练Tab下面。然后点击识别数据集，这时候上面就会展示你数据集文件夹的名字，也会是你模型的名字。之后就是选择与训练分支了，【vec768-layer12】好像效果会好一些，所以这里我选了这个分支。后就是点击【数据预处理】。注意这里有个大坑，昨天折腾了我好久，你需要看一下你数据集里面有多少条数据，如果有几百条的的话，你需要把虚拟内存调大点，至于如何调整虚拟内存，这个百度就行，有很多教程。开始数据预处理之后这个框会有非常多的信息，基本都是进度到百分之几了，如果预处理出错，在这个框的最后会展示报错信息，如果没错这个回显的基本就到100%就结束了。如果你数据预处理完了，不想看那一堆信息的话可以点那个【清空输出信息】。数据处理完之后我们来看一下下面的几个参数，调整一下，准备开始训练。每多少步生成一次评估日志这里，用默认的200步就行【每隔多少步(steps)验证并保存一次模型】这里默认的800步也就够了，他的意思是每训练800步就会保存一次模型，这个保存的模型你是可以用的【仅保留最新的X个模型】这个就是字面意思如果每800步保存一次模型的话，你训练到8800的时候第800步的模型就会被自动删除，一个模型大概有1G左右这里看你的硬盘【批量大小】这个参数跟你的显卡的显存有关，6G建议是4，我的4070Ti是12G我昨天设置的8，我有点怂，其实12也行，我怕爆显存。上面几个参数设置完之后，我们选择当前训练分支跟我们数据预处理的时候的一致就行，然后点击写入配置文件，输出信息那里会有写入的结果，如果有报错也会显示在那里。如果你是第一次训练点击这个【从头开始训练】就行，如果你之前训练过你还想继续训练的话就点这个【继续上一次训练进度】。如果你之前有训练进度，然后你点了【从头开始】的话你的训练进度就会被清空，从新开始从第0步训练。在你点击按钮之后会弹出这样一个弹窗里面就是训练进度，我框起来的地方就是每200步输出的信息，那个loss的值就是判断模型质量好坏的标准，越低越好。如果你觉得现在的已经可以了的话按CTAL+C键就会停止训练，你可以去推理tab下尝试你的模型，如果不满意还是可以重新回来训练的。注意你如果设置的每800步保存的话起码要到800才能暂停训练，不然没有保存的模型供你使用。如果你觉得可以了暂停训练之后回到推理 Tab 就能看到你刚才训练的模型了，可能会有好几个因为你选的最多保留十个。按照我们第一期的内容正常使用就可以了。以上就是AI歌手的最后一部分内容了，感谢各位，如果觉得对你有帮助的话可以推荐给你的朋友。详细教程和文件可以在这里查看：https://mp.weixin.qq.com/s/IeeW1PbMUbxMlLl529JTYQ

0 00

李同学-Timmy

3年前

棒

JimmyWang: 分享几个最近看到的不错的教程： 1）Python：每节课大概 10 分钟，而且所有练习都在云端，不用管环境，打开就学。另外我很看好 Replit 这个产品。https://replit.com/learn/100-days-of-python 2）React：官方文档也很不错，如果想看视频，我推荐这个 https://scrimba.com/learn/learnreact 3）Introduction to ML and AI ：目前看过讲 ML 最清晰的视频。https://www.youtube.com/watch?v=lYWt-aCnE2U 4） Deep learning：看这个教程前，你可能需要一点 Python 基础。讲得非常好，而且有配套书籍教材 https://course.fast.ai/ 最后推荐一个插件吧：我个人觉得它的场景比 AI summary 更有价值，也更高频 https://www.trancy.org/

0 00

李同学-Timmy

3年前

学习了

KOPwu: “我这个赛道有多大的体量？” “我所在的品类有没有足够的规模？” 最近跟朋友聊天比较多见的问题，说一下我的思考，欢迎讨论： 1. 首先还是要想清楚，为什么要规模化？一定要规模化吗？商业世界会列举规模效应的各种好处，但很少有人告诉我们，这也必然要付出对应的代价，绝大多数人是走不到那一天的，反而过程中可能失去更多，且没有底限。 2. 另一方面，几乎所有的产品又都可以发展出足够的规模，也没有上限，一瓶“糖水”可以是可口可乐，一瓶“盐水”可以是宝矿力水特，一件瑜伽服可以成为lululemon，一块塑料片也可以成为乐高宇宙，所以并不是品类或赛道决定了规模，而是企业持续创造了多少价值。 3. 企业经营的本质就是创造价值，通过商业化应用兑现价值，事实也是如此，有多少能力就兑换多少价值，我们关注规模，先要关注能力，规模不是目标，它是能力的结果，也是能力的验证，核心的能力是组织力，产品力和品牌力。 4. 产品不到阶段，规模只会让负面体验也扩大，品牌不到火候，大分销可能会失去对局面的控制，认知不到层级，战略定力不够容易被鼓动带偏，看到棍子就是杠杆，遇到弯道就要超车，结果飞出赛道。 5. 还是那句话，有多少能力就兑现多少价值，实践出能力，能力出价值，多点实践，更加具体，多些耐心，更加坚定，查理芒格说，拥有长时间的注意力且可以长时间集中于一件事的能力是巨大的优势，巨大的。 6. 不是只有规模化才是所谓的终局，特别是消费品，不是赢家通吃，这世界有多样的商业形态，也有不断自我迭代的商业公司，无论大而伟的apple，还是小而美的d&department，他们都有一个共同点，他们不是资本和市场的做题家，他们首先是不断生长的本我。也没做好，只是共勉。

0 00