叛逆的西瓜的个人主页 - 即刻App

即刻App年轻人的同好社区

下载

叛逆的西瓜

37关注1被关注0夸夸

You know nothing

叛逆的西瓜

1年前

《创世贝母》

蝴蝶在暗物质腹部苏醒
翅尖抖落量子尘埃时
银河正用冰晶编织襁褓的丝络

潮水漫过月光的创口时
贝壳正在用珊瑚纹身
亿万年的盐粒结晶成星轨
在牡蛎体内反复坍缩成
珍珠质地的螺旋星云

垂死的恒星坠入深海
气泡里漂浮着未命名的星座
鳃丝过滤暗涌中的光年
每粒受精的星胚都裹着
磷光织就的透明胎衣

当脉冲波漫过陨石产道
那些未完成的日出正在孵化——
光粒在脐带里游成蝌蚪
而我们的指纹深处
蜷缩着银河系最初的掌纹

永恒正用陨石调弦
准备奏响下一个
琥珀色的纪元

0 00

叛逆的西瓜

2年前

请教下大家，目前有没有企业知识问答(rag/text2sql/text2api)相关的应用案例或者可体验的产品，想学习一下୧😂୨

0 00

叛逆的西瓜

2年前

枕霞旧梦: 被种草了视频双语对照插件Language Reator，还有任务拆解工具Magic ToDo，然后做音频记录的话，看上去通义听悟要比飞书妙记更胜一筹的样子，接下来试一试

2 00

叛逆的西瓜

2年前

歸藏: 微软和 Deepmind 的一篇论文探讨利用 LLM 从设计生成代码，这个实践经验对想做相关 Design2Code 工具的很有参考性。我整理了一下里面对我们自己通过 LLM 生成代码可能有用的提示词和经验。感兴趣可以看看。他们发现第一次生成的网页通常质量不太行，但是第二次增强提示之后 GPT-4V 生成网页代码质量明显变好，下面是对应提示词。第一次代码生成提示词：假设你是一位精通HTML和CSS的网页开发专家。当用户提供一张网页的截图给你时，你的任务是创建一个HTML文件。这个文件需要用HTML和CSS编码来精确还原截图中的网站设计。重要的是，所有的CSS样式代码都要直接写在HTML文件里，而不是链接到其他文件。如果原网页中有图片，你可以用一个名为"rick.jpg"的图片作为所有图片的替代品。即便网页中的某些图片已经被蓝色的矩形占位符替代了，你同样需要使用"rick.jpg"作为这些位置的图片。记住，你的HTML文件中不应包含任何外部文件的链接。此外，这个任务不需要你使用JavaScript编写动态交互脚本。你的重点应该放在复原网页元素的大小、文本、位置、颜色以及整体布局上。最终，你需要提供完整的HTML文件内容，其中包含了所有必要的CSS样式代码。增强提示词：作为一名擅长HTML和CSS的网页开发高手，你面临的挑战是修改一个已有的HTML文件。这个文件是用来构建一个网页的，但它目前有一些缺失或错误的部分，使得它与原网页有所不同。我将向你展示我想要创建的网页原型和目前HTML实现的网页效果。同时，我也会提供你我想在网页中包含的所有文本。你的任务是仔细比较这两个网页，并根据提供的文本内容，修改原始的HTML代码。你需要确保新的实现在外观上与参考网页完全一致。在编码时，要保证HTML代码语法正确，能够生成一个结构完整的网页。对于需要图片的地方，你可以暂时用一个名为"rick.jpg"的图片作为占位符。在进行代码修订时，请特别注意网页元素的大小、文本内容、位置布局和颜色等方面，确保最终的布局和原网页高度相似。完成后，请直接提供新修订的HTML文件内容，无需附加任何解释。 LLM 通过设计生成代码未来重点和研究方向： ◆为多模态大语言模型开发更有效的提示技巧，尤其是在处理复杂网页设计时，例如通过分步骤生成网页的不同部分。 ◆使用真实世界的网页内容来训练开放源代码的多模态大语言模型。我们的初步实验表明，直接在真实的网页上进行训练存在挑战，因为这些网页往往内容繁杂、数据杂乱。未来的研究可能会探索数据清洗和优化的方法，以实现更稳定有效的训练过程。 ◆超越传统的截图输入方式，例如，尝试使用前端设计师的Figma框架或手绘草图作为测试输入。这种方法的扩展还需要我们仔细地重新设计评估体系。 ◆将研究范围从静态网页扩展到动态网页。这意味着评估过程需要考虑网页的交互功能，而不仅仅是视觉效果的相似性。项目地址：https://salt-nlp.github.io/Design2Code/

1 00

叛逆的西瓜

2年前

原动态已删除

1 00

叛逆的西瓜

2年前

Simon的白日梦: 只需要1-4张图片就可以实现足够有意义的三维重建~？！甚至几个不是完全连续的房间都可以？ DUSt3R: Geometric 3D Vision Made Easy简化几何3D视觉任务 🧐DUSt3R是一种新颖的用于密集和无约束立体3D重建的方法，它不依赖于摄像机校准或视点姿势的先验信息，能够将多视角立体重建（MVS）简化，同时在单目/多视角深度估计和相对姿势估计方面设定了新的技术水平。 ➡️链接：https://dust3r.europe.naverlabs.com/ ✨重点 ●📸 方法创新：DUSt3R通过将成对重建问题转化为点图的回归，放松了常规投影相机模型的严格限制，从而在没有摄像机校准和视点姿势先验信息的情况下进行立体3D重建。 ●🌐 多视角重建：在提供超过两张图像的情况下，DUSt3R采用一种简单而有效的全局对齐策略，将所有成对点图表达在一个共同参考框架中。 ●🖥️ 网络架构：基于标准的Transformer编码器和解码器，利用了强大的预训练模型。 ●🔍 3D模型与深度信息：直接提供场景的3D模型和深度信息，还可以从中无缝恢复像素匹配、相对和绝对摄像机。 ●📊 实验结果：在单目/多视角深度估计和相对姿势估计等多个3D视觉任务上表现出色。 ●🌟 全能方法：DUSt3R能够统一不同的3D视觉任务，使几何3D视觉任务变得简单。

1 00

叛逆的西瓜

2年前

橘子汽水配柠檬水: 周末把comfyui +svd的教程又简化了一下。操作起来更加简单了，还是图生视频的思路，有兴趣的可以冲。

1 00

叛逆的西瓜

2年前

Simon阿文: 目前网上看到的 90% 的 AI 短片用的都是 image to video 工作流，先抽卡再拼接。之前一直懒得试，趁元宵节有空就和 @海辛Hyacinth 玩了一下，顺便分享一下我们的流程，希望对你有用。 ☁️ 【1】第一步，先找音乐。根据音乐确定视频节奏，估算需要的镜头&剪辑点。顺便推荐一下我们一直在用的版权音乐素材库 Epidemic Sound，BGM和音效都很全，还可以根据情绪来搜索。 ▶ Epidemic Sound： https://www.epidemicsound.com/ （当然，也有很多开源 AI 音乐库，只是我们不想再多抽一个环节的卡而已。）【2】第二步，先发散找现成的静帧参考，确定风格，不是上来就抽卡。目前 Midjourney 官网上的搜索已经足够好用了，你能在上面找到足够多的设计参考，简直是 AI 版的 Pinterest 。 ▶ Midjourney: http://t.cn/A6jXWLJ1 【3】第三步，根据景别组装时间线，不是上来就抽卡。当你收集了足够多的参考图后，就可以用来组建时间线了。我们一直用 Milanote 这个画布工具来进行线上协作，支持大部分的媒体类型，自由又直观。 ▶ Milanote: https://app.milanote.com/ 【4】第四步，抽静帧的卡，把风格参考图改成自己的生成图。用 Midjourney 的一大好处就是可以抄作业，直接【Copy Prompts】再调整一下关键词，一个风格完全一致的静帧就出来了，抽不到想要的再自己写。【5】第五步，抽视频的卡，但不要只局限在一个平台。其实除了主流的 Runway，还有很多值得一试的视频生成工具，Morph Studio、Stable Video 都是很好的选择。 ▶ Morph Studio: https://www.morphstudio.com/ （对，就是 @海辛Hyacinth 她们家产品，欢迎给她下需求） ▶ Stable Video：https://www.stablevideo.com/ （对，就是 SVD 的在线版，新用户有免费额度）如果你本地也部署了SVD，甚至可以线上线下一起跑，效率翻倍。【6】剪辑。反正我用剪映，我很喜欢它的自动踩点功能，找剪辑点超级方便。 ☁️ 整个小练习我们只花了1.5小时，虽然还有很多瑕疵，但我们确实不愿意花更多时间来抽卡了，毕竟这工作流的天花板就在那。好，我继续玩转绘去了~ #AI视频 #元宵节

1 00

叛逆的西瓜

2年前

嘉儿的移动城堡: 说Sora的出现拳打Runway脚踢Pika顺便端掉整个影视特效行业，我觉得格局小了，这个模型可以理解为一种新的物理学（认知世界的方式）。过年期间在家看特德姜的小说《你一生的故事》，其中提到速度时间公式是一种描述光传播路径的方式，费马原理是另一种描述光传播路径的方式，但是人类因为因果论很难理解费马原理。同理：现在的UE等游戏引擎是基于各种复杂力学公式算出来的对世界的模拟，而Sora是通过对大量数据的学习得到对的世界运转方式的理解，可能是一种pattern，这种pattern是超出人类能理解的范围的。 OpenAI自己也说这个模型在某些情况下表现的不符合物理规律（比如人在跑步机上倒着跑），说明模型对世界的理解不全面。就像人类的物理学模型（相对论、量子力学等等）在更复杂的尺度和时空下也是失效的。其实现代物理学出现也不过几百年时间，在此之前，八卦、风水、占星术都是古人淳朴的物理学。现在一种全新范式出现了，Scalling Law是第一性原理，Model取代了以前的公式。人类只需应用，不求甚解。在技术应用大爆炸时代到来之前，好好享受人类文明田园牧歌时代的最后一丝余晖。

1 00

叛逆的西瓜

2年前

BigYe程普: https://SmartExcel.cc 开源了，这是一个足够简单（调用ChatGPT的API）却又功能俱全（有登录和支付）的demo级产品。 [技术栈] 前后端：Next.js+Tailwind+Prisma 登录：Next-Auth 支付：Lemon Squeezy 部署：Vercel 你可以基于这个项目快速开发自己的SaaS产品。求Star：https://github.com/weijunext/smart-excel-ai 如果你对以上技术栈不熟悉，可以到这里边学边练：https://github.com/weijunext/nextjs-learn-demos

1 00