即刻App年轻人的同好社区
下载
App内打开

AI探索站

60646人已经加入

  • 潦草学者
    1天前
    一个让 Notion AI 帮助更好思考,更好做笔记的方法

    Zettelkasten (卡片笔记法) 中提倡在记录笔记时,尽可能地创造更多笔记之间的双向连接,将知识点链接起来,并引发思考。这个过程很类似于大脑的思考过程,在知识之间创造起关联,可以帮助我们更好地记录笔记。

    在没有 AI 之前,这些联系只能依靠人脑的记忆和思考。

    但在有了 AI 以后,AI 更擅长帮助去寻找这样的链接。(基于语义的向量库搜索,是这一过程的最佳解决技术支撑)

    我的笔记都记录在 Notion 中,所以我使用 Notion AI 来帮助我寻找更多地关联。

    就像图片里这样,当我在记录有关“排序算法”的笔记时,点开右下角的 AI 按钮,prompt 输入:
    ```
    观点:{{观点内容}}

    找到说明了类似或相反的观点的 page
    ```

    Notion AI 就会使用向量化搜索,自动匹配关联的页面,并将其总结发给我。

    依据 Notion AI 提供的页面链接和总结,我就可以在笔记之间创造出更多的关联。

    同时,这个记录笔记的过程,也是将新的笔记和旧的笔记联系在一起,加深了记忆,也加深了理解。
    00
  • 海辛Hyacinth
    3天前
    我和@Simon阿文 会在 2024 VisionOS 大会上给一个关于在 Vision Pro 上进行 AI 设计可能性的 talk. 谢谢@SketchK @雨医生 的邀请!

    大会嘉宾还有 Apple Design Award 提名的Jordi,获得 VisionOS 首发推荐应用的Devin (Crouton), Hidde(NowPlaying), Oliver(Day Ahead), 还有 VisionOS 30 Days的作者 Satoshi,Kodeco 网站的VisionOS 教程作者Tim.

    如果你对 VisionOS 感兴趣且3月30-31日在北京的话,那你一定不会想要错过:letsvisionos24.swiftgg.team
    72
  • 哥飞
    2天前
    有人基于这个模型
    replicate.com
    做了个AI贴纸生成网站
    stickerbaker.com
    还开源了
    github.com
    哥飞生成了一个 panda cat 贴纸,效果还不错。
    1140
  • NicoleChan
    1天前
    分享一个使用kimi的万能公式,无需记住任何提示词,只需要问kimi一个问题:
    【一个(xxx职业)需要具备哪些知识?】
    Kimi就可以给出知识框架,然后你根据知识框架每一个小点去问,就能让kimi帮你思考啦~
    得出的信息比单个提示词要多很多

    如下这个例子,kimi给出来12个能力,每个能力分10步的话,我能得到的信息是120条!
    #AI工作流 #AI的神奇用法

    示例:(括号可改成你的问题)
    一个CEO应该具备哪些知识?
    如果你是一个CEO,你使用(战略规划与管理来决策,)需要分为哪几步?
    你是一个CEO,请以上面(10)步来帮我做决策:我需要(建立一个帮助金融投资者交流并且通过社群和知识付费赚钱的社群,)每一步都以表格的形式展现你的思考过程
    好,接下来每一个步骤详细分析,第一步:(愿景和使命定义)
    很棒,按照这个架构,第二步:(环境分析)
    第三步:(战略制定)
    第四步:(战略选择)
    第五步:(战略实施)
    第六步:(监控和评估)
    第七步:(调整和优化)
    第八步:(沟通和文化建设)
    第九步:(风险管理)
    第十步:(持续改进)
    427
  • 歸藏
    1天前
    换回 Flomo 记录信息的同时发现Twitter 的信息不太好同步,就自己用 GPT-4 写了一个 Twitter to flomo 的浏览器插件。

    发现现在上下文长度长了以后,写这种小项目的门槛更低了。总共用了不超过 4 个小时就搞完了。

    👇下面有用 GPT-4 写这个项目的提示技巧、插件使用方法以及插件下载:

    ## 总结的一些技巧:

    补充开发文档:

    告诉 GPT 谷歌已经讲浏览器扩展的Manifest V2改为了Manifest V3,并且将对应的更改内容文档上传到 GPT,告诉他根据这个编写代码。

    先实现核心能力:

    建议刚开始只实现最核心的功能,对于我这个项目来说就是获取推特内容,然后传输到 flomo 。

    提供必要信息:

    比如 GPT 显然是不知道 Flomo 的 API 格式的,你需要把对应的文档发给他,我都是直接全选文档页面内容,然后保存成 MD 格式。

    善用控制台 log 和报错信息:

    刚开始如果报错可以复制报错信息让 GPT 分析并改进,如果改了几次没改好,就想办法用 log 获取更多信息,比如我这个核心功能主要有两部分,先是获取信息,然后是传输,我们需要确定是哪一步错了,就可以让他在对应阶段完成的时候在控制台打印输出的 log 信息。

    及时上传代码:

    发现 GPT-4 输出的代码无法与原有代码对应的时候,应该及时重新上传现在完整的代码,防止他忘的越来越多。

    最重要的立刻去做:

    其实没有那么难,不要想那么多我不会写提示词也没有开发经验怎么办,GPT 都会告诉你,开始问出第一个问题是最难的一步。

    这是这个项目与 GPT 的完整对话记录:chat.openai.com

    ## 如何使用

    点击Github 页面右上角的 Code 按钮选择 Downlaod zip 按钮将插件文件下载到本地。

    打开浏览器扩展页面,打开开发者模式,选择加载解压的扩展程序选择解压后的文件夹。

    加载之后点开插件图标,点击 Setting 按钮,进入设置页面。

    你可以在 Flomo 的扩展中心&API 页面找到你的专属 API,填写到Flomo URL输入框就行。

    Content Prefix是你希望同步到 flomo 时内容的标签,主要填写时前面需要加#。

    点击Save 之后就可以使用了,支持右键保存到 Flomo 以及点击插件图标内的Send Current Flomo 保存。

    插件下载:github.com
    828
  • Simon阿文
    4天前
    目前网上看到的 90% 的 AI 短片用的都是 image to video 工作流,先抽卡再拼接。

    之前一直懒得试,趁元宵节有空就和 @海辛Hyacinth 玩了一下,顺便分享一下我们的流程,希望对你有用。

    ☁️

    【1】第一步,先找音乐。
    根据音乐确定视频节奏,估算需要的镜头&剪辑点。顺便推荐一下我们一直在用的版权音乐素材库 Epidemic Sound,BGM和音效都很全,还可以根据情绪来搜索。
    ▶ Epidemic Sound: www.epidemicsound.com

    (当然,也有很多开源 AI 音乐库,只是我们不想再多抽一个环节的卡而已。)

    【2】第二步,先发散找现成的静帧参考,确定风格,不是上来就抽卡。
    目前 Midjourney 官网上的搜索已经足够好用了,你能在上面找到足够多的设计参考,简直是 AI 版的 Pinterest 。
    ▶ Midjourney: t.cn

    【3】第三步,根据景别组装时间线,不是上来就抽卡。
    当你收集了足够多的参考图后,就可以用来组建时间线了。我们一直用 Milanote 这个画布工具来进行线上协作,支持大部分的媒体类型,自由又直观。
    ▶ Milanote: app.milanote.com

    【4】第四步,抽静帧的卡,把风格参考图改成自己的生成图。
    用 Midjourney 的一大好处就是可以抄作业,直接 【Copy Prompts】再调整一下关键词,一个风格完全一致的静帧就出来了,抽不到想要的再自己写。

    【5】第五步,抽视频的卡,但不要只局限在一个平台。
    其实除了主流的 Runway,还有很多值得一试的视频生成工具,Morph Studio、Stable Video 都是很好的选择。

    ▶ Morph Studio: www.morphstudio.com (对,就是 @海辛Hyacinth 她们家产品,欢迎给她下需求)
    ▶ Stable Video:www.stablevideo.com (对,就是 SVD 的在线版,新用户有免费额度)

    如果你本地也部署了SVD,甚至可以线上线下一起跑,效率翻倍。

    【6】剪辑。
    反正我用剪映,我很喜欢它的自动踩点功能,找剪辑点超级方便。

    ☁️

    整个小练习我们只花了1.5小时,虽然还有很多瑕疵,但我们确实不愿意花更多时间来抽卡了,毕竟这工作流的天花板就在那。

    好,我继续玩转绘去了~

    #AI视频 #元宵节
    00:28
    18150
  • NicoleChan
    4天前
    一键让AI帮忙写一本书😆
    #AI工作流 #AI的神奇用法
    prompt提示词如下:
    Generate book title about: #Book topic - stick to this topic Generate book title with provided keyword Generate 11 book chapters with the topic provided and list them Generate detailed book intro with the title provided and more then ~500 word Write Chapter 1 with detailed information and more then ~1000 words per topic Write Chapter 2 with detailed information and more then ~1000 words per topic Write Chapter 3 with detailed information and more then ~1000 words per topic Write Chapter 4 with detailed information and more then ~1000 words per topic Write Chapter 5 with detailed information and more then ~1000 words per topic Write Chapter 6 with detailed information and more then ~1000 words per topic Write Chapter 7 with detailed information and more then ~1000 words per topic Write Chapter 8 with detailed information and more then ~1000 words per topic Write Chapter 9 with detailed information and more then ~1000 words per topic Write Chapter 10 with detailed information and more then ~1000 words per topic Write Chapter 11 with detailed information and more then ~1000 words per topic Generate summary book conclusion with the title provided and more then ~500 word CRITICAL: My platform can handle markup, html and other code. Please complete the CRITICAL commands in code and not plain text (do not use color anywhere) CRITICAL: When you finish EACH chapter, please CREATE a INSTRUCTIONS section in BOLD text for the user to instruct the next chapter by giving them these instructions: Please type "next chapter in order for me to write the next chapter" CRITICAL: Include an H1 heading to introduce the main topic with CSS CRITICAL: Utilize H2 headings to divide the content into logical sections with CSS CRITICAL: Apply bold formatting where appropriate to emphasize important points with CSS CRITICAL: Incorporate blockquotes for any relevant quotes or excerpts from external source with CSS CRITICAL: The critical instructions are MEANT to be followed on ALL chapters and on all of the messages on this thread (you cannot miss the critical instructions on future messages)
    951
  • 歸藏
    9天前
    Meta 发布了一个可以利用 AI 自动剪辑视频的 Agents LAVE。
    这玩意再加上 Sora 这样的视频生成模型,一些简单的短视频以及广告视频基本上就不需要人工介入了,大家以后刷的估计都是生成出来的视频了,想要啥有啥。

    我下面会简单介绍一下这个剪辑工具的界面组成和 Agents 设计:

    -----------工具界面及交互(图 1)-----------

    A 区域主要是输入提示词以及展示 LLM 详细的剪辑逻辑。

    B 区域是素材库,你可以鼠标 Hover 后获得 LLM 帮你总结的这段视频的内容,不需要播放查看, AI 也会自动生成的素材标题。

    E 区域就是传统的视频时间轴,AI 剪辑的视频就在这里,你也可以手动调整。

    -----------Agents 设计(图 2)-----------

    1️⃣系统提示前言:

    角色分配:一个开场段指示Agents担任视频编辑助理,负责根据用户命令生成行动计划。

    动作描述:在角色分配之后,描述了Agents可以执行的一系列动作。每个动作对应于LAVE支持的编辑功能。详细说明了每个动作的功能和用例,帮助Agents选择适当的响应以满足用户的命令。

    格式指导:最后,指导Agents以一致的格式输出行动计划:首先确定用户的编辑目标,然后列出逐步计划,列举建议的行动以实现该目标。

    其他系统提示:

    在前言之后,附加了最近的对话历史,以及最新的用户输入。这种组合形成了发送给LLM以生成行动计划的完整提示。

    2️⃣制定行动计划后,将其提交给用户进行批准:

    与批量批准不同,每个行动都由用户依次批准。这种方法允许用户执行一个行动,观察其结果,然后决定是否继续进行下一个行动。LAVE从行动计划中解析每个行动描述,并将其转化为相应的后端函数调用。

    3️⃣LAVE支持五种LLM功能:

    1)素材概览,2)创意头脑风暴,3)视频检索,4)故事板,5)剪辑修剪。前四种功能可通过Agents访问,而剪辑修剪可通过双击编辑时间轴上的剪辑时出现的窗口进行。

    其中,基于语言的视频检索是通过向量存储数据库实现的,而其余功能则是通过LLM提示工程实现的。所有功能都是基于自动生成的语言构建的。

    生成视觉叙述:以每秒一帧的速率对视频帧进行采样。然后使用建立在Vicuna-V1-13B 的LLaMA-V1-13B模型 的fine-tuned检查点LLaVA v1.0对每帧进行标题标注。

    检索功能利用向量存储:通过使用OpenAI的text-embedding-ada-002将每个视频的视觉叙述(标题和摘要)进行嵌入。

    将视频整合成共同的主题:提供用户视频收藏中主题的摘要。提示包括一个功能指令,然后是画廊视频的视觉叙述。然后将此提示发送到LLM以生成概览,随后在聊天界面中呈现给用户进行审阅。

    基于用户的所有视频进行视频编辑创意:提示结构以功能指令开头。如果提供了创意指导,会在提示中包含用户的创意指导,以引导头脑风暴。

    根据用户提供的叙述在序列中剪辑视频片段:与以前的功能不同,它只影响时间轴上的视频。与头脑风暴类似,系统会检查用户提供的叙述中是否有任何创意指导。

    4️⃣LAVE应用构建:

    LAVE系统实现为全栈Web应用程序。前端UI采用React.js开发,而后端服务器采用Flask。对于LLM推理,主要使用OpenAI的最新GPT-4模型。然而,为了将行动计划映射到功能,使用了gpt-4-0613检查点,专门针对函数调用的使用进行了微调。

    论文地址:arxiv.org
    8118
  • 范冰
    1天前
    李一舟果不其然翻车,还是猥琐发育、闷声发财好。

    推荐一个优质替代资源,我一直 pin 在公司内部飞书群组顶上。

    可能是最好的中文 AI 免费知识库:WaytoAGI.com

    顺带推荐今晚这个项目幕后操盘手的直播分享:

    mp.weixin.qq.com
    424
  • 歸藏
    11:59
    阿里又tm 整了个大活,输入图片和音频就可以生成富有表现力的视频,并且嘴型是可以跟声音匹配的。

    支持多语言、谈话、唱歌以及快语速的适配,这玩意又是一个造假利器,这下可能很多名人真要说“不是我说的,你别瞎说”了。

    可以根据输入视频的长度生成任意持续时间的视频。

    实现方式:

    该方法主要分为两个阶段。第一阶段是“帧编码”阶段,在这个阶段,我们使用 ReferenceNet 来从参考图像和运动帧中提取特征。随后进入“扩散过程”阶段,在这一阶段,一个预先训练好的音频编码器用于处理音频数据的嵌入。此外,面部区域的掩码与多帧的噪声数据结合在一起,用于引导面部图像的生成过程。

    紧接着,我们使用 Backbone Network 来执行去噪处理。在 Backbone Network 中,我们运用了两种关键的注意力机制:一种是基于参考图像的“参考注意力(Reference-Attention)”,另一种是基于音频的“音频注意力(Audio-Attention)”。

    这两种机制对于确保角色的面部特征保持一致和调整角色的面部运动至关重要。最后,我们还利用了时间模块来调节图像的时间维度,使角色的运动速度得以调整。这些组合在一起构成了我们的整体框架。

    项目地址:humanaigc.github.io
    01:49
    843