即刻App年轻人的同好社区
下载
App内打开

AI探索站

64554人已经加入

  • Szhans
    09:36
    记一件小事:Claude 3 有没有带来10x 体验提升?

    从理性标准来说,我不断提醒自己Claude 3 不会比GPT-4 好10倍 。[1]

    然而, 在体验和实战一个多月来,各种场景的深入和结构化Prompts 用法后,Claude 3 那惊人的性能和优美的文采不断在重塑一些新习惯。哪怕摩擦成本这么高,却能「成瘾」。这件小事,让我陷入沉思:

    曾经的企业壁垒可以转眼被创新者超越;如果连大模型都如此,何况其他的技术护城河?

    曾经的传播充满需要跨越的鸿沟,而今天AI 新品牌可以一夜成名,在自由市场的渗透速度超出想象。

    大多数决策者还没有意识到,AI 带来可能不是10x 生产力提升,而是更多对流程的重塑,产生摧枯拉朽的结果。 (如果想象不了,也不妨随附的单口视频,开心一下。 [2] )

    正如Jason Fried 一语道破,「理论上,软件可以在纸面上进行比较。但实际上,只能在经验中进行比较。」 体感是无比重要的,否则没有认知的突破。

    这件小事不断提醒我,新商业世界里不持续创新和奔跑就无法「停留在原地」。不主动拥抱新技术的大企业们会怎样? 个人应该如何学习?人的创造力在AI共生时代将如何绽放? 这些问题都萦绕在脑海中,身体力行地探索可能是最好的答案。

    反过来说, 适应与坚韧是新时代最被低估的技能,企业如是,个体亦如是~

    注释:

    [1] Claude 3 与GPT-4 的评测对比 m.okjike.com

    [2] GPT-4 制作的单口 twitter.com
    01:02
    64
  • 歸藏
    7天前
    这个可能比较重要,北大发布一个新的图像生成框架VAR。

    VAR首次使GPT风格的AR模型在图像生成上超越了Diffusion transformer。

    同时展现出了与大语言模型观察到的类似Scaling laws的规律。

    在ImageNet 256x256基准上,VAR将FID从18.65大幅提升到1.80,IS从80.4提升到356.4,推理速度提高了20倍。

    详细介绍:

    视觉自回归模型(VAR)是一种新的图像生成范式,它将自回归学习重新定义为从粗到细的"下一尺度预测"或"下一分辨率预测",有别于标准的光栅扫描"下一token预测"。

    这种简单直观的方法让自回归transformer能够快速学习视觉分布并具有良好的泛化能力:

    VAR首次使GPT风格的AR模型在图像生成上超越了扩散transformer。

    在ImageNet 256x256基准上,VAR将FID从18.65大幅提升到1.80,IS从80.4提升到356.4,推理速度提高了20倍。

    实证验证了VAR在多个维度包括图像质量、推理速度、数据效率和可扩展性上都优于Diffusion Transformer。

    随着VAR模型的扩大,它展现出了与大语言模型观察到的类似幂律缩放规律,线性相关系数接近-0.998,有力证明了这一点。

    VAR进一步展示了在下游任务如图像修复、外推和编辑上的零样本泛化能力。

    这些结果表明,VAR初步模拟了大语言模型的两个重要特性:缩放规律和零样本泛化。

    研究人员已经公开了所有模型和代码,以促进AR/VAR模型在视觉生成和统一学习中的探索。

    VAR算法为计算机视觉中的自回归算法设计提供了新的见解,有望推动这一领域的进一步发展。

    项目地址:github.com
    Demo 地址,生成速度真的非常快:var.vision
    模型下载:huggingface.co
    122
  • 歸藏
    2天前
    Vik Paruchuri 写了自己是如何从一个学历史的普通工程师,用了一年的时间学习AI并且训练出相当优秀的OCR PDF模型的历程。

    里面给了一下他自己的学习路径和学习渠道,感觉想要入门的都可以看看。

    下面是总结的文章要点和全文翻译的链接。

    1️⃣实用技能

    如果你想进入AI领域,精通编程是首要任务。

    大多数情况下,掌握数据处理技能是必不可少的。

    能够辨别何时深入研究,何时采取快速简单的方案,是非常重要的技能。

    2️⃣学习资源

    书籍《深度学习》《机器学习的数学》

    视频教程:fast ai 和 Karpathy 的视频课程

    论文:RNN 注意力机制、Transformer、切换 Transformer、LoRA、视觉 Transformer、AdamW、GPT-2

    Discord:Nous Research和EleutherAI

    3️⃣学习要点

    理解基础知识对于训练高效模型至关重要。

    寻找并解决有趣的问题是提升你所构建系统影响力的最佳途径。

    实际上,并不需要很多GPU资源。

    详细的全文翻译:quail.ink
    628
  • PlayerKang
    1天前
    MD!豆包更新 PC 端了,出了客户端和浏览器插件,直接做了个【AIGC 版本的浏览器】,截图展示了一部分。豆包虽然云雀大模型能力不是最强的,但是产品体验真的做到极致体验了,体验好到想骂人!可以去下载体验一下,各种下载过程,引导流程,在各个场景里面的点!

    (唯一一个瑕疵是下载 Mac客户端选择是否英特尔芯片那里不太友好,需要优化,普通用户是不知道什么英特尔还是 M 系列的,至少给一个引导告诉去哪里查看)
    2054
  • 效率Labs
    4天前
    AI生成PPT工具
    1935
  • CoCo陶可可
    4天前
    有木有即友知道这个用什么AI软件生成的😂😂
    4318
  • 歸藏
    7天前
    很有意思的一个研究,让 LLM 帮助培训社交沟通技能,确实有很多人需要这样的服务,LLM 又擅长这个。

    通过一个通用框架,利用大语言模型(LLM)进行社交技能训练。“AI伙伴,AI导师”框架将实际体验学习与真实场景练习和个性化反馈相结合。

    详细介绍:

    使用大语言模型进行社交技能训练的提议:

    研究者提出,可以利用大语言模型强大的对话生成能力,为社交技能练习提供一个随时可用、安全可控的环境。相关研究已经证实,当前的大语言模型已经能够较好地模拟各类人物,进行逼真的对话互动。这为将其应用于社交技能训练奠定了基础。

    AI Partner和AI Mentor框架的提出:

    论文提出了一个通用的社交技能训练框架,包括两个关键组件:AI Partner负责提供对话实践的环境,AI Mentor负责在关键节点给予个性化指导。二者协同,可以把体验式的实践学习与理论指导有机结合,有望大幅提升社交技能训练的可及性和有效性。

    使用该框架进行社交技能训练的应用场景

    该框架可以灵活应用于多个领域的社交技能训练,如心理咨询、谈判、教学等。通过调整AI Partner塑造的人物角色,以及AI Mentor搭载的领域知识库,就可以对应不同领域的训练需求。论文通过一系列案例展示了这种适用性和灵活性。

    论文地址:arxiv.org
    423
  • Szhans
    7天前
    Prompting 的核心技能可能只有一个……

    启动效应,是大脑最有趣的认知活动之一。每当一段旋律、一个拼图或一段故事出现,大脑就开始疯狂运算,猜测整个景观;不直觉的开始分析因果、构建起一个个可能的解释。

    不信的话,试着放松下来,聆听我这唱一首小曲:一闪一闪亮晶晶……(请接龙)

    启动效应的本质之一是基于先验的预测,它是多模态和多感官的。简单类比的话,Prompting 就是你如何激活大模型知识结构的「启动」。

    一旦能深刻意识到这一点,如何提升你与 AI 对话的技能、有效 激活 LLMs 效能的方法就会涌现出来了。

    通过成百上千小时的反复练习,你将意识到:真正提升 Prompt 核心技能在于,持续深化于你的认知体系。

    你无法提出你不知道的问题。
    819
  • Diiiii
    2天前
    3Blue1Brown 刚出了 Transformer 的系列科普视频,做得很好。之前看过不少讲 Transformer 的课程和文章,包括李宏毅老师的课程在内,最后都陷在矩阵运算的过程里,几乎没有能把 K、Q、V三个矩阵的象征意义讲清楚的。3Blue1Brown通过自己最擅长的动画和类比,把这套 Attention 的原理讲得比较浅显和直白。

    具体来说,“Attention 像是问每个 vector 一连串问题,然后根据这串问题的答案来更新自己。” Query 矩阵就像是在问:"Are you in English?", “Are you a noun?”, "Do you refer to a person?", "Are you a number?", "Is your tone positive?" 等等,Key 矩阵就像是 vector 对这个问题的答案,而 Value 矩阵则代表向量自己根据这个答案和相关性权重进行的自我调整。整个过程有点像是物理中的受力分析,每个 Attention Head 代表一种力,通过 Q K 找到所有施力的对象,再通过 V 来计算受力的大小, 最后,把多个 Attention Head 代表的多个力进行加总,计算出合力的方向和大小,作用在最后一个Vector上,从而指向 next embedding。之所以叫 transformer,就是指各个不同的力汇总在一起,将原本的 vector 扭曲到了一个新的方向上。

    相比之前的 RNN、LSTM 之类的模型,Transformer 的强大在于其支持并发计算。细想之下,这种并行的自注意机制颠覆了语言中的时间观,顺序不再重要。这让我想起《你一生的故事》/ 《降临》里七肢桶的语言 - 把完整的生命在眼前一下子同时铺开,没有先后,没有早晚,没有时间。类似的,Sora 中的所谓 spacetime patches,索性把空间也和时间打包在一起,颇像是爱因斯坦相对论里对“时空”的理解。或许,所谓的时间、空间,其实都是伪概念,只不过是 tokens/patches 的一种分布方式而已。还挺有趣的。

    P.S. 到目前为止看过的对 Diffusion 扩散思想的最好类比来自李宏毅老师的课程,他把扩散模型的去噪过程比作工匠雕刻石头的过程,“雕像本来就在石头里,米开朗基罗只是把不要的部分去掉”。某种程度上,这个减熵过程也颇像是逆转时间。

    【3Blue1Brown熟肉】注意力机制可视化_哔哩哔哩_bilibili

    414
  • 歸藏
    4天前
    好东西,Stable Diffusion 生态最重要的 70 篇论文精选。

    而且还根据不同的作用做了分类,除了论文地址还有对应的代码仓库和模型下载地址。

    非常适合深入学习 SD 的朋友研究。

    latentbox.com
    333