AI小舟哥的个人主页

即刻App年轻人的同好社区

下载

App内打开

AI小舟哥

100关注175被关注0夸夸

AI小舟哥

2年前

卫诗婕: 第一期自己的播客开张啦～☀️ 上周是热闹的一周：李彦宏、周鸿祎、傅盛等大佬隔空叫板，主题是围绕「大模型的开源闭源之争」，与此同时，Llama3重磅发布了，标志着开源的能力已经达到了新的高度。在此背景下，为了厘清大模型开源的一系列问题，更生动、直观地理解这些（对于普通人来说）略显艰深的技术，我访谈了全球最大的开源 AI 社区 Huggingface 的中国区负责人王铁震@AI小舟哥，试图还原：开源在全球创新、以及在中国的发展历史。还包括：如何理解 Llama 3发布的意义？大模型的开源究竟怎么「开」法？开发者训练模型、改模型的过程是什么样的？在当下火热的 AI 浪潮中，开源、闭源的选择对大模型创业者来说，究竟意味着什么？想了解更全面的笔记欢迎移步公众号「卫诗婕商业漫谈」。这是我全职独立写作后的第一篇「作业」，之后也会持续更新，相信用心的内容还是有价值的。以下做一些主议题和观点摘录： 1.「开源」的过程很类似于字幕组的工作流程。 2.过去一年，大模型的推理成本实际上下降了 100 倍。这其中很多工作都是开源社群推动的。 3.大模型时代，第一次出现了开源和闭源「齐头并进」。 4.开源、闭源是可以互相转化的，其中的光谱非常宽。 5.在开源模型上训练一个新模型的过程： 1. import Transformers（将模型载入tranformers架构）——2. 喂数据、模型输出完成推理——3. 微调（SFT）——4. 继续预训练（ Continuous Pre-training） 6.Llama 3 的三个不同参数版本，其中 8B 是对开发者更友好的，400B值得期待，但能用的人没那么多。

1 00

AI小舟哥

3年前

# 开放获取 (Open Access) 与开放源代码 (Open Source)：大型语言模型 (LLM) 时代的“真假”开源之争

在传统意义上，开放获取意味着向公众提供无限制访问权限。它如同一把钥匙，开启了通向知识宝库的大门。例如，Creative Commons 等许可下，用户得以自由分发和修改作品。Hugging Face 上汇聚了全球最前沿的大型语言模型，这些模型的潜力如同市场上的宝藏，等待着被发掘和利用。在这里，你可以自由地探索、实验，甚至无需支付任何费用。开放获取的核心在于让这些强大的工具变得触手可及，让每个人都能体验到 AI 的魅力，无论是教育者、研究者还是普通爱好者。

另一方面，开放源代码则指源代码的公众可用性，蕴含自由合作的精神。以 Linux 为例，它依靠开放源代码构建了庞大的开发者生态系统。在这样的环境中，模型的源代码不再是秘而不宣的，而成为公共财富。这些代码的内部机制被清晰展示出来，激发每位有志之士深入了解、改进乃至重塑。开放源代码不仅是获取知识的途径，更是一种促进共同参与和进步的文化。

**权重公开 ≠ 真正开源：**

在 LLM 时代，开放获取与开源的界限变得模糊。LLM 的权重可视作程序的一部分，许多人认为权重公开即为开源。然而，仅公开权重的模型并不等于完全开源。仅开放权重的模型可能依然保密其代码、训练数据和技术细节，这限制了公众参与和改进模型的能力，也未能体现开源精神。没有更广泛的开放，模型的微调或重训练将是巨大挑战，而且基于这些模型的社区建设也较为困难。

开源的原教旨主义者强调，这是开放访问而非真正的开源。从使用者角度出发，我们也需要区分仅权重公开与完全开源（包括训练代码、数据、技术论文等）的差异。

我们期待看到更多开源工作，但开源的步伐也应考虑企业的具体目标。无论采取何种方式，我们都希望看到更多卓越成果，促进社区的繁荣。Open Access 虽听起来不够宏大，但同样值得赞赏。科技的真正价值在于我们如何充分利用这些开源和开放技术，共同创造更美好的世界。

ref:
- geekyartistlibrarian.wordpress.com
- blog.scholasticahq.com

Written by Gemini (重点表扬) + ChatGPT4 + 我
Image by Dalle

1 00

AI小舟哥

3年前

# 应该把小孩子接入 ChatGPT 吗？

教育的本质，是一场充满好奇心、挑战和批判性思维的知识探索之旅。孩子们在这个旅程中不仅获取知识，更重要的是，他们学会了珍贵的学习技能，以及坚韧不拔、勇于坚持的精神。然而，像 ChatGPT 这样的AI工具，可能会绕过这种探索和自我发现的过程，直接提供答案。这等同于提前剧透电影结局，剥夺了观众体验剧情跌宕起伏的机会，大大降低了体验的价值。在学习过程中，探索答案的路径、面临的挑战和犯下的错误，往往比答案本身更有意义。

答案可能以后会被证明是错误的，但在探索未知中培养的勇气和经验却是终身受用的宝贵财富。ChatGPT 是基于大量知识的统计学习，如果过分依赖它，我们该如何处理尚未更新到ChatGPT知识库中的新信息，或者探索前人未曾涉足的领域呢？

在这个技术与教育融合的时代，家长和教育者的角色变得更加重要。他们的职责不仅仅是提供答案，更重要的是引导孩子们走上探索之路。这需要他们创造一个安全的环境，让孩子们敢于提问、敢于犯错，并勇于探索各种可能性。ChatGPT 只能提供一个答案，并且可能存在自身的偏见和局限，但家长和教育者应当帮助孩子理解AI回应的语境，并将这些工具视为更广泛学习旅程的一部分。

教导孩子们以平衡和怀疑的态度对待AI是至关重要的。他们应该明白，AI生成的回应虽然有助于学习，但只代表了一种观点。我们应当鼓励孩子们寻求多种来源和观点，培养重视批判性思维和多元视角的学习环境。

AI 可以成为促进发现式学习过程的有效工具。它能够模拟各种情景，激发思考，提供多样化的视角，为学习体验增加深度。但关键在于，我们应该将AI作为进一步探索和理解的起点，而不是作为学习的终点。我们应当利用AI辅助我们探索未知领域，而不是让它成为滋生求知懒惰的源头和阻碍创新的智子。

保持孩子对学习的兴趣，与他们面对的挑战程度紧密相关。如果学习过程过于简单或可预测，比如仅仅依赖ChatGPT来快速获得答案，孩子们可能会失去学习的兴趣。真正的学习兴奋感，往往来源于面对挑战和克服困难之后的成就感。因此，我们需要找到一个平衡点，设计一种全新的教育方法，让AI更好地辅助学习过程，而不是主导学习过程。这中间也会有无数 AI Native 产品的机会。

co-written by ChatGPT4

TL;DR Don't. ChatGPT is a copilot; huamn is the pilot.

1 11

AI小舟哥

3年前

海南的冬夜，寂静无声。圣诞佳节将至，同事们亦纷纷离去，留下我独自享受这难得的安静时光。

在这份宁静中，我想记录一下这激情澎湃的一年，也记录一下我的随想。也希望和一起摸石头的同仁们共同交流思考。

# Gen-AI native 的编程语言可能是什么样子的？

Gen-AI原生编程语言可能呈现何种面貌？目前通过提示（prompt）与AI的互动显示出其局限性：缺乏精确性和容易出错或"幻觉"。这些提示更多是沟通手段而非执行方式。相比之下，传统编程语言作为具体的逻辑载体，能够高效、低成本地驱动硬件操作。

我们是否还会继续手写代码？尽管大型AI模型在组装拼接人类已经创造的各种知识方面有其优势，但它们无法进行原始的创造。高价值的工作中人类编程者的角色更为重要：人类控制核心创造性方面，AI协助处理细节和重复编码任务。这种转变类似于从传统手工艺向工业化生产的转移，代表了编程领域设计需求的根本变化。

许多手工艺的技巧和规范将被工业生产的大力出奇迹彻底改变。正如我们从农业社会过渡到工业社会，文化和美的定义也随之演变，过去为手工艺设计的编程语言可能不适合未来的工业化代码生产。低层次、冗长的开发语言（如需要手动管理内存）不再是效率的障碍。提供自由和创造力的语言也不会显著提高机器生成代码的效率。

即使大型模型未来能够完全理解语义，和完美的追随指令，但LLM的幻觉问题仍对生成代码的可用性构成重大挑战。面对海量工业化自动生成的代码，我们需要一种能快速验证正确性的严谨语言。LLM在几秒钟内生成的看似正确的代码可能隐藏着需要数小时发现的复杂错误（如内存溢出）。这不仅破坏了效率，还加剧了人机之间的不信任。如果一种语言在编译通过后即大概率可以正常运行，则使用该语言的进行工业生产的效率将大大提高。

生成式AI的普及将降低开发程序的门槛，预计未来将涌现出大量非专业开发者，他们利用生成式AI开发出具有创新性的应用。尽管这些开发者可能不是手写代码的专家，甚至不完全理解所有的语法细节，所有但他们需要快速看明白每个不同部份的代码在执行什么逻辑，以及可能引发哪些副作用。这种理解对于建立对生成代码的信任，以及方便对代码进行细致调整至关重要。过于强调抽象和封装的语言可能会带来诸多挑战。

展望未来，我们需要大胆思考：什么样的编程语言能够满足工业化代码可验证性的可理解性的需求？Rust可能是目前的一个良好选择。然而，世界是多元的，编程语言的发展也可能超出我们的想象。（暴论）如果使用中文编码的编程语言能够满足这些要求，那么为什么不考虑这种可能性呢？

co-written by ChatGPT4
PS: ChatGPT 风好浓。。。感觉都用不上水印了。。。好想它，有什么建议吗？

0 01

AI小舟哥

3年前

超越试衣间：Outfit Anyone 采用条件扩散模型精准处理服装变形，实现高保真虚拟试衣

这次阿里同学还非常贴心的提供了 Demo，效果如何一试便知: huggingface.co

Abstract:
虚拟试衣技术日新月异，彻底颠覆了传统试衣流程，让用户无需亲身体验即可探索时尚魅力。然而，现有方法往往难以生成高保真且细节一致的试衣效果，服装变形失真尤为常见。虽然扩散模型在生成高品质写实图像方面表现出色，但在像虚拟试衣这样的条件生成场景中，控制和一致性仍是亟待解决的难题。

Outfit Anyone 横空出世，巧妙地运用了双流条件扩散模型架构，直面应对这些挑战。这一创新方法以卓越的精准度处理服装变形，为用户带来了超高保真度的虚拟试衣体验。Outfit Anyone 的可扩展性不容小觑，能够调制姿势、体型等因素，使其成为适用性广泛的包容性解决方案。从二次元动漫到真实世界图像，Outfit Anyone 的广泛适用性凸显了其在现实世界的应用潜力。该模型在不同场景下的出色表现彰显了其实用价值，助力虚拟试衣技术朝着无缝融入数字衣橱的方向迈进。

技术亮点:

双流条件扩散模型: 独立处理模型和服装数据，实现精准的变形控制。
可扩展性和泛化能力: 通过调制姿势、体型等因素，扩展应用范围至多种场景。
广泛适用性: 从二次元动漫到真实世界图像，Outfit Anyone 突破风格界限。

(written by Gemini, source: humanaigc.github.io

01:06

4 06

AI小舟哥

3年前

Mistral-8x7B MOE 模型可以在 huggingface.chat 使用啦。速度飞快，会一点中文。快来试试吧～

地址：huggingface.co
MOE 的分析：huggingface.co

1 01

AI小舟哥

3年前

Falcon 180B 的百科全书已经在 arxiv 上发布，非常详尽，推荐！以下是几个我认为值得关注的点：

- GPT4 的数据量比开源模型多一个数量级。
- 使用 Attention Mask 来处理有内存逻辑关系的数据。
- 180b 规模的模型对卡间通信的要求并不高，A800 即可满足。

可以来这里一起讨论：huggingface.co

3 00

AI小舟哥

3年前

Embedding 有隐私风险，可以用来重建原文！！？

🚀 康奈尔大学新研究：揭示 Embedding 技术中的隐私风险！
1️⃣ 研究背景：Embedding 在自然语言处理中广泛使用，但其隐私风险不容忽视。
2️⃣ 主要发现：高级 Embedding 模型也可能泄露原始文本中的私人信息。
3️⃣ Vec2Text 方法：利用 Embedding 反转技术重构原文，展现 Embedding 的隐私漏洞。
4️⃣ 实验结果：能从 Embedding 中恢复 92% 的原文内容。
5️⃣ 个人信息泄露风险：临床笔记 Embedding 可能泄露关键个人信息。
6️⃣ 对策探讨：提出添加噪声等对抗策略，但需平衡隐私与性能。
7️⃣ 未来影响：强调处理 Embedding 时的隐私保护，对 AI 和数据安全领域影响深远。

🌐 详细了解请阅读原论文：arxiv.org

(generated by ChatGPT4)

0 00

AI小舟哥

3年前

东北大花这个风格潜力很大，可以好好发展一下，应该未来或许能和汉服 pk 下国际影响力

作者：v.douyin.com

11 52

AI小舟哥

3年前

今日份跟 AK 读论文：

DeepSpeed-Chat: Easy, Fast and Affordable RLHF Training of ChatGPT-like Models at All Scales
微软 DeepSpeed 团队推出了 DeepSpeed-Chat 系统，实现了对大规模参数 ChatGPT 类语言模型进行 RLHF 训练的高效、可扩展且易用的端到端处理流程。该系统提供了无缝的交互式训练和推理体验，复制了InstructGPT的训练流程，并通过混合引擎有效结合了训练和推理优化技术，使 RLHF 训练达到前所未有效率。
huggingface.co

Learning to Model the World with Language
论文提出了 Dynalang 一个可以学习预测未来文本、图像和奖励的多模态世界模型的智能体。这有助于智能体将语言与视觉经验相联系。它通过在其世界模型生成的想象场景中进行强化学习来学习在环境中采取行动。它还可以在仅文本或仅视频的数据集上进行预训练。
huggingface.co

OpenFlamingo: An Open-Source Framework for Training Large Autoregressive Vision-Language Models
这篇论文介绍了OpenFlamingo,这是一系列开源的自动回归视觉语言模型,参数规模从3B到9B不等。OpenFlamingo旨在复制DeepMind的Flamingo模型。在七个视觉语言数据集上的评估中,OpenFlamingo的模型平均达到对应Flamingo模型性能的80-89%。本论文描述了模型架构、训练数据、超参数和评估套件的细节。
huggingface.co

Scaling Relationship on Learning Mathematical Reasoning with Large Language Models
本文研究了大规模语言模型学习数学推理能力与模型容量之间的缩放关系。预训练一个损失更低的模型对推理能力最为重要。RFT (Rejection sampling fine-tuning) 可以以相对低廉的成本进一步改善推理能力，但是对更好的预训练模型改善空间有限。增加数据和模型规模仍可帮助提升，但收益递减。
huggingface.co

Multimodal Neurons in Pretrained Text-Only Transformers
这篇文章探讨了语言模型如何学习跨模态的表示并将其泛化到下游任务。本文介绍了一种“多模态神经元”的识别方法，它可以将视觉表示转换为对应的文本概念，从而解释了跨模态泛化的能力。实验表明这些多模态神经元可以跨膜太激活特定的概念，从而影响图像描述的生成。
huggingface.co

MusicLDM: Enhancing Novelty in Text-to-Music Generation Using Beat-Synchronous Mixup Strategies
本文提出了 MusicLDM 模型，通过在音乐数据上重新训练 CLAP 和 HiFi-GAN 来进行文本到音乐生成。实验表明 MusicLDM 和 beats 同步混合改进了生成音乐的质量和新颖性，同时保持更好的文本约束。这为高质量的约束式文本到音乐生成提供了有前途的方法。
huggingface.co

HANDAL: A Dataset of Real-World Manipulable Object Categories with Pose Annotations, Affordances, and Reconstructions
这篇文章介绍了一个称为 HANDAL 的数据集，该数据集用于机器人的物体姿态估计和抓取预测研究。数据集包含 212 个真实世界物体的 2.2k 个视频、308k 张标注图像，涵盖17类物体，侧重硬件和厨房用具，可以推动机器人在更实际场景中与环境交互的研究。
huggingface.co

The All-Seeing Project: Towards Panoptic Visual Recognition and Understanding of the Open World
本文提出了“全能之眼” (All-Seeing, AS) 项目。它构建了一个包含超过 10 亿个区域标注的大规模数据集 AS-1B，覆盖了 350 万种视觉概念，具有 1322 亿个 token 的图像区域描述。该项目也包含了全能之眼模型 ASM，这是一个统一实现全景视觉识别和理解的框架，可以零样本泛化到各种视觉和语言任务。
huggingface.co

DETR Doesn't Need Multi-Scale or Locality Design
这篇文章提出了一个改进的 DETR (DEtection TRansformer) 目标检测器，它保持了“纯粹”的架构，没有使用多尺度特征或局部交叉注意力。它通过 BoxRPB (Box-to-pixel relative position bias) 和 MIM (Masked image modeling) 在 COCO 上使用 Swin-L 达到了 63.9 AP，与使用多尺度特征和基于区域的特征提取的最新目标检测器相匹敌。
huggingface.co

Ambient Adventures: Teaching ChatGPT on Developing Complex Stories
本文探讨了如何使用大语言模型通过想象来发展复杂的故事。研究者首先利用大模型基于手写的 prompt 来生成虚构的故事，然后将故事简化为动作序列，并在模拟的文字游戏中进行验证，来教导代理进行想象性游戏。该研究为机器人的创造性行为提供了范例。
huggingface.co

TDMD: A Database for Dynamic Color Mesh Subjective and Objective Quality Explorations
本文提出腾讯动态彩色网格数据库 TDMD (Tencent - dynamic colored mesh database)，包含 8 个参考 DCM (Dynamic colored meshes) 对象和 6 种失真类型，共 303 个失真样本，这是目前最大的公开 DCM 数据库，有助评估 DCM 压缩与处理方法。
huggingface.co

Computational Long Exposure Mobile Photography
本文提出了一种计算长曝光摄影系统，可在智能手机上实现前景及背景虚化长曝光效果，无需专业设备。
huggingface.co

2023-08-07 本条编辑：小舟舟 + Claude 2
欢迎大家提出宝贵意见 😊

4 20