今日份跟 AK 读论文:
DeepSpeed-Chat: Easy, Fast and Affordable RLHF Training of ChatGPT-like Models at All Scales
微软 DeepSpeed 团队推出了 DeepSpeed-Chat 系统,实现了对大规模参数 ChatGPT 类语言模型进行 RLHF 训练的高效、可扩展且易用的端到端处理流程。该系统提供了无缝的交互式训练和推理体验,复制了InstructGPT的训练流程,并通过混合引擎有效结合了训练和推理优化技术,使 RLHF 训练达到前所未有效率。
huggingface.coLearning to Model the World with Language
论文提出了 Dynalang 一个可以学习预测未来文本、图像和奖励的多模态世界模型的智能体。这有助于智能体将语言与视觉经验相联系。它通过在其世界模型生成的想象场景中进行强化学习来学习在环境中采取行动。它还可以在仅文本或仅视频的数据集上进行预训练。
huggingface.coOpenFlamingo: An Open-Source Framework for Training Large Autoregressive Vision-Language Models
这篇论文介绍了OpenFlamingo,这是一系列开源的自动回归视觉语言模型,参数规模从3B到9B不等。OpenFlamingo旨在复制DeepMind的Flamingo模型。在七个视觉语言数据集上的评估中,OpenFlamingo的模型平均达到对应Flamingo模型性能的80-89%。本论文描述了模型架构、训练数据、超参数和评估套件的细节。
huggingface.coScaling Relationship on Learning Mathematical Reasoning with Large Language Models
本文研究了大规模语言模型学习数学推理能力与模型容量之间的缩放关系。预训练一个损失更低的模型对推理能力最为重要。RFT (Rejection sampling fine-tuning) 可以以相对低廉的成本进一步改善推理能力,但是对更好的预训练模型改善空间有限。增加数据和模型规模仍可帮助提升,但收益递减。
huggingface.coMultimodal Neurons in Pretrained Text-Only Transformers
这篇文章探讨了语言模型如何学习跨模态的表示并将其泛化到下游任务。本文介绍了一种“多模态神经元”的识别方法,它可以将视觉表示转换为对应的文本概念,从而解释了跨模态泛化的能力。实验表明这些多模态神经元可以跨膜太激活特定的概念,从而影响图像描述的生成。
huggingface.coMusicLDM: Enhancing Novelty in Text-to-Music Generation Using Beat-Synchronous Mixup Strategies
本文提出了 MusicLDM 模型,通过在音乐数据上重新训练 CLAP 和 HiFi-GAN 来进行文本到音乐生成。实验表明 MusicLDM 和 beats 同步混合改进了生成音乐的质量和新颖性,同时保持更好的文本约束。这为高质量的约束式文本到音乐生成提供了有前途的方法。
huggingface.coHANDAL: A Dataset of Real-World Manipulable Object Categories with Pose Annotations, Affordances, and Reconstructions
这篇文章介绍了一个称为 HANDAL 的数据集,该数据集用于机器人的物体姿态估计和抓取 预测研究。数据集包含 212 个真实世界物体的 2.2k 个视频、308k 张标注图像,涵盖17类物体,侧重硬件和厨房用具,可以推动机器人在更实际场景中与环境交互的研究。
huggingface.coThe All-Seeing Project: Towards Panoptic Visual Recognition and Understanding of the Open World
本文提出了“全能之眼” (All-Seeing, AS) 项目。它构建了一个包含超过 10 亿个区域标注的大规模数据集 AS-1B,覆盖了 350 万种视觉概念,具有 1322 亿个 token 的图像区域描述。该项目也包含了全能之眼模型 ASM,这是一个统一实现全景视觉识别和理解的框架,可以零样本泛化到各种视觉和语言任务。
huggingface.coDETR Doesn't Need Multi-Scale or Locality Design
这篇文章提出了一个改进的 DETR (DEtection TRansformer) 目标检测器,它保持了“纯粹”的架构,没有使用多尺度特征或局部交叉注意力。它通过 BoxRPB (Box-to-pixel relative position bias) 和 MIM (Masked image modeling) 在 COCO 上使用 Swin-L 达到了 63.9 AP,与使用多尺度特征和基于区域的特征提取的最新目标检测器相匹敌。
huggingface.coAmbient Adventures: Teaching ChatGPT on Developing Complex Stories
本文探讨了如何使用大语言模型通过想象来发展复杂的故事。研究者首先利用大模型基于手写的 prompt 来生成虚构的故事,然后将故事简化为动作序列,并在模拟的文字游戏中进行验证,来教导代理进行想象性游戏。该研究为机器人的创造性行为提供了范例。
huggingface.coTDMD: A Database for Dynamic Color Mesh Subjective and Objective Quality Explorations
本文提出腾讯动态彩色网格数据库 TDMD (Tencent - dynamic colored mesh database),包含 8 个参考 DCM (Dynamic colored meshes) 对象和 6 种失真类型,共 303 个失真样本,这是目前最大的公开 DCM 数据库,有助评估 DCM 压缩与处理方法。
huggingface.coComputational Long Exposure Mobile Photography
本文提出了一种计算长曝光摄影系统,可在智能手机上实现前景及背景虚化长曝光效果,无需专业设备。
huggingface.co2023-08-07 本条编辑:小舟舟 + Claude 2
欢迎大家提出宝贵意见 😊