即刻App年轻人的同好社区
下载
App内打开
歸藏
511关注11k被关注21夸夸
产品设计师、模型设计师、 不会代码的独立开发者。
关注人工智能、LLM 、 Stable Diffusion 和设计。
置顶
歸藏
10月前
很多朋友最近老问我一些我之前写过的东西在哪里,所以整理了一下写个置顶贴,内容会定期更新:

1️⃣ 我运营的 AIGC 周刊每周一更新,主要内容是上周 AI 领域的重点动态解析以及相关的产品和文章:
op7418.zhubai.love

2⃣️ 我的Midjourney作品汇总和对应的提示词:
walling.app

3⃣️ 我开发的一些产品

帮你将 Midjourney 的图片和提示词快速收集到你的 Notion 数据库中:
mp.weixin.qq.com

帮你自动分段翻译 Midjoureny 官网的提示词:
mp.weixin.qq.com

利用 ChatGPT 自动监控对应领域的信息并处理和发送到Discord 频道:
op7418.zhubai.loveposts/2251721691841511424

4⃣️ 我写的一些教程

AI 歌手系列课程教你使用和训练自己的 AI 歌手模型:
mp.weixin.qq.com
mp.weixin.qq.com

Stable Diffusion 保姆级入门教程包括 Web UI 的部署和 LoRA 模型的使用:
op7418.zhubai.loveposts/2238998671356555264
op7418.zhubai.loveposts/2239983151969951744

Stable Diffusion 模型大神工作流解析:
mp.weixin.qq.com
web.okjike.com

教你十几分钟不用代码创建自己的AI应用
mp.weixin.qq.com
1297
歸藏
15:18
TextCraftor是一种创新的文本编码器微调技术,能够显著提升文本到图像生成模型的性能。#ai#

从演示图片来看效果相当好。

通过奖励函数优化,它改善了图像质量与文本对齐,无需额外数据集。

项目详情:

TextCraftor的提出与应用:

为了解决现有模型的局限性,研究者们提出了TextCraftor,这是一种端到端的文本编码器微调技术。TextCraftor的核心思想是通过奖励函数来增强预训练的文本编码器,从而显著提高图像质量和文本图像对齐的准确性。这种方法不需要额外的文本-图像配对数据集,而是仅使用文本提示进行训练,从而减轻了存储和加载大规模图像数据集的负担。

现有模型的局限性:

尽管文本到图像生成模型在多个领域取得了成功,但它们在生成与文本提示高度对齐的图像方面仍面临挑战。例如,生成的图像可能与提供的文本提示不一致,或者需要多次运行和不同的随机种子来生成视觉上令人满意的图像。这些问题限制了模型在实际应用中的效率和效果。

TextCraftor的改进方法:

TextCraftor通过使用奖励函数(例如,美学模型或文本图像对齐评估模型)以可微分的方式改进文本编码器。这种方法允许在训练过程中生成图像,并通过最大化奖励分数来优化文本编码器的权重。TextCraftor还展示了如何通过不同奖励函数的插值来控制生成图像的风格,从而实现更多样化和可控的图像生成。

TextCraftor与其他模型的比较:

通过在多个公共基准测试和人类评估中的比较,TextCraftor在图像质量和文本图像对齐方面均优于现有的预训练文本到图像模型、基于强化学习的模型和提示工程方法。这些结果证明了TextCraftor在提高生成质量方面的优越性。

TextCraftor的控制生成能力:

TextCraftor不仅能够提高图像的总体质量,还能够通过调整奖励函数的权重来控制生成图像的风格。例如,可以通过混合不同奖励函数优化的文本编码器来实现风格混合,从而在生成过程中灵活调整图像的艺术性和细节。

TextCraftor的训练成本和数据使用:

TextCraftor在64个NVIDIA A100 80G GPU上进行训练,总共观察了约256万个数据样本。尽管训练成本相对较高,但TextCraftor展现出强大的泛化能力,能够直接应用于更大的扩散模型,从而降低训练成本。

TextCraftor的应用前景:

TextCraftor的提出为文本到图像生成领域带来了新的视角。其在图像编辑、视频合成等领域的应用前景广阔,尤其是在需要高质量和与文本高度对齐的图像生成任务中。此外,TextCraftor的控制生成能力也为个性化内容创作提供了新的可能性。

论文地址:arxiv.org
00
歸藏
15:14
发现一个讲的很细的大语言模型微调教程,详细介绍了整个流程,包括数据准备、参数设置、资源监控等关键步骤。

基本没有技术能力也可以完成微调。想要了解 LLM 原理的可以按这个实践一下。

时间轴:

0:00 概念概览
3:02 自定义数据的准备
8:17 微调操作演示(T4 版本)
16:52 微调操作演示(A100 版本)
19:13 在 Hugging Face 上的保存与使用方法

文字版整理:

✲ 如何使用自己的数据对大语言模型进行微调(fine-tuning):

对大语言模型进行微调并不一定非常困难和昂贵。通过使用自己的数据集对预训练模型进行微调,可以让模型更好地适应特定的任务需求。微调过程能够在保留原模型语言理解能力的基础上,进一步提升其在特定领域或任务上的表现。

✲ 使用Hugging Face模型库和Unslaw工具进行模型微调:

Hugging Face提供了丰富的预训练语言模型资源,用户可以根据任务需求选择合适的模型作为基础进行微调。而Unslaw工具则提供了一套简单高效的微调流程,其优点包括出色的内存使用效率以及对扩展上下文窗口的支持。通过Unslaw,用户能够以较低的资源开销完成模型微调。

✲ 在Google Colab上使用免费/付费GPU资源进行微调:

Google Colab提供了免费和付费的GPU资源,用户可以根据任务的复杂程度选择使用T4或A100。对于大多数微调任务而言,免费的T4资源已经足够。但如果数据集较大或模型较为复杂,升级到A100可以获得更充裕的算力支持。Colab为用户提供了一个易于上手的模型微调环境。

✲ 准备自定义的微调数据集:

准备微调数据的过程并不复杂。用户可以直接使用纯文本文件作为数据来源,而无需进行额外的预处理。为了获得理想的微调效果,建议至少准备100-200个样本。在示例中,为了快速演示,仅使用了几个样本。通过一个简单的Python脚本,可以方便地将原始文本数据转换为微调所需的JSON格式。

✲ 修改Colab笔记本中的参数设置:

在Colab笔记本中,需要根据实际情况调整一些参数。例如,可以根据数据集的token数量来设置max_sequence_length参数,借助rope scaling技术,模型能够支持任意长度的上下文。此外,还可以选择使用Instruct系列模型作为base model,直接在其基础上进行指令微调。为了节省资源,可以启用4-bit量化。同时,参考Q-Lora论文的建议,调整R值和alpha值,以在资源占用和模型质量之间取得平衡。

✲ 训练过程中的资源使用监控:

在模型训练过程中,用户可以通过Colab的资源监控选项卡实时观察GPU、内存和硬盘的使用情况。如果发现资源不足,可以考虑从T4升级到A100。通过监控资源占用,用户能够及时调整配置,确保微调任务稳定高效地进行。

✲ 模型训练的loss变化和最佳checkpoint的选择:

通过记录不同训练步数下的loss值,可以判断模型的收敛情况。理想的做法是选择loss下降曲线趋于平缓的点作为最佳checkpoint,这样既能充分训练模型,又能避免过拟合。为了事后方便筛选,可以设置每隔一定步数保存一次checkpoint。

✲ 模型微调完成后的保存与使用:

微调完成后,可以选择只保存adapter layers以加快保存速度。但更推荐的做法是保存完整模型,并使用float16精度,这样可以得到一个更通用和标准的模型格式,方便后续的部署和使用。

✲ 在Hugging Face上公开或私有发布微调后的模型:

用户可以选择在Hugging Face的模型库中公开或私有地发布自己微调后的模型。发布之前,需要在Hugging Face账号中创建一个访问令牌,并在发布时提供相应的用户名和令牌信息。通过在Hugging Face上发布模型,用户可以方便地与他人分享自己的微调成果。

✲ 使用微调后的模型进行推理(inference):

在使用微调后的模型进行推理时,首先需要加载保存的模型。接着,使用tokenizer对输入的文本进行处理,并将其传入模型。进行推理时,max_length参数需要与训练时保持一致,以确保生成的结果不会被截断。完成以上步骤后,就可以利用微调后的模型进行各种实际应用了。

来源:youtu.be

傻瓜式大语言模型微调训练教程_哔哩哔哩_bilibili

02
歸藏
11:06
Arc Windows 版本现在不需要申请测试资格,如果你用过 MAC 版本的 Arc,就可以登录 Windows 版本。

Windows 版本现在挺完善了,还加上了同步功能。

这里下载:browserinc.notion.site
46
歸藏
10:44
AI21 Lab 推出了一种新的 LLM 架构 Mamba,同时发布的还有基于这个架构的模型 Jamba。模型将会开源。

Mamba是一款创新的结构化状态空间(SSM)模型,其设计目的是为了克服传统Transformer架构的限制,但它本身也存在一些不足。而Jamba则结合了这两种技术的优点。

Jamba模型的特点:

✦ 首个基于创新SSM-Transformer混合架构的生产级Mamba模型

✦ 与Mixtral 8x7B相比,在长文本上的吞吐量提高了3倍

✦ 模型支持高达256K的大规模上下文窗口,使更多用户能够访问和使用

✦ 是其大小类别中唯一一个能在单个GPU上适应高达140K上下文的模型

✦ 以开放权重在Apache 2.0下发布

✦ 可在Hugging Face上获取,并即将登陆NVIDIA API目录

公告地址:www.ai21.com
01
歸藏
10:32
X AI 发布了Grok-1.5更新,具有更好的图里能力及 128K 的上下文长度。

昨天马斯克还说普通的 Premium 用户马上也可以使用 Gork 了。

详细介绍:

✦ Grok-1.5 在编码和与数学相关的任务中的性能得到了显著改善。Grok-1.5 在 MATH 基准测试中获得了 50.6%的分数,在 GSM8K 基准测试中获得了 90%的分数。

✦ Grok-1.5 的一个新功能是能够在其上下文窗口内处理长达 128K 个标记的上下文。这使得 Grok 的内存容量增加了先前上下文长度的 16 倍,使其能够利用来自更长文档的信息。

✦ 基于 JAX、Rust 和 Kubernetes 的自定义分布式训练框架构建的 Grok-1.5,为先进的大型语言模型(LLMs)研究提供了强大而灵活的基础设施。

✦ 还将在未来几天发布几个基于 Gork 的新功能。

公告地址:x.ai
00
歸藏
1天前
谷歌今天发这个图像局部重绘的项目ObjectDrop效果真的不错,模拟了物体对场景的影响,包括遮挡、反射和阴影,实现了逼真的物体移除和插入。#ai画图#

论文简介:

这个方法包括在移除场景中的某个物体之前和之后拍摄场景,同时尽可能减少其他因素的变化。

通过在这个特别的数据集上微调扩散模型,我们不仅能够消除图像中的物体,还能去除它们对周围环境的影响。

但我们发现,要把这个方法用于创造逼真的物体插入,需要一个非常大的数据集,这在实际应用中是不现实的。为了解决这个问题,我们引入了一种新的方法,称为引导监督(bootstrap supervision)。

通过利用我们在一个小型反事实数据集上训练的物体移除模型,我们能够在合成层面大量扩展这个数据集。

在创造逼真的物体移除和插入方面,我们的方法明显优于之前的技术,尤其是在模拟物体对其环境的影响这一点上做得非常出色。

论文地址:arxiv.org
00:13
25
歸藏
1天前
用刚才那个工作流跑了几个图生视频,Animatediff 要是有一个好点的 XL 模型就好了。
00:11
01
歸藏
2天前
Animatediff 的潜力远没有被挖掘完,下面这个视频就是用 Animatediff 的图生视频流程做的,作者也公布了工作流。

主要就是用了 IPadapter 来还原画面内容,同时用 Animatediff V3 的 Lora 和 Contorlnet 来控制,最后加了一个插帧。

原贴地址:www.reddit.com
00:43
010
歸藏
2天前
Adobe 昨天推出了 Adobe GenStudio,汇集了营销人员在跨渠道活动中所需的工具。

基于生成式人工智能构建,帮助营销团队在多个平台上轻松地规划、制作、管理、发布和评估与品牌形象一致的内容。

GenStudio 的核心功能包括:
1. 创作:通过 Adobe 的 AI 技术,营销人员可以迅速制作出高品质的品牌内容,这些内容都是基于经过品牌认证的模板,并受到 AI 技术的保护,确保品牌形象不受损害。

2. 内容中心:该平台提供了一个直观的界面,让营销人员可以方便地搜索、编辑、重复使用和分享营销活动的素材。

3. 活动管理:GenStudio 提供了一个集中的活动概览,包括活动简介和活动时间表,使得活动策划过程更为高效。

4. 发布:该产品与 Adobe Experience Cloud 的多个产品(如 Journey Optimizer、Experience Manager、Marketo 和 Target)实现了无缝集成,并且可以轻松导出到其他第三方应用。

5. 数据洞察:营销人员可以实时了解内容在不同渠道的使用情况和效果,通过 AI 技术生成不同的内容版本,进而提升活动的效果。

这里使用Adobe GenStudio:business.adobe.com
02:26
04