M1K0的个人主页

即刻App年轻人的同好社区

下载

M1K0

5关注4被关注0夸夸

M1K0

8月前

Flux模型对prompt文字描述有更高要求，要求用自然语言对目标进行更详细描述，这个特点严重影响画面生成的质量。所以图生文场景下以及训练LoRA场景下，需要更高质量的图片内容理解和对应的文字描述。Joy Caption发布一个月，还是预览版（pre-alpha）。刚好在Liblib看到墨幽发布的本地部署打标签软件，基于GLM-4V-9B大模型，就拿一些C站发布的图片做了测试，分别用Joy Caption（huggingface在线版）和GLM（本地版）对图片进行描述，然后用Flux进行复现（fp8+t5xxl_fp8_e4m3fn+clip l）。以可以看出，Joy Caption大部分情况下效果都很接近原图，问题是它模型体积小，智谱清言GLM这都要20个G了（当然支持的语言种类更多，中文更没有问题）。期待尽快出正式版吧！

0 10

M1K0

8月前

是的，Juggernaut发布版本11，依旧是SDXL大模型。
作者写了一篇小作文，讲现在版本的特征和问题，以及未来下一步发展。

总结来说，当前版本应该是Juggernaut系列模型质量最高的，团队重新抓取图片库标签，这个图片量级为1.5万。官方建议：描述词还是用关键词，如果想画涩图要找第4或者第10版。

接下来这个系列还会有一个版本，即V12，预计10月份发布。然后切换到Flux赛道。

从23年8月发布第一个版本后，整个系列下载量超过70万，说代表SDXL第三方大模型的巅峰之作也不为过。那现在最新版本能跟Flux过上几招呢？

以上单数图片来自Flux阉割版nf4，双数图片来自Juggernaut VI。
可以看出：
1. 语意理解确实不是强项，官方建议使用关键词还是比较中肯的；
2. 画面呈现细节和质感上，未必比Flux阉割版差；
3. 场景的呈现上，与Flux nf4有来有回；
4. 人物和人像方面有所长。

0 00

M1K0

8月前

黑神话悟空提供的拍照模式太方便炼制罗拉了，一大堆角色不断出现。
这个4mei的罗拉质量挺好，毕竟Flux背后做支撑，怎么样也不会差啊。
看到有人说Flux的罗拉随便跑个几百步都能实现很好效果。。。。。
可惜起步24G显存让笔记本党恨死。。。。。

2 00

M1K0

8月前

Flux nf4v2和Forge

这两天随着Forge的疯狂更新，几个比较大的变化蛮有意思：

1.新版Forge支持Flux，试了一下Flux大模型下的图生图和局部重绘，效果依然惊艳。默认都是13步，还蛮快的。
2.专为Forge适配的Flux模型，Flux nf4更新到第二版，体积增加500M，说是更加精准，但初步看下，觉得效果不如第一版。
3.最新版本支持全版本的Flux，就是说，这之前，如果你想用Flux，只能上Flux nf4或者自己把Flux大模型+VAE+Clip+Text Encoder融成一个单一文档。现在，像在ComfyUI一样，分别支持大模型/VAE/Clip/Text Encoder。
4.支持Flux GGUF，新的量化模型。

图片都是P1-V1，P2-V2（Flux nf4）。

0 20

M1K0

8月前

这你敢信？1060笔记本跑Flux！

笔记本电脑配置：
RTX 1060 6G显存；
32G内存。

试用了最新版Forge，以及Flux nf4模型。
惊为天人！

绝对是吕布骑狗，或者说连狗都不如

运行情况：
768*1200，近9分钟；
1024*1024，近11分钟；
768*1344，10-11分钟；
768*1280，9分半钟；
其它配置：Euler，20步，CFG 1。

10步也能出图（P7），时间基本砍半，近5分钟。

资源占用：
内存占用20G；
显存占用5G。

示例图片Prompt来自C站。

0 00

M1K0

8月前

题图来自一位叫Ted_Chang的用户，他说图片是Flux直接生成，workflow仅做了放大处理。
图片里可以看到惊人的真实人物塑造和背景模拟，手部姿势完美，人物表情生动，如果仔细看脖子上的挂牌，上面谷歌的logo都完美展现。
难怪他感叹，Flux把Midjourney已经甩在身后！

另外一边，XLabs-AI异军突起，接连发布7个给Flux大模型的LoRA，覆盖动漫、写实、艺术、Midjourney、风景等风格。同时，也给出了供Controlnet使用的canny。

有人说，按照Flux这个体量（120亿参数）可以完全不用LoRA来进行微调了，但上述LoRA具体用起来还是能在材质、细节、光线等方面给到很好的补充。

P2为仿照P1自行编写关键词，用dev版本+XLabs realism LoRA出图。
P3同理。

0 50

M1K0

8月前

Flux1官方开源版有两个：dev和schnell，后者说是出图更快但体积并没有缩水，都超过22G。

这时候社区的力量开始显现：
有大神Kijai进行修剪，fp8出来了，体积砍半，对资源的占用大幅提升，8G显存可用。
然后，还有高手，Controlnet作者张吕敏发布了nf4版本，据说6G显存可用，速度提升1.3-4倍！！！
关键是nf4比fp8还要精准！

更好的消息是，Forge终于要大更新了，对Flux的支持就是本次更新中的部分功能。
看主页进度，基本上完成近96%，后台要全部重写。

新版本还会支持手写板，实现精准抠图。。。。。。
最好也支持Kolors！

题图来自waterdrinker

1 20

M1K0

8月前

有人做了FLUX fp8的版本，让整体dev和schnell模型体积减半，来到了11G。效果如何呢？两组图片基本可以看出。P1 dev模型，P2 dev fp8模型，P3 schnell fp8。

0 20

M1K0

8月前

Fooocus版本更新到2.5.2也有一阵子了，当然，新版本依然是德国小哥mashb1t来操刀。

2.5.0版本则开始支持Pony v6。除此之外，“强化（Enhance）”功能算得上版本跳跃另一原因。大概意思，集成了“高清放大+细节优化（如著名的ADetailer）”，细节优化支持单独的prompt，可用的模型多达8种，默认是Meta AI的SAM（Segment Anything Model）。
但是，但是，官方版本更新得确实不快，就连SD3还无法支持。SD3发布时就有人提出Fooocus进行支持，貌似SD3对流程的要求跟SDXL和SD差别很大，估计还有得等。

好在，Fooocus还有一个重要的分支：SimpleSDXL，它是国人作品，目前更新到SimpleSDXL2（0731），绝对是让人高呼“卧槽”的大制作。

首先，它有Fooocus该有的一切（目前同步到2.5.2）。
然后，它有适合国人的特别功能：中英文混编提示词。
再然后，它有更多高级扩展功能，比如，抠图，融图打光。

最重要的是，在新模型发布如下饺子的现在，在Stable Diffusion WebUI（Auto1111）\Forge\Fooocus更新跟不上饺子的现在，它支持SD3、Pony、可图、混元、SDXL、SD1.5诸多模型，简直是全村的希望。

下一个版本大概率会支持Flux.1，毕竟SimpleSDXL已经集成了ComfyUI的内核，应该问题不大。

1 00

M1K0

8月前

FLUX - 技术和艺术的交汇

这群人就是不一样，你看这名字取得，比SD、SDXL、SD3强多了！
他们是黑森林（Black Forest Labs），估计之前最为人熟知的大概是黑森林蛋糕，还别说，这两者应该都跟德国有关系，Flux的极速版被称之为“schnell”（德语“快”）。

StabilityAI出来不少人，一波继续ComfyUI，另一波，直接发布超越SD3的Flux.1。

要说Flux有什么厉害的，咱就看一个数字：
SD3开源的版本（Medium）基于20亿参数，而Flux.1（dev和schnell）则基于120亿参数，整整提升6倍！
把SD3的底裤都扒下来了！！！

测试下来，效果超过SDXL和SD3。
文本理解一流，色彩细节丰富，人物刻画准确，形体和肢体基本没问题，脸部甚至不需要重绘。。。
随便一个都是痛点，Flux给一步到位了！！！

但这个数量级，主模型体积超过22G，还不包括附属的两个clip一个vae。
并且，不单单吃显存，内存占用也很猛，32G内存基本可以跑满（dev版本）。
以上出图均来自dev版本，一次性出图，没有抽卡，没有放大。

另外，dev版本非授权情况下不能商用，schnell可以。

1 00