即刻App年轻人的同好社区
下载
App内打开
M1K0
5关注4被关注0夸夸
M1K0
3月前
Flux模型对prompt文字描述有更高要求,要求用自然语言对目标进行更详细描述,这个特点严重影响画面生成的质量。所以图生文场景下以及训练LoRA场景下,需要更高质量的图片内容理解和对应的文字描述。Joy Caption发布一个月,还是预览版(pre-alpha)。刚好在Liblib看到墨幽发布的本地部署打标签软件,基于GLM-4V-9B大模型,就拿一些C站发布的图片做了测试,分别用Joy Caption(huggingface在线版)和GLM(本地版)对图片进行描述,然后用Flux进行复现(fp8+t5xxl_fp8_e4m3fn+clip l)。以可以看出,Joy Caption大部分情况下效果都很接近原图,问题是它模型体积小,智谱清言GLM这都要20个G了(当然支持的语言种类更多,中文更没有问题)。期待尽快出正式版吧!
10
M1K0
3月前
是的,Juggernaut发布版本11,依旧是SDXL大模型。
作者写了一篇小作文,讲现在版本的特征和问题,以及未来下一步发展。

总结来说,当前版本应该是Juggernaut系列模型质量最高的,团队重新抓取图片库标签,这个图片量级为1.5万。官方建议:描述词还是用关键词,如果想画涩图要找第4或者第10版。

接下来这个系列还会有一个版本,即V12,预计10月份发布。然后切换到Flux赛道。

从23年8月发布第一个版本后,整个系列下载量超过70万,说代表SDXL第三方大模型的巅峰之作也不为过。那现在最新版本能跟Flux过上几招呢?

以上单数图片来自Flux阉割版nf4,双数图片来自Juggernaut VI。
可以看出:
1. 语意理解确实不是强项,官方建议使用关键词还是比较中肯的;
2. 画面呈现细节和质感上,未必比Flux阉割版差;
3. 场景的呈现上,与Flux nf4有来有回;
4. 人物和人像方面有所长。
00
M1K0
3月前
黑神话悟空提供的拍照模式太方便炼制罗拉了,一大堆角色不断出现。
这个4mei的罗拉质量挺好,毕竟Flux背后做支撑,怎么样也不会差啊。
看到有人说Flux的罗拉随便跑个几百步都能实现很好效果。。。。。
可惜起步24G显存让笔记本党恨死。。。。。
00
M1K0
3月前
Flux nf4v2和Forge

这两天随着Forge的疯狂更新,几个比较大的变化蛮有意思:

1.新版Forge支持Flux,试了一下Flux大模型下的图生图和局部重绘,效果依然惊艳。默认都是13步,还蛮快的。
2.专为Forge适配的Flux模型,Flux nf4更新到第二版,体积增加500M,说是更加精准,但初步看下,觉得效果不如第一版。
3.最新版本支持全版本的Flux,就是说,这之前,如果你想用Flux,只能上Flux nf4或者自己把Flux大模型+VAE+Clip+Text Encoder融成一个单一文档。现在,像在ComfyUI一样,分别支持大模型/VAE/Clip/Text Encoder。
4.支持Flux GGUF,新的量化模型。

图片都是P1-V1,P2-V2(Flux nf4)。
20
M1K0
3月前
这你敢信?1060笔记本跑Flux!

笔记本电脑配置:
RTX 1060 6G显存;
32G内存。

试用了最新版Forge,以及Flux nf4模型。
惊为天人!

绝对是吕布骑狗,或者说连狗都不如

运行情况:
768*1200,近9分钟;
1024*1024,近11分钟;
768*1344,10-11分钟;
768*1280,9分半钟;
其它配置:Euler,20步,CFG 1。

10步也能出图(P7),时间基本砍半,近5分钟。

资源占用:
内存占用20G;
显存占用5G。

示例图片Prompt来自C站。
00
M1K0
3月前
题图来自一位叫Ted_Chang的用户,他说图片是Flux直接生成,workflow仅做了放大处理。
图片里可以看到惊人的真实人物塑造和背景模拟,手部姿势完美,人物表情生动,如果仔细看脖子上的挂牌,上面谷歌的logo都完美展现。
难怪他感叹,Flux把Midjourney已经甩在身后!

另外一边,XLabs-AI异军突起,接连发布7个给Flux大模型的LoRA,覆盖动漫、写实、艺术、Midjourney、风景等风格。同时,也给出了供Controlnet使用的canny。

有人说,按照Flux这个体量(120亿参数)可以完全不用LoRA来进行微调了,但上述LoRA具体用起来还是能在材质、细节、光线等方面给到很好的补充。

P2为仿照P1自行编写关键词,用dev版本+XLabs realism LoRA出图。
P3同理。
50
M1K0
3月前
Flux1官方开源版有两个:dev和schnell,后者说是出图更快但体积并没有缩水,都超过22G。

这时候社区的力量开始显现:
有大神Kijai进行修剪,fp8出来了,体积砍半,对资源的占用大幅提升,8G显存可用。
然后,还有高手,Controlnet作者张吕敏发布了nf4版本,据说6G显存可用,速度提升1.3-4倍!!!
关键是nf4比fp8还要精准!

更好的消息是,Forge终于要大更新了,对Flux的支持就是本次更新中的部分功能。
看主页进度,基本上完成近96%,后台要全部重写。

新版本还会支持手写板,实现精准抠图。。。。。。
最好也支持Kolors!

题图来自waterdrinker
20
M1K0
4月前
有人做了FLUX fp8的版本,让整体dev和schnell模型体积减半,来到了11G。效果如何呢?两组图片基本可以看出。P1 dev模型,P2 dev fp8模型,P3 schnell fp8。
20
M1K0
4月前
Fooocus版本更新到2.5.2也有一阵子了,当然,新版本依然是德国小哥mashb1t来操刀。

2.5.0版本则开始支持Pony v6。除此之外,“强化(Enhance)”功能算得上版本跳跃另一原因。大概意思,集成了“高清放大+细节优化(如著名的ADetailer)”,细节优化支持单独的prompt,可用的模型多达8种,默认是Meta AI的SAM(Segment Anything Model)。
但是,但是,官方版本更新得确实不快,就连SD3还无法支持。SD3发布时就有人提出Fooocus进行支持,貌似SD3对流程的要求跟SDXL和SD差别很大,估计还有得等。

好在,Fooocus还有一个重要的分支:SimpleSDXL,它是国人作品,目前更新到SimpleSDXL2(0731),绝对是让人高呼“卧槽”的大制作。

首先,它有Fooocus该有的一切(目前同步到2.5.2)。
然后,它有适合国人的特别功能:中英文混编提示词。
再然后,它有更多高级扩展功能,比如,抠图,融图打光。

最重要的是,在新模型发布如下饺子的现在,在Stable Diffusion WebUI(Auto1111)\Forge\Fooocus更新跟不上饺子的现在,它支持SD3、Pony、可图、混元、SDXL、SD1.5诸多模型,简直是全村的希望。

下一个版本大概率会支持Flux.1,毕竟SimpleSDXL已经集成了ComfyUI的内核,应该问题不大。
00
M1K0
4月前
FLUX - 技术和艺术的交汇

这群人就是不一样,你看这名字取得,比SD、SDXL、SD3强多了!
他们是黑森林(Black Forest Labs),估计之前最为人熟知的大概是黑森林蛋糕,还别说,这两者应该都跟德国有关系,Flux的极速版被称之为“schnell”(德语“快”)。

StabilityAI出来不少人,一波继续ComfyUI,另一波,直接发布超越SD3的Flux.1。

要说Flux有什么厉害的,咱就看一个数字:
SD3开源的版本(Medium)基于20亿参数,而Flux.1(dev和schnell)则基于120亿参数,整整提升6倍!
把SD3的底裤都扒下来了!!!

测试下来,效果超过SDXL和SD3。
文本理解一流,色彩细节丰富,人物刻画准确,形体和肢体基本没问题,脸部甚至不需要重绘。。。
随便一个都是痛点,Flux给一步到位了!!!

但这个数量级,主模型体积超过22G,还不包括附属的两个clip一个vae。
并且,不单单吃显存,内存占用也很猛,32G内存基本可以跑满(dev版本)。
以上出图均来自dev版本,一次性出图,没有抽卡,没有放大。

另外,dev版本非授权情况下不能商用,schnell可以。
00