Flux模型对prompt文字描述有更高要求,要求用自然语言对目标进行更详细描述,这个特点严重影响画面生成的质量。所以图生文场景下以及训练LoRA场景下,需要更高质量的图片内容理解和对应的文字描述。Joy Caption发布一个月,还是预览版(pre-alpha)。刚好在Liblib看到墨幽发布的本地部署打标签软件,基于GLM-4V-9B大模型,就拿一些C站发布的图片做了测试,分别用Joy Caption(huggingface在线版)和GLM(本地版)对图片进行描述,然后用Flux进行复现(fp8+t5xxl_fp8_e4m3fn+clip l)。以可以看出,Joy Caption大部分情况下效果都很接近原图,问题是它模型体积小,智谱清言GLM这都要20个G了(当然支持的语言种类更多,中文更没有问题)。期待尽快出正式版吧!