即刻App年轻人的同好社区
下载
App内打开
Find_My_AI
1年前
一分钟看懂面向AI编程vol-1:梗图生成器MemeCam原理解读 🤠

Find My AI在网上闲逛的时候看到reddit上正在流行这么一款梗图生成器——MemeCam。

它的使用过程是,打开网页app(memecam.dk),摄像头拍照之后,自动在图片上加上搞笑的话,使其变成一张meme梗图。(图1图2)

再简单查看了一些信息之后,Find My AI发现,这其实是一个面向AI编程的典型案例,看完这篇笔记你会发现它开发起来原来这么简单???

🔍原理解密:

实现这个梗图生成器产品其实非常简单,核心是开发者编写的梗图文字生成Prompt使这么一个网页应用有了价值。

Find My AI技术拆解后发现,MemeCam使用了三项技术搭起了这个应用:

1️⃣图像识别

2️⃣文本生成

3️⃣图片合成

这三项技术分别对应:BLIP的开源图像识别模型(或其他任何类似技术)、GPT 3.5的角色定制Prompt以及任何一种编程语言的图像文字合成功能。

MemeCam面向AI编程拆解:

1️⃣用户拍摄照片之后,通过BLIP模型识别图片上的内容,生成文本;

BLIP是salesforce开源的基础语言图像预训练模型,用于统一视觉语言理解和生成。BLIP使用无监督的方法将图像和语言结合起来进行训练,以便模型可以更好地理解和生成视觉和语言信息。这种方法可以用于许多应用程序,如图像描述、视觉问答和自然语言生成。

官方提供多个预训练和微调checkpoint供开发者使用。无需GPU也可运行。

BLIP Demo:[huggingface.co]

BLIP代码:[github.com]

想实现图片生成文字的功能非常简单,多家公司都有类似的服务,收费的免费的都哟。自己找嗷!

主要目的就是生成一段图片描述,供GPT3.5或GPT-4来执行下一步操作。

2️⃣将图片内容通过角色定制Prompt的形式传递给GPT 3.5,根据开发者自定的梗图生成prompt来生成基于图片内容的网络梗图,这是整个过程的核心,也是增值点。

其实面向AI编程,过程是可以推导出来的。Find My AI预计的开发者使用的提示词内容(图5)

Human:

You are an internet meme pic creator. You can create a lot of funny memes for a picture. Only give a response, no explanation.

You are an internet meme pic creator. You can create a lot of funny memes for a picture. Only give a response, no explanation.
Example:
[picture description]: a man is holding a cup in front of his computer in the office.
[meme creator]: When you're pretending to look busy but only thinking about your next coffee break.
if you can understand, I will give you a picture description and you give a meme.

3️⃣使用python pillow或其他库实现将梗图文字合成到图片上。

这个开发难度太低,自己去研究哦(滑稽)。

🔴面向AI编程的结果:

通过掌握撰写Prompt的能力,获得LLM生成创意内容的能力,为一张平平无奇的图片增加一两句话使它有梗,满足用户需求。目前该产品已经在reddit/ChatGPT 里火了起来。希望通过介绍这种开发思路,帮助各位理解面向AI编程。

虽然不一定100%有梗的效果,但是多试几次,一定能出梗。

多语言迁移的时候,一定要注意语境和token限制,否则会出现英文生产内容翻译到中文后字数太长没有梗效果。

🟢迁移能力:

Find My AI 亲测该能力可迁移到多语言,包括汉语,也可以生成表情包梗图,见图6。
558

来自圈子

圈子图片

AI探索站

65880人已经加入