AI 新知：为什么Midjourney 能实现图生文（im

即刻App年轻人的同好社区

下载

Szhans

2年前

AI 新知：为什么Midjourney 能实现图生文（image-2-words）的能力？以及人人都成为Prompt Engineer的时代还远吗？

行业背景：今天，MJ 官方发布了一个 /describe 命令，可让你将图像转换为文字。试一试！MJ认为该工具将在创造力和发现方面改变你的实现过程。

这是Prompt 学习领域的一个重大的突破，但它并不神秘，也是行业山峰快速攀升的必然过程。我们试着一起来深入这背后的科学原理（没有技术门槛，不用担心）。

不妨先将原问题转换为：如何理解大语言模型中的词向量（Word2Vec）和语言学词汇、语义网络的关系？以及人类学习语言和机器学习语言是否存在本质不同？

借助GPT-4 强大推理能力，通过持续对话的形态，目标是为了让非专业人更多理解AI学习语言的基本原理。这些问题和Prompt全部展示出来，方便大家自行拓展，Enjoy。

完整问答内容，见Poe的分享网页：poe.com

Q1：你现在AI专家、语言学家、诗人，和我讨论Word2vec 和深度学习的关系，目标是让中学生理解向量和语言学的关系。语气要注意活泼生动有节律的美感，例子要注意使用非常贴近日常生活的具有身体感知的例子，尽量让科普的人文价值最大化。首先，请先说明一下，Word2vec 在语言学的基本含义和应用，以及对比它在AI 中的含义和价值？

Q2：把超市的3D场景当成“语义空间”，把一个词的位置当成 “词向量”这个解释相当不错；你可以继续展开说明，假设这个超市中， “财富”、“智慧”、“魅力”这些词与“手镯”、“珠宝”、“明亮的光”这些词，会是些什么样的排列关系呢，以及为什么会出现这种规律特性？

Q3：你可以试着解释一下人类学习语言时，如何是解决词汇与词汇之间进行「连接」并形成语义网络的过程吗？

Q4：你听说过约翰·费斯吗？他提出了语义空间这个语言学概念，并发现了语言学的一个巨大奥秘，「你会通过与一个单词一同出现的词来认识它。」这就是说，一个单词的含义可以依据与其经常一同出现的其他单词来定义，这些其他单词又可以依据与它们经常一同出现的单词来定义，以此类推。比如，“憎恶”这个词往往与“讨厌”出现在相同的语境中；“笑”这个词往往会与“幽默”出现在相同的语境中。

Q5：当我们说对词汇转化成「向量」意味着什么？请你语言学家角度给一个日常生活的例子，例如，猫咪这个词，如何表现成了多维度的属性信息？例如，猫咪是有毛的一个维度，然后猫咪是有情感的哺乳动物，以及猫咪有夜视的能力等，这个过程是如何将这个词汇向量化的呢？

Q6：让我小小总结一下，“猫咪”的各种生物属性在语义空间中，对应出不同维度上去？有毛这个维度，意味着一个距离和单位；有夜视能力，又可以标注其对应的空间位置，以此类推，“猫咪”这语义空间（参照系）的位置就有了，这个过程是向量化？

Q6：让我们先跳出一会 Word2vec的技术原理，再回到约翰·费斯的发现，「你会通过与一个单词一同出现的词来认识它。」这对于普遍意义的深度学习中，AI 学习语言的过程有何种意义？

Q7: 换句话说，我们是否可以得出结论，正是因为AI 模拟了人类语言天然的结构（语义空间内词语与词的关系），而让AI 模型本身更接近于人类语言的分布模式？

Q8 ：酷。最后我还想简要讨论一下，人类学习语言和机器学习语言的差异性。你认为人类学习语言的过程和AI 学习的语言的过程是否具有本质的差异。（请结合乔姆斯基的理论，用一些例子说明下）

Q9：你总结的很理性，不过，大部人如果接触过儿童如何学习语言，就充分意识到一个超级神奇的事情，孩子们学习语言轻而易举，而且可以在极短时间掌握多种外语的能力，代表人类独有的本能。而这和机器通过词向量等方式模拟人类语言具有本质差异，对吧。

Q10：很好，我们回Prompt Engineering的讨论中来；既然AI 通过词向量的手段模拟人类语言，那么AI 推出一些逆向功能，例如，通过图片分析对应的文本这种能力，也就不意外了吧？

Q11：没错，真正的难题不是让 AI 告诉我们对应视觉的Prompt，而是我们正确理解人类语言的神奇和复杂性，例如，模糊性和隐喻等超强的预测能力。

Q12：谢谢你的跨学科讨论，人人成为Prompt Engineer的时代也不远了吧

Enjoy！ poe.com

101 1662

来自圈子

AI探索站

88528人已经加入