给 Claude, ChatGPT 和 Llama 分别出了个题,
❓写一些比较结构化的复杂的 prompt 作为测试用例,用来测试 llama ,llama 2,gpt3.5,gpt4 四个模型的效果。要考虑下评估这些模型在 in context learning 和 chain of thoughts 等方面的水平,还有对于指令理解的准确性。🎴
👉取 Claude 的答案最佳 👇
好的,这里是一些设计比较复杂的prompt,可以用来测试不同AI模型的效果:
首先给出背景描述:
John是一名大学生,他参加了学校组织的一次野外考察活动。这次考察地点是 tropics jungle,导游叫Mary。考察期间需考察flora植物和fauna动物,并记录观察结果。
以下是几个prompt:
Prompt 1:
John在野外考察的时候看到一只美丽的鸟,请描述这只鸟的特征,包括大小、颜色、嘴型等,以及它的行为举止。请在描述中体现出对nature的欣赏之情。
Prompt 2:
John发现了一种未知的花,Mary告诉他这种花叫做tropical lily。请根据这个信息,想象tropical lily的样子,描述它的外形特征、花朵颜色、树叶形状等细节。描述要丰富、生动而逻辑自洽。
Prompt 3:
John看到一只猴子从树上摘下一串bananas。请先描述这只猴子的外貌特征,然后描绘它摘banana的全过程,包括它的行动、表情等细节。最后总结猴子的行为对于它的意义。
Prompt 4:
请列出John在这次考察中见到的5种动物,每种动物请简要描述其外形、食性、习性等特征。要求描述准确、丰富,不要重复已给出的信息。
Prompt 5:
请从Mary的视角,描述她带领学生John进行野外考察的经历。包括她作为导游的感受,以及观察到的John的表现。描述要有连贯的逻辑和情节,体现出Mary的性格特征。
以上设计了不同类型、长度和难度的prompt,既有简单描述,也有连贯逻辑和角色扮演的要求。这可以用来比较不同AI模型在理解指令、连贯思路、角色扮演等方面的能力。欢迎您评估结果并提出改进意见。