尝试了下
@Letsfun 推荐的ChainForge来验收Prompt,成功跑通了。
需要做这些事:把评价标准提炼几条原则并把原则告诉GPT4这样更聪明的大模型。
比如我现在是这么写的:
我希望以下面的标准为建立Prompt的打分标准,满分10分,最低分0分。
1. 简洁性:关键信息点为精炼的1-2句话,方便用户快速获得要点。
2. 全面性:关键信息点至少5条,要包含主要论题、关键数据和事实、重要的引用、作者的观点与分析。
3. 符合预期:要点是最能体现主题、支持论点、揭示结论或反映作者意图的核心内容。
评估模型给出了7分的打分,并说明了打分原因。
但是 Web 版支持的模型太少,缺少 Functioncall 的能力,要调试所有场景下的 Prompt 还是要花点时间改造。