由于最近写 prompt 越来越多,那么对于 prompt 的版本管理需求也会越来越多。
具体需求:
1.prompt 的版本管理,需要有历史版本。
2.同一个 prompt 在多模型下的表现。
我测试了一些 prompt 管理的网站,包括:
Athina
Lunary
Helicone
Langchain
Langfuse
Promptknit
Pezzo
经过测试,比较好的版本管理工具是 Athina。它支持自定义 API key,并支持 prompt 的版本提交,可以在同一个模型下测试多个 prompt 的效果。
app.athina.ai 1.用Athina控制prompt 版本
2.用 dify 测试多模型的效果
prompt 开发好之后,如果想要测试多模型下同一个 prompt 的效果,可以使用 Dify,它支持添加多模型输出,非常方便。
比如你可以同时测试同一个 prompt 情况下
在 GPT4、deepseek、GLM4 的不同模型下输出的效果,有一个非常直观的比较。
以上就是我最近体验的比较好用的 workflow