如何评估大语言模型的表现作者：微软研究院翻译：KIMI

即刻App年轻人的同好社区

下载

啊衣领儿

11月前

如何评估大语言模型的表现
作者：微软研究院
翻译：KIMI
搬运：衣领

在过去的一年里，大型语言模型（LLMs）的关注度急剧上升。通过ChatGPT和BingChat，我们看到了LLM在标准化考试表现和生成艺术等方面接近人类水平的性能。然而，这些基于LLM的功能中有很多是新的，并且存在许多未知因素，因此需要谨慎发布以保护隐私和社会责任。虽然离线评估适用于功能的早期开发，但它无法评估模型变化如何在生产环境中改善或降低用户体验。事实上，对GPT-4能力的多次探索表明，“机器学习社区需要超越通过结构化数据集和任务的经典基准测试，评估这些新模型的能力和认知能力已经变得更加接近评估人类的任务，而不是狭义的AI模型”。

在微软，实验平台与多个团队密切合作，在过去的几个月里推出了LLM产品并进行了评估。我们学习和开发了如何设计AB测试和度量标准，以准确全面地评估这些功能。在本文中，我们将分享团队所使用的标准度量集，重点关注估计成本、评估客户风险和量化用户价值。这些度量可以直接计算任何使用OpenAI模型的功能。

度量框架包括以下几个方面：

1. GPU利用率：通过测量LLM的GPU利用率来估计LLM的使用成本。我们使用的主要测量单位是“token”。

2. 负责任的AI：随着LLM在大规模应用中的使用，衡量和检测可能出现的负责任AI问题变得至关重要。Azure OpenAI（AOAI）提供了评估LLM功能和应用程序在质量、安全和性能等多个方面的解决方案。

3. 性能度量：与任何功能一样，衡量性能和延迟对于确保用户及时获得预期价值且无摩擦至关重要。我们使用以下指标来衡量性能：首次呈现令牌的响应时间、每秒请求数（RPS）以及每秒呈现的令牌数。

4. 实用度度量：LLM功能有可能显著提高用户体验，但它们可能代价昂贵，并可能影响产品性能。因此，衡量它们为用户带来的价值以证明任何额外成本至关重要。

为了确保LLM功能在发布时表现良好、可靠且具有成本效益，我们建议在发布前进行暗模式实验和0-1实验。在发布后，通过影子实验和1-N实验持续创新和优化功能，以快速满足新客户需求。

总之，LLM可以成为构建提高用户价值和满意度的功能的强大工具。然而，正确地测试和评估它们对于安全发布和增加价值至关重要。在本文中，我们分享了一个完整的度量框架，以评估LLM功能的所有方面，从成本、性能到负责任的AI方面以及用户实用性。这些度量适用于任何LLM，也可以直接从AOAI模型的遥测数据中构建。我们还描述了微软在发布和发布后用于评估功能的各种实验设计。

www.microsoft.com

3 12

来自圈子

AI探索站

76362人已经加入