🩺 强大的Med-PaLM 2 ，已经拥有了专家级医生的智

即刻App年轻人的同好社区

下载

Szhans

3年前

🩺 强大的Med-PaLM 2 ，已经拥有了专家级医生的智慧？

这是Google IO 上被重点提及的突破性大语言模型Med-PaLM2，主要应用于医疗诊断场景。正好近期放出了相关论文，我和Claude 100k 一起为大家指出其强大之处。

先说结论： Med-PaLM2 医学问答能力已接近人类专家级医生

Med-PaLM 2 是基于谷歌大语言模型 PaLM2的持续微调上，通过大量专业医学数据集定制的模型，已经在十几个维度上接近专业医生的诊断水平。

Med-PaLM 2 还存在公平性等方面的改善工作，不能完全替代医生。但它可以提供第二意见或自动筛选信息，将大幅提升诊断时间和效率。人类的医疗智能和资源，将全面得到广泛提升。

👁‍🗨 Claude 100K根据原论文《Medical Question Answering with Large Language Models》的总结如下：

- 论文提出了新的医学问答模型Med-PaLM 2,它利用了改进的PaLM 2语言模型、专门的医学领域微调以及新的集成校准提醒策略来改进推理能力。

- Med-PaLM 2在多个医学问答测试标准上取得了很好的结果,包括MedQA、 PubMedQA和MedMCQA。在MedQA上的分数高达86.5%,比Med-PaLM提高超过19%。

- 通过人类评估,医生认为Med-PaLM 2的长篇答案在很多临床相关维度上优于Med-PaLM,如事实性、医学推理能力以及造成伤害的可能性更低。医生还倾向于选择Med-PaLM 2而非医生的答案。

- 通过设计的陷阱问题集评估,Med-PaLM 2的表现显著优于Med-PaLM,强调了全面评估的重要性。例如在可能造成伤害程度方面，Med-PaLM 2的答案评级更高。

- 结果表明在医学问答方面已经走得很近了，但进一步的安全性和对齐工作还需要。评估框架仍需继续完善才能准确测量模型能力。

- 论文的主要贡献包括:1) 提出Med-PaLM 2模型 2) 引入集成校准提醒策略 3) 在多项 benchmark 上取得先进成绩 4) 人类评估表明Med-PaLM 2的答案质量高于Med-PaLM和医生 5) 提出陷阱问题集探测模型局限性

- 但是论文也指出,进一步验证、安全性和伦理性工作仍需要,才能在实际应用中普及这种技术。

（以下是我的问题和思考链，你也可拿去和Claude 或者ChatPDF再聊一遍）

Q1：论文中是否详细介绍了， Med-PaLM 2是如何利用PaLM 2语言模型医学领域微调、集成校准等策略和方法？

Q2：医学问答集MedQA、MedMCQA、HealthSearchQA分别代表什么？这些数据集代表哪些具体的医学领域？

Q3：论文中是如何对比了 Med-PaLM 2 和真实医生的医学诊断的？

Q4：“研究对1066个开放问题进行对比排序评估。医生需要从Med-PaLM 2和医生两个回答中选择更好的一个。结果表明在8个维度上，Med-PaLM 2的回答被选择的频率更高。” 这里的8个维度是具体：哪几个？

Q5：请具体介绍一下 Multiple-choice evaluation（多选题型）中的一些策略和方法，例如自洽性和思维链

Q6：能否举个医学例子说明chain-of-thought的应用场景？

Q7：基于我们目前持续讨论的结果，你请重新总结一下这篇论文的要点，让普通大学生也能听懂，以史蒂芬·平克的写作风格尝试一下吧。

Enjoy！

论文地址：arxiv.org

02:56

30 319

来自圈子

AI探索站

116053人已经加入