标题

Large language models encode clinical knowledge

链接:Large language models encode clinical knowledge | Nature

解决问题

  1. 他们自己扩大了测试模型的问题集合,包括添加了在线可能爬虫爬到的(但我觉得Google不需要爬虫,他们数据大佬啊,然后整个扩大的测试模型的问题集合被叫做MultiMedQA

  2. 然后,他们用现代的几个比较流行的LLM去测,在MultiMedQA上的表现,发现Flan-Palm表现最好(评测框架也是由他们自己提出来的)。但其他LLMs也不弱,也就是说,这个MultiMedQA是有用的提升模型性能的扩充问题集合。

  3. 最后,基于上一步,最好的结果是Flan-Palm,所有对于Flan-Palm添加了指令提示调优,得到了Med-PaLM

    自此结束,表明的确有强大的潜力,但目前还不如医生,医生执照正确率大概在67%左右。

    以下为截取原文以及简单的mark评论

    模型在医学中有比较兴奋的潜在应用为,知识检索、临床决策支持、关键发现总结、对患者进行分类、解决初级保健问题等。

    需要表现力和交互能力以及安全性(产生与临床和社会价值观不一致的文本生成。例如,它们可能会产生令人信服的医学错误信息的幻觉,或者包含可能加剧健康差异的偏见。)

    “To assess LLMs using MultiMedQA, we build on PaLM, a 540-billion parameter (540B) LLM1, and its instruction-tuned variant Flan-PaLM2. Using a combination of few-shot15, chain-of-thought16 (COT) and self-consistency17 prompting strategies, Flan-PaLM achieves state-of-the-art performance on MedQA, MedMCQA, PubMedQA and MMLU clinical topics, often outperforming several strong LLM baselines by a substantial margin. On the MedQA dataset comprising USMLE-style questions, FLAN-PaLM exceeds the previous state of the art by more than 17%.”

    也就是说,他们先建立了PaLM然后few-shot15, chain-of-thought16 (COT) and self-consistency17 prompting strategies得到了Flan-PaLM(这个提示词就有点微妙了;数据和参数高效的对齐技术得到了Med-PaLM

    Med-PaLM 答案的这一比例为 92.6%,与临床医生生成的答案 (92.9%) 相当 (那其实已经差不多了)

    同行有哪些:

    我们的 Flan-PaLM 540B 模型在 MedQA(四个选项)、MedMCQA 和 PubMedQA 数据集上超越了之前最先进的性能 (SOTA)。之前最先进的结果来自Galactica20(MedMCQA)、PubMedGPT19(MedQA) 和 BioGPT21(PubMedQA)。百分比准确率显示在每列上方

    在由 4 个选项的 USMLE 式问题组成的 MedQA 数据集上,我们的 Flan-PaLM 540B 模型实现了 67.6% 的多项选择题准确率,超过了 DRAGON 模型18增长20.1%。

    在我们的研究的同时,发布了 PubMedGPT,一个专门针对生物医学摘要和论文进行训练的 2.7B 模型19.PubMedGPT 在 50.3 个选项的 MedQA 问题上取得了 4% 的表现。据我们所知,这是MedQA的最新技术,而Flan-PaLM 540B比这个数字高出17.3%。扩展数据表 4 比较了此数据集上表现最佳的模型。在有 5 个选项的更困难的一组问题上,我们的模型获得了 62.0% 的准确率得分。

    总结一点就是 论文长文本最差,其次就是医学考试,纯选择题的其他医学测试到了80%

    这段话有点东西:我们尚未完成对指令提示调整对多项选择准确率影响的彻底分析;在本节中,我们的分析是 Flan-PaLM,而不是 Med-PaLM。Med-PaLM(指令提示调整 Flan-PaLM)的开发旨在通过更好地将模型与医学领域保持一致来改善“人体评估结果”中呈现的 Flan-PaLM 的长篇生成结果。然而,鉴于与领域无关的指令调优在回答多项选择题方面取得了成功,域内指令提示调优似乎很有希望,我们在扩展数据表 5 中给出了初步结果,并在补充信息第 5 节中进一步描述了这个实验。