OpenAI 最新升级的大型语言模型(LLM)ChatGPT-4.0 在一项概念验证研究中以 85% 的正确率通过了临床神经学考试。研究报告的作者认为,经过一些微调后,LLM 在临床神经学中会有 "重大应用"。
海德堡大学医院和海德堡德国癌症研究中心的一组研究人员于 12 月 7 日公布了实验结果。该测试于 5 月 31 日进行,使用了两个 LLM,即 ChatGPT-3.5 及其后期版本 ChatGPT-4.0。
研究人员使用了美国精神病学和神经病学委员会的神经病学考试题库以及欧洲神经病学委员会的一小部分问题。
旧版本的ChatGPT得分率为66.8%,在1956个问题中答对了1306个,而最新版本的ChatGPT-4.0得分率为85%,答对了1662个问题。人类的平均得分是 73.8%。ChatGPT-4.0 在行为、认知和心理相关问题上的表现优于人类用户,并有效地 "通过 "了神经学考试,因为在教育机构中,70% 的正确答案通常被视为及格分数。
不过,在需要 "高阶思维 "的任务中,两种模型的表现都比只需要 "低阶思维 "的问题相对弱一些。
据进行实验的研究小组称,这些结果建议在进行一些修改后将 LLMs 用于临床神经学:
研究人员指出,目前仍有一些保留意见。虽然将 LLMs 应用于文档和决策支持系统的前景明确,但神经学家在实际使用时应谨慎,因为它们在高阶认知任务方面仍不完善。该研究的作者之一 Varun Venkataramani 博士在接受 Cointelegraph 采访时说:
人工智能已经在医疗保健领域的一些重大任务中发挥作用,例如为阿斯利康(AstraZeneca)寻找癌症的治疗方法,或在香港对抗抗生素的过量处方的现象。
免责声明:本文章仅代表作者个人观点,不代表本平台的立场和观点。本文章仅供信息分享,不构成对任何人的任何投资建议。用户与作者之间的任何争议,与本平台无关。如网页中刊载的文章或图片涉及侵权,请提供相关的权利证明和身份证明发送邮件到support@aicoin.com,本平台相关工作人员将会进行核查。