- 英文タイトル
- How Does ChatGPT Perform on the United States Medical Licensing Examination? The Implications of Large Language Models for Medical Education and Knowledge Assessment
- 雑誌名:JMIR Medical Education
- 著者:Aidan Gilson et al.
- 掲載年月:2023年2月
- URL:https://mededu.jmir.org/2023/1/e45312/
- DOI: 10.2196/45312
Executive Summary
- 目的:本研究では、米国医師免許試験ステップ1およびステップ2に該当する範囲の問題をChatGPTに問うことで、ChatGPTの性能を評価するとともに、得られた回答がユーザーにとって解釈可能であるかどうか分析することを目的とした。
- 方法:
- 使用した問題:米国医師免許試験ステップ1とステップ2に関連する2セットの多肢選択式の問題を使用した。ステップ1に関連する問題は、医学生に一般に使用される問題集AMBOSSから得たもので、問題の難易度やユーザーベースに対する試験の成績に関する統計も提供されている。ステップ2に関連する問題は、National Board of Medical Examiners (NBME)のフリー問題(120問)から得た。
- 比較方法:ChatGPTの性能を、他2つの大規模言語モデルであるGPT-3及びInstructGPTと比較した。
- 評価方法:ChatGPTの各回答のテキスト出力は、論理的正当性、問題に対する内部情報の有無、外部情報の有無という3つの定性的指標で評価された。
- 結果:
- AMBOSS-Step1、AMBOSS-Step2、NBME-Free-Step1、NBME-Free-Step2の4つのデータセットにおいて、ChatGPTはそれぞれ44% (44/100), 42% (42/100), 64.4% (56/87), 57.8% (59/102) という精度の成績を達成した。
- AMBOSS-Step1において、問題の難易度が上がるにつれてChatGPTの性能は有意に低下した(レベル1の問題:64%(9/14)→レベル5の問題:0%(0/9))ものの、すべてのデータセットで平均してInstructGPTの成績を8.15%上回り、GPT-3とは同程度の性能を示した。
- NBMEのすべての問題に対して、回答の正誤とは無関係に論理的正当性が見られ、内部情報はNBMEの全問題のうち96.8%(183/189)に対する回答に含まれ、正答・誤答の間で内部情報の有無に有意差はなかった。一方で、ChatGPTの回答の外部情報は、正答に比べて誤答では44.5%(NBME-Free-Step1)および27%(NBME-Free-Step2)少なかった。
- 結論:ChatGPTは、医学的な質問に答えるタスクにおいて、自然言語処理モデルの大幅な向上を実現した。また、NBME-Free-Step-1で60%以上もの正答率を達成したが、これは医学部3年生の合格点に相当する。さらに、ChatGPTの回答の大部分で、論理と情報を有する文脈を提供する能力を発揮することができた。これらの事実は、ChatGPTが医学教育のインタラクティブな学習支援ツールとして応用できる可能性を示唆している。