2025年9月7日日曜日

AI狂騒曲

医学ベンチマークテストで高い正答率を誇る大規模言語モデル(LLM)が
実際には医学的推論を行っているのではなく、訓練データのパターンを認識しているだけかもしれない・・・
論文Fidelity of Medical Reasoning in Large Language Models
スタンフォード大学に所属する研究者らによる研究

研究チームは、標準的な医学多肢選択問題集であるMedQAから100問を抽出
元の正答を他の答えのいずれでもない(None of the other answers: NOTA)という選択肢に置き換える実験を行いました
臨床医が検証した68問について、DeepSeek-R1、o3-mini、Claude-3.5 Sonnet、Gemini-2.0-Flash、GPT-4o、Llama-3.3-70Bという6つのAIモデルをテストした結果
すべてのモデルで正答率が統計的に有意に低下
最も影響が小さかったDeepSeek-R1でも8.82%
最も影響が大きかったLlama-3.3-70Bでは38.24%も正答率が下がりました
この結果が示唆するのは
LLMが医学的な問題を論理的に推論しているのではなく
訓練データに含まれる典型的な回答パターンを学習し、それを再現している可能性
真の推論能力があれば、選択肢の表現が変わっても基本的な臨床判断は変わらないはずですが
実際にはNOTAという見慣れないパターンに直面するとモデルの性能が大幅に低下

この発見は医療現場でのAI活用に重要な示唆を与えている
臨床の現場では、教科書的なパターンから外れた症例や新しい病態に遭遇することが日常的
パターン認識に依存するシステムが、こうした新規性のある状況で信頼性を維持できるかは?

・・・いわゆるAI、機械学習
彼ら?は
エンエキ論理的に考える?回答?してるのでなく
ネット上のウソ、悪意を含む雑多なデータを溜めこみ
多くのパターンから、回答してる・・・かも
なんせ 回答するために、どんな過程を経て思考?しているか
誰もワかんない・・・
単に結果オーライで、このAIは使えるetc
大量の銭、電気etcを浪費する今のAI狂騒曲は
壮大なムダ?

今日は~
キアゲハ

の幼虫
セリをモシャモシャ

蝶の幼虫がそこかしこに
食べ物が足りない
スミレやミツバ、サンショウなんかを貰ったり、買ったり・・・

0 件のコメント:

コメントを投稿