科学論文は、読者がそこに記された情報を信頼できることを前提として成り立つ
だからこそ、コーネル大学とカリフォルニア大学ロサンゼルス校(UCLA)の研究者らによる新たな研究で、
主要な4つの研究データベースで公開されている科学論文から
AIが生成した偽の引用が14万6900件見つかったことは憂慮すべき事態
GeminiやChatGPTなどの大規模言語モデル(LLM)の大きな限界の1つは
もっともらしく見える誤情報を作り出してしまう傾向
これはハルシネーションと呼ばれる
研究者が引用文献を確認せずにチャットボットに作成を任せれば、実在しない参考文献が完全に捏造されるおそれがある
科学論文は一般の目に触れにくいことが多いが、そこに記された研究は私たちの暮らしに大きな影響を与えている
インターネットからリチウムイオン電池まで、あらゆるものが研究論文から始まった
しかし、科学者がAIのハルシネーションを引用した論文を投稿すれば・・・
研究チームは、250万本の科学論文に含まれる1億1100万件の参考文献を分析
論文タイトルがどの出版物とも一致しない引用を探したところ、単なるつづりの誤りもあったが、ハルシネーションも見つかった
不誠実な研究者が引用をでっち上げる行為は、チャットボットが普及する以前から存在していた
そこで研究チームは、チャットボットがまだ広く行き渡っていなかった2023年以前に公表された研究についても、一致しない引用の割合を調べた
論文の著者ら
「LLMの普及が進んだ後、実在しない参考文献が急増していることが分かった」
また、不正な引用はごく一部の論文に集中しているのではなく
多くの論文に分散していることも分かった
このことは、多くの研究者がAIの生成した参考文献を十分に検証することなく頼っており、問題が広範囲に及んでいることを示唆している
ウィチタ州立大学の経営学教授であるUsha Haley氏は米CNETへの電子メールで
偽の引用が広がっている現状を深刻な警告と受け止めていると
「偽の引用やAI生成の引用は、査読と知識の積み重ねを支える土台である学術記録への信頼を損なう
しかも憂慮すべきことに、こうした懐疑は今や学界の内部、しかもキャリアの初期段階にある研究者たちからも出ている」
研究者らが偽の引用を確認した4つのデータベースは「arXiv」「bioRxiv」「SSRN」「PubMed Central」
これらは科学リポジトリとして知られ、研究の世界で大きな役割を担っている
論文が科学誌に掲載される前に、著者が科学リポジトリへ原稿をアップロードすることは珍しくない
そうすることで論文の可視性が高まり、世界中の研究コミュニティーがすぐにアクセスできるようになる
AIが引用を捏造する問題を扱った今回の新論文も、現在arXivで公開されている
最近、arXivは誤った引用を食い止める対策に乗り出している
arXivは米国時間5月19日、ハルシネーションによる引用や、十分に点検されていないAIコンテンツの痕跡がある原稿を投稿した著者を利用停止にすると発表
arXivの科学ディレクターSteinn Sigurdsson氏
2月に米CNETのKatelyn Chedraoui記者に対し
「科学の蓄積が希薄化している
AIが生成したものの多くは、明らかに誤っているか、無意味であるかのどちらかだ
ただのノイズにすぎない。何が本当に起きているのかを見つけにくくし、人々を誤った方向に導く可能性がある」
・・・何んでも一旦、つくられたモノを
正しいか、正しくないか
不具合があるか、無いか
etc
を後から確認するのは大変
へたすると作るより手間ヒマが・・・
だから、初めから作り直したほうが・・・
ってコトも
AIで作ったモノは、お手軽
しかし、ソレがマトモかどうかは?
マトモだと検証する手間ヒマは・・・
お手軽だからAIを使ったのに・・・
AIは膨大な水、電気を使う
その結果がアヤフヤなモノでは
さらにソレが現実に使われる
ハッキングetcの脅威以前に
例えばAIシステム上の金融取引とか
その画面にある取引、決済etcが
実際に行われたの?
って
なんかな~
まあ、おそらく必要な?コスト?とかにされて
ムニャムニャに・・・
今日は~
マスデバリア エンジェル フロスト/Masdevallia Angel Frost
このコの今シーズン最後の花