草木餡: ネット世界の環境汚染

2023年6月14日水曜日

ネット世界の環境汚染

AI成果物が急増したことでAI生成コンテンツをAIが学習するループが

世界的なコンサル企業が社員の50％は業務にジェネレーティブAIを活用しているetc

ジェネレーティブAIは社会に広がり続けています

しかし、AIを使用してコンテンツを作成・公開する人が増えていることで、新たな問題として

「AIが生成したコンテンツがインターネット上にあふれ、それをAIが学習することで、重大な欠陥が生まれている」

[2305.17493] The Curse of Recursion: Training on Generated Data Makes Models Forget

https://doi.org/10.48550/arXiv.2305.17493

The AI feedback loop: Researchers warn of 'model collapse' as AI trains on AI-generated content | VentureBeat

https://venturebeat.com/ai/the-ai-feedback-loop-researchers-warn-of-model-collapse-as-ai-trains-on-ai-generated-content/

文章(プロンプト)を入力するだけで高精度な画像を生成できるStable Diffusio」や対話形式で高精度な文章を作成するChatGPTといったジェネレーティブAIが急速に広まった要因には

大規模言語モデル(LLM)が重要な役割を果たしています

柔軟で適応性の高いLLMと合わせ大量のトレーニングデータを収集することで、AIは画像や文章の仕組みを覚えていきます

もともと、LLMやその他のトレーニングに用いられるデータは、書籍やインターネットの記事、写真やイラストなど人間が過去に人工知能の助けを借りずに作成していたもの

しかしジェネレーティブAIの発展に伴い、AIでコンテンツを作成してインターネット上に公開する人が増えた

で学習の元となるトレーニングデータに影響が出ていると

イギリスとカナダの研究者グループは2023/5末

「ジェネレーティブAI技術の将来にとって、憂慮すべき事実が明らかになっています」

論文の主要著者の一人であるイリア・シュマイロフ氏

「テキストからテキストへのジェネレーティブAIモデルと、画像から画像へのジェネレーティブAIモデルの確率分布に注目した結果、長期学習にとってほぼ理想的な条件の場合であっても、『データの分散』のプロセスは避けられません。時間が経過するにつれて、生成されたデータの誤りが積み重なっていき、最終的には生成されたデータから学習することでAIが現実をさらに謝って認識することになります」

学習モデルは最初に学習した元のデータをすぐに忘れてしまう可能性がある

「私たちは、モデルの崩壊がどれほど早く起こるかを観察して驚きました」

同じく論文の著者の一人であるケンブリッジ大学とエディンバラ大学でセキュリティ工学教授を務めるロス・アンダーソン氏、自身のブログで

ジェネレーティブAIの学習モデルが再帰して不正確になっていく状態を

「私たちは海にプラスチックのゴミをまき散らし、大気を二酸化炭素で満たしたのと同じように、インターネットをどうしようもない情報で埋め尽くそうとしています。LLMは火のようなもので、便利なツールですが、環境を汚染します」

インターネット上のコンテンツにAIを用いて生成されたコンテンツが増えるため

ウェブをスクレイピングして新しいモデルをトレーニングすることが難しくなり

結果として既に十分なトレーニングデータを得た企業や人間が生成したコンテンツを大規模に管理できる企業が一方的に有利になる

実際にAIスタートアップがクリーンなトレーニングデータを求めて、インターネットアーカイブに大規模なアクセスリクエストを行ったことが、インターネットアーカイブのブログで明らかに

AIコンテンツによって学習データが崩壊していくメカニズムを、シュマイロフ氏

データの偏りによるものだと説明

人間によって生成された元データは世界をより公平に表している一方で

ジェネレーティブAIモデルは人気のあるデータを過剰に優先する傾向があり

あまり人気のないデータを誤解したり誤って表現したりすることが多々ある

例えば、90匹の黄色い毛皮のネコと10匹の青い毛皮のネコを合わせた100匹のネコの写真を学習させた場合

モデルは黄色のネコがより一般的ということを学習すると同時に

青いネコも黄色がかって表現することがあるほか

新しいデータを出力する際に緑色のネコを出力する場合が

AIが生成した黄色がかった青いネコ、緑色のネコをさらに学習するトレーニングサイクルを行うと

青いネコは次第に黄色の色味を増していき、最終的に全てのネコが黄色に変わっていく

このように、進行プロセスでゆがみが起きたり、少数データの特性が最終的に失われることをデータの崩壊と研究者グループは表現

これを避けるためトレーニングサイクルを多く繰り返さないようにモデルをトレーニングした場合でも

モデルはデータの頻繁な繰り返しを避けるために誤った応答をでっち上げ始めるため

依然としてモデルの崩壊が発生する

モデルの崩壊への対処策として論文では

「オリジナルのデータセットの独占的で、名目上人間が作成したデータセットの高級コピーを保持し、それで定期的に再トレーニングしたり完全にリフレッシュしたりすることで、AIが生成したデータによる汚染を回避する」

「人間が生成した新しいクリーンなデータセットをトレーニングに導入する」

ということを挙げています

シュマイロフ氏

データの崩壊を防ぐには学習量をしっかり確保し特徴を正確に描写した上で

データセット内で少数派グループが公正に表現されるように設定することが重要

VentureBeatの取材に対し

「人間が作成したデータを10％トレーニングに含めれば、AIコンテンツを再帰的に用いたとしても、モデルの崩壊はそれほど早く発生しないと考えられます。しかし、早くはないものの、依然として崩壊は発生します」

・・・おそらくAIは

コトの軽重を判断できない

何がダイジかワからない

・・・最近はヒトも・・・

今日は～

ヒカゲツツジ/ Rhododendron keiskei

前にアげたのとは別のコ

やはり４月はじめ

室から出したタイミングがヨかった

花が傷んでないし

枝も徒長してない

最近は、この時期に山へ行かないんで

コイツが一面に咲くのを見てないな～

草木餡

2023年6月14日水曜日

ネット世界の環境汚染

0 件のコメント:

コメントを投稿

自己紹介

フォロワー