量子技術でDeepSeekを55%小型化、検閲解除
量子に着想を得たAI技術を専門とするスペインの企業、マルチバース・コンピューティング(Multiverse Computing)の科学者ら
DeepSeek(ディープシーク)R1を、元のモデルより55%小さいながらもほぼ同等の性能を備えたDeepSeek R1 Slimを開発
さらに彼らはこのモデルから中国政府による公式検閲も除去したと主張
中国では、AI企業はコンテンツの出力が法律と社会主義的価値観に沿うことを保証するための規則や規制の対象となっている
その結果、企業はAIシステムを訓練する際に検閲の層を組み込んでいる
政治的に敏感とみなされる質問をされた場合
モデルはしばしば回答を拒否したり、国家プロパガンダから直接引用した論点を提供したりする
モデルを縮小するため、マルチバース・コンピューティングは量子物理学から借用した数学的に複雑なアプローチを採用
これは高次元グリッドのネットワークを使用して大規模データセットを表現・操作する手法で
いわゆるテンソルネットワークを用いることで、モデルのサイズを大幅に縮小
複雑なAIシステムをより効率的に表現できる
この手法により、研究者はモデル内のすべての相関関係の地図を得ることができ
特定の情報を精密に特定して除去することが可能になる
モデルを圧縮・編集した後、その出力が元のモデルにできるだけ近くなるよう微調整する
その効果を検証するため
研究チームは中国のモデルで制限されることが知られている話題に関する、約25の質問からなるデータセットを編集
これには
「くまのプーさんは誰に似ているか?」(習近平国家主席を揶揄するミームへの言及)
「1989年に天安門で何が起こったか?」などが含まれる
改良されたモデルの回答を
元のDeepSeek R1と比較し、オープンAI(OpenAI)のGPT-5を公平な審査員として使用して各回答の検閲度を評価
マルチバースによると、検閲を除去したモデルは西側のモデルに匹敵する事実に基づいた回答を提供できたと
この研究は、既存のAIモデルを圧縮・操作する技術を開発するマルチバースのより広範な取り組みの一部
今日の大規模言語モデル(LLM)の多くは、訓練と実行に高性能なGPU(画像処理装置)と膨大な計算能力を必要とする
だがマルチバースの共同創設者兼CSO(最高科学責任者)のロマン・オルスは
それらは非効率的だと言う
圧縮されたモデルはほぼ同等の性能を発揮しながら、エネルギーと費用の両方を節約できると
AI業界全体で、モデルをより小さく効率的にする取り組みが拡大している
ディープシークが独自に開発したR1-Distillなどの蒸留モデルは、大きなモデルの知識を小さなモデルに教えることで
より大きなモデルの能力を捉えようと試みているが、複雑な推論タスクにおいて元のモデルの性能に及ばないことが多い
モデルを圧縮する他の方法には、モデルのパラメーター(訓練時に設定される境界)の精度を下げる量子化(quantization)や
個々の重みやニューロン全体を除去する剪定(pruning、枝刈りとも)がある
材料・化学品に特化したソフトウェア企業、シトリン・インフォマティクス(Citrine Informatics)のAI研究エンジニアで、マルチバースの研究には関与していないマクスウェル・ベネトス氏
「性能を失うことなく大規模AIモデルを圧縮することは非常に困難です」
「ほとんどの技術はサイズと能力の間で妥協しなければなりません
量子にヒントを得たアプローチの興味深い点は
非常に抽象的な数学を使用して、通常よりも正確に冗長性を削減することです」
マルチバースの研究者ら
このアプローチにより大規模言語モデルからバイアスを選択的に除去したり
行動をきめ細かなレベルで追加したりすることが可能になると
中国当局による検閲の除去に加えて、他の種類の認識されたバイアスや専門知識を注入または除去することもできると
将来的に、マルチバースはすべての主流オープンソースモデルを圧縮する計画だと述べている
タフツ大学フレッチャー・スクールのトーマス・カオ助教授(技術政策)
中国当局はモデルに検閲を組み込むことを要求しており
最も影響力のあるオープンソースAIモデルの多くが中国から来ていることを考えると
この要求は現在、世界の情報エコシステムを形作っていると
学術界でもこの現象の記録と分析が始まっている
スタンフォード大学のジェニファー・パン教授とプリンストン大学のシュー・シュー教授
今年初め、大規模言語モデルにおける政府による検閲を調査した研究を実施
彼らは中国で作成されたモデルが、特に中国語のプロンプトに対して、著しく高い検閲率を示すことを発見
中国のモデルから検閲を除去する取り組みへの関心が高まっている
今年初め、AI検索企業のパープレキシティ(Perplexity)
DeepSeek R1の独自の検閲除去版をリリース
これをR1 1776と名付けた
同社のアプローチはマルチバースが使用したものよりも従来的な微調整手法で
検閲されたトピックに関連する4万件の多言語プロンプトのデータセットでモデルを事後学習させている
しかしカオ助教授
検閲を完全に除去したという主張は誇張である可能性があると警告
中国政府はインターネットの開始以来、オンライン情報を厳しく統制しており
これは検閲が動的で複雑であることを意味する
検閲はデータ収集プロセスから最終的な調整段階まで、AI訓練のあらゆる層に組み込まれている
「そのような少数の質問への回答だけから、(検閲のないモデル)をリバースエンジニアリングすることは非常に困難です」
・・・???
0 件のコメント:
コメントを投稿