元Eventbriteのエンジニアリングディレクターであり、オープンソースツール・Datasetteの開発者でもあるサイモン・ウィリソン氏
2024年に人工知能(AI)分野で起きた出来事をまとめています
Things we learned about LLMs in 2024
https://simonwillison.net/2024/Dec/31/llms-in-2024/
2023年3月に公開されたOpenAIの大規模言語モデル(LLM)GPT-4は、同年の12月時点では最も優れたパフォーマンスを示すAIモデルでした
しかし2024年の終わりにはオリジナルのGPT-4よりも優れたパフォーマンスを発揮するAIモデルが多数登場
LLMのパフォーマンスを比較するためのオープンソースAIベンチマークであるChatbot Arena
記事作成時点でオリジナルのGPT-4以上のランクのAIモデルが70存在
オリジナルのGPT-4よりも優れたパフォーマンスを示したAIモデルのうち、最も古くにリリースされたのはGoogleのGemini 1.5 Pro(2024/2月発表)
Gemini 1.5 ProはオリジナルのGPT-4と同等の出力を生成可能であるのに加え
一度に処理可能なトークン数(コンテキストウィンドウ)が100万トークンで、動画入力機能も持つ
GoogleがGemini 1.5をリリース
最大100万トークンを処理できて1時間のムービーや70万語のテキストを扱うことが可能 -
Gemini 1.5 Proは2024年の主要テーマのひとつであるコンテキスト長の増加も示していると
2023年に登場したAIモデルのコンテキストウィンドウはほとんどが4096トークンあるいは8192トークンであったのに対し
Anthropicが2023年11月に発表したClaude 2.1はコンテキストウィンドウが20万トークン
Gemini 1.5 Proはアップデートにより100万トークンから200万トークンにまで拡張されていっる
コンテキストウィンドウの拡張により、AIモデルで解決できる問題の範囲が劇的に広がり
本を丸ごと1冊入力してその内容を要約したり、内容について質問したりすることが可能に
またAIモデルでコーディング問題を正しく解決できるようになり、大量のサンプルコードを入力することが可能
「長い入力を伴うAIモデルの使用例は、AIモデルの重みにすでに組み込まれている情報だけに依存する短いプロンプトよりもはるかに興味深いものです
私のツールの多くは、このパターンを使用して構築されました」
Anthropicが2024/3にリリースしたClaude 3は、複数のベンチマークテストでGPT-4のパフォーマンスを上回っており
「すぐに私のお気に入りの日常使いのAIモデルになった」
さらに2024/6にはClaude 3.5 Sonneが発表され、さらに高いパフォーマンスを
なお、Chatbot ArenaでオリジナルのGPT-4よりも高いパフォーマンスを示したAIモデルを保有しているAI組織は
Google、OpenAI、Alibaba、Anthropic、Meta、Reka AI、01 AI、Amazon、Cohere、DeepSeek、NVIDIA、Mistral、NexusFlow、Zhipu AI、xAI、AI21 Labs、Princeton、Tencent
ウィリソン氏は2023年生のM2搭載MacBook Proのメモリ(RAM)64GBモデルを使用しているそう
M2搭載MacBook ProはハイパフォーマンスなノートPCではあるものの
2022年に登場したモデル
そんなM2搭載MacBook Proは
GPT-3と同等のAIモデルを何とか実行できるレベルだったそうだが
2024年末の時点ではGPT-4と同等のAIモデルを実行できるようになっていると
「これは私にとっていまだに驚きです。GPT-4の機能と出力品質を備えたモデルには$4万(約¥630万)以上のGPUを搭載したデータセンタークラスのサーバーがひとつ以上必要だと考えていました
しか、実際には64GBのRAMを搭載したノートPCでこれらを実行することができます
ただしRAMの大部分を占めるため、頻繁に実行することはできず、他の用途にノートPCを利用する余裕もほとんどありません
これらが実行できるという事実は、過去1年間で解明されてきたトレーニングと推論パフォーマンスの驚異的な向上の証
AIモデルの効率性という点では、簡単に達成できる成果がたくさんあることがわかりました
今後もさらに成果が出てくると期待しています」
中でも特筆すべきなのがMetaが2024/9に公開したLlama 3.2
Llama 3.2には複数のモデルが存在しますが、スマートフォンでのローカル実行が可能な小規模モデルも
Llama 3.2の小規模モデルについて
「2GB未満と非常にデータサイズが小さいにもかかわらず、これは驚くほど高性能です」
「データジャーナリストが地元の陶芸家に恋をするNetflixのクリスマス映画のあらすじ」を尋ねた際の出力を提示
そのパフォーマンスの高さを称賛
2023/12当時、OpenAIは入力100万トークン当たりGPT-4では$30(約¥4730)
GPT-4 Turboでは$1ル(約¥1580)
GPT-3.5 Turboでは$1(約¥158)
という料金
しかし記事作成時点でOpenAIは最も高価なAIモデルであるo1で$30
GPT-4oでは$2.5(約¥394)
GPT-4o miniでは$0.15(約¥24)
他のAIモデルの利用料金はより安い
入力100万トークン当たりの利用料
AnthropicのClaude 3 Haikuが$0.25(約¥39)
GoogleのGemini 1.5 Flashが$0.075(約¥12)
Gemini 1.5 Flash 8Bは$0.0375(約¥6円
「AIモデルの価格低下は競争の激化と効率性の向上という2つの要因によって推進されています
効率性はLLMの環境への影響を懸念するすべての人にとって非常に重要
この価格低下はプロンプトの実行にどれだけのエネルギーが使用されているかに直接関係しています
大規模なAIデータセンターの構築による環境への影響については依然として懸念すべき点が山積
個々のプロンプトのエネルギーコストに関する懸念の多くはもはや信用できません
ウィリソン氏は自身が所有する6万8000枚の写真のすべてに簡単な説明文をつけるのにGemini 1.5 Flash 8Bを利用する場合どれくらいの費用がかかるかを計算
この処理に必要な費用はわずか$1.68(約¥265)であったため
「この計算が正しいか確認するのに、3回も計算した」
「この効率性の向上と価格の低下こそが、2024年のAI分野のトレンドの中でも私が特にお気に入りと感じるものです」
2024年にはほぼすべての主要なAI企業がマルチモーダルモデルをリリース
2024/3にAnthropicがClaude 3シリーズ、
4月にGoogleがGemini 1.5 Pro
9月にMistralがPixtral 12B
MetaがLlama 3.2
11月にHugging FaceがSmolVLM
12月にはAmazonがAmazon Nova
「LLMの改善が遅れていると不満を言う人は、マルチモーダルモデルの大きな進歩を見逃していることが多いと思います
画像・音声・動画に対して、プロンプトで実行できることはこれらのモデルを適用する魅力的な新しい方法です」
LLMが驚くほどコードを書くのが得意であることはすでに明らかになっています
適切な指示を与えれば
HTML・CSS・JavaScriptを使用して、完全なインタラクティブアプリケーションを、多くの場合一度の指示で構築可能
AnthropicはClaude 3.5 SonnetのArtifactsと呼ばれる機能で
AIによるコンテンツ制作能力を十分に示しており
同機能を使うことでインタラクティブアプリケーションを作成したり
それをClaudeのインターフェイス内で直接使用したりすることが可能
Appleは2023/12に自社製プロセッサであるAppleシリコン用の機械学習フレームワークMLXを発表
これはMac上でさまざまなLLMを動作させるのに役立つもので
「本当のブレークスルーであり、素晴らしい」
しかし、AppleがリリースしたパーソナルAIのApple Intelligenceについては
「ほとんど期待外れ」
「LLMのパワーユーザーとして、私はこれらのAIモデルの能力をよく知っています
AppleのLLM機能は最先端のLLMの機能に見劣りする模倣に過ぎません
またニュースの見出しを誤って伝えたり、まったく役に立たない文章作成支援ツールを提供したりします
Genmojiはなかなか楽しいですが」
中国のAI企業であるDeepSeek
2024/12末にパラメーターサイズが6710億のAIモデルDeepSeek-V3をリリース
これは記事作成時点で利用可能なオープンライセンスモデルの中で最大のパラメーターサイズを持ったAIモデル
ベンチマークテストではClaude 3.5 Sonnetと同等と評価されており
Chatbot ArenaではGemini 2.0やOpenAIのGPT-4oやo1のすぐ後ろの7位
このパフォーマンスは、オープンライセンスモデルの中では最も高い
DeepSeek-V3の素晴らしい点はトレーニングコストが圧倒的に安い
DeepSeek-V3のトレーニングコストは推定$557万6000(約¥8億7900万)で
NVIDIAのH800というGPUを使って278万8000時間かけてトレーニングされています
「アメリカ政府による中国へのGPUの輸出規制は、効果的なトレーニングの最適化に影響を与えたようです」
・・・手を出してないけど
そろそろ?
用途が・・・
推敲が・・・
イイワケ
今日は~
デンドロビウム ロディゲシー/Dendrobium loddigesii
水やりしてたら落ちていた
高芽が取れたみたい
もっとイイ季節なら・・・
ど~すっか・・・
とりあえず保護
0 件のコメント:
コメントを投稿