「DeepSeek R1蒸留モデル」爆増の可能性
ただグーグルはOpenAIと同じように、自社のLLMで出力した結果を、別のLLMの開発に利用することを禁じる利用規約を定めています。そのため、s1-32Bの開発は学術的な研究目的とはいえ、規約に違反している可能性が高いと考えられています。
LLMサービスを展開する企業が、推論過程に何らかのAPIによる阻害をかける方法を見つけ出す可能性はあり、現状の蒸留のためのデータを揃えることが容易ではなくなるかもしれません。とはいえ、実際的な技術面として、1000問程度の必ずしも多いとは言えない設問数のログデータを出力させるのを規制できるのかというと、難しいとも考えられます。
一方で、こうした状況を決定的に崩すかもしれないのが、DeepSeek R1の存在です。
R1は「MITライセンス」という、ほぼ制限のない再利用が認められている利用規約で公開されています。R1は独自に自社サーバでホストをしても構いませんし、蒸留などで追加学習をしたモデルを配布することも認められています。仮に、OpenAIとDeepSeekの間で裁判があり、DeepSeekの著作権侵害が認められたとしても、配布されているR1を利用して別の著作物を作り出した場合に、著作権の連続性が続くものではないので、ユーザーの責任は問われることはないと考えられます。つまり、OpenAIとDeepSeekの間に係争が起きるとしても、今のところ普及を留める方法はないことになります。
現在、o1並の性能を持つオープンLLMで、最も高性能なものの一つがR1であるのは間違いなく、R1を使って蒸留用のデータセットを作ったり、追加学習をする便利なLLMとして選ばれる可能性が高いということになります。
DeepSeek R1には中国の政治的なバイアスが強く入っていることには留意が必要ですし、入力した情報が中国政府と共有される可能性が極めて高いこともあり、クラウドサービスのDeepSeekの利用を控える動きも、アメリカ海軍、日本の省庁、韓国の省庁などに広がっています。米中間のAI開発競争も背景に、国家安全保障上の問題にまで発展しつつあります。
一方、公開されているR1オープンウェウトモデルは、独立したサーバとして運用すれば、現時点ではバックドアなどは仕掛けられておらず、大きな危険はないと考えられています。実際、1月29日にマイクロソフトがクラウドサービス「Azure」上の利用を可能にしました。マイクロソフトのサービスの中であれば、安全な環境でR1を動かすことができ、ユーザーはR1を使った、独自のサービス環境を構築できるというわけです。さらに、3日には、近日中に「Copilot」と組み合わせることでPC上でもローカルで動作させる事ができるようにするとも発表しています。マイクロソフトは、OpenAIと規約違反の問題を調べると同時に、R1の自社サービスへの組み込み自体は止めないという両面作戦を取っています。
少ない質問であっても、強力な効果を生み出す「蒸留」は、ただ、たくさんの情報を学ばせれば、AIが強力になるというこれまでの方法論とはまったく違ったものです。LLM開発の有効性は違った段階に入ろうとしています。今後、R1を使って蒸留開発をされたLLMが、次々と登場してくることは容易に予想がつきます。
この連載の記事
-
第98回
AI
動画生成AIの進化がすごい 「超リアル」「ローカルで動く」2つの方向に -
第97回
AI
AI法案、柔軟規制で国会審議へ 罰則なし“ソフトロー”の狙いは -
第96回
AI
AI生成の3Dデータが実用レベルに近づいてきた -
第95回
AI
月3万円で使えるOpenAIの「Deep Research」 驚異的だが、情報格差が広がる不安も感じた -
第93回
AI
DeepSeek R1、無料で使えるAIとしては最強クラス -
第92回
AI
動画生成AI、ついにアダルトの扉が開く -
第91回
AI
AIの書いた小説が普通に面白い ChatGPT「o1」驚きの文章力 -
第90回
トピックス
画像生成AIで年賀状 リアルな人物も簡単に -
第89回
AI
OpenAI「Sora」残念な離陸 中国勢が飛躍する動画生成AI -
第88回
AI
1枚の画像から、歩き回れる“世界”ができる 来年のAIは「ワールドモデル」がやばい - この連載の一覧へ