DeepSeekが開発したLLM「DeepSeek」が大きな騒ぎになってきました。その背景には、DeepSeekが開発の際に使ったより性能の高いLLMを利用して、問題と回答をその推論過程まで含めた出力結果を学習データとして使うことでより効率よくAIに学習させる「蒸留(ディスティレーション)」という手法があります。1月20日に公開された「DeepSeek R1」はOpenAI「o1」に匹敵する性能とされ、さらに圧倒的な低コストで開発されたとアピールされたこともあり、アメリカのAI分野での優位性が揺らいだとの危惧が広がりました。そういうなか、6日に、スタンフォード大学とワシントン大学は「s1-32B」という軽量かつ安価に学習させた蒸留を使って開発した高性能LLMモデルを発表しました。わずか、1000問の学習データと約6ドル(約910円)の計算コストで、2024年9月リリースのOpenAI「o1-Preview」を超える性能を生み出したと主張しています。
DeepSeekで注目された「蒸留」とは
1月28日の米FOXニュースで、トランプ政権AI担当のデビッド・サックス氏は、DeepSeekが「OpenAIのAIモデルから知識を“抽出”したという“実質的な証拠”がある」と述べました。その具体的な内容について説明はなかったものの、DeepSeekの学習手法が急激に注目を集めました。DeepSeekはAPIを通じてChatGPTに多数の質問をぶつけ、出力結果をデータ学習の素材に使用したとされており、この工程を「蒸留」と呼びます。OpenAIはそのような蒸留行為を利用規約で禁じています。1月29日のフィナンシャルタイムズの報道では、DeepSeekがOpenAIのAPIを通じて大量のデータを収集し、AIモデルのトレーニングに利用した可能性があるとして、OpenAIとマイクロソフトが共同で調査を進めているとしています。
しかし、OpenAIが著作権侵害としてDeepSeekのサービスを差し止めたりできるかというと難しい可能性があります。
AIと著作権法の専門家でもある柿沼太一弁護士はXへの投稿 を通じて、DeepSeekが利用規約違反に該当するとしても「著作権侵害責任を追及するのは非常に難しい」と述べています。
「著作権侵害が成立するためには「類似性」と「依拠性」が必要ですが、まず、そもそも教師モデルの中身(パラメータ)が著作権によっては保護されない可能性が高いです。次に「教師モデル」と蒸留によって作成された「生徒モデル」の中身(パラメータ)は全く異なるものですので、「類似性」を満たしません。さらに、「蒸留」というのは、教師モデルの中身に直接アクセスする手法ではないため、「依拠性」も満たさない可能性が高いと思われます」(柿沼氏)。柿沼氏は、日本の著作権法を前提としているが、アメリカ法でもあまり変わらないと考えられています。
AIモデルの「蒸留」行為が著作権侵害に該当するかについては、法的な明確性がまだ確立されておらず、今後の司法判断に委ねられるとは思われますが、OpenAIとマイクロソフトにとっては、利用規約違反や知的財産権の侵害を立証する必要があるため、そのハードルも高いと考えられます。ただ、AI開発において蒸留は一般的な行為でもあります。
この連載の記事
-
第98回
AI
動画生成AIの進化がすごい 「超リアル」「ローカルで動く」2つの方向に -
第97回
AI
AI法案、柔軟規制で国会審議へ 罰則なし“ソフトロー”の狙いは -
第96回
AI
AI生成の3Dデータが実用レベルに近づいてきた -
第95回
AI
月3万円で使えるOpenAIの「Deep Research」 驚異的だが、情報格差が広がる不安も感じた -
第93回
AI
DeepSeek R1、無料で使えるAIとしては最強クラス -
第92回
AI
動画生成AI、ついにアダルトの扉が開く -
第91回
AI
AIの書いた小説が普通に面白い ChatGPT「o1」驚きの文章力 -
第90回
トピックス
画像生成AIで年賀状 リアルな人物も簡単に -
第89回
AI
OpenAI「Sora」残念な離陸 中国勢が飛躍する動画生成AI -
第88回
AI
1枚の画像から、歩き回れる“世界”ができる 来年のAIは「ワールドモデル」がやばい - この連載の一覧へ