2025年3月12日

DeepSeek を専門家が技術解説! 生成AI開発における2つの大きな可能性

中国発のAI企業「DeepSeek AI」が開発した大規模言語モデル(LLM)として知られる「DeepSeek」。中国語と英語の処理に強みを持ち、低コストかつ高性能なモデルとして注目を集めていますが、一体どんな技術が使われているのでしょうか? その裏側の技術について、一般の方にも分かりやすく、噛み砕いて解説します。


2025年1月、後に「DeepSeekショック」と呼ばれる事態が大きく広がり、AI関連企業の最大手であるNVIDIA社の株が、一時約17%下落という事態に至りました。

関連ニュースで連日「DeepSeek」の名前が大きく取り沙汰されたので、名前は聞いたことがあるという方は多いかと思います。しかし、実際に使ってみたことがあるという方は少ないのではないでしょうか? 中国発の大規模言語モデルというのもあって、データが中国に送信されているだとか、何かトラブルがあった際には中国の法律に準拠されるだとか……。使用における懸念点を挙げている記事もよく見かけるため、実際に使うのを躊躇している方も多いはずです。

さて、そんな「DeepSeek」ですが、これほどまでに話題になり、欧米のAI関連企業にインパクトを与えた大きな要因として挙げられたのが「学習コストの低さ」。では具体的にどんな技術が関係しているのでしょうか?

今回の記事では、その裏側の技術について、専門用語や数式を極力避けて、一般の方にも分かりやすく、噛み砕いてご説明します。なお本記事は、AIの専門家であるアステリアART株式会社の代表である、早稲田大学 情報科学博士である園田智也博士にヒアリングを行った上でまとめています

解説者プロフィール

森 一弥(もり・かずや)氏|アステリア株式会社 ノーコード変革推進室 エバンジェリスト
2012年よりインフォテリア勤務。2017年3月までは主力製品「ASTERIA WARP」のシニアプロダクトマネージャーとしてデータ連携製品の普及に務め、特に新技術との連携に力を入れる。 ブロックチェーン技術推進の一環として実証実験やコンサルティングなどを実施。ブロックチェーンを活用した株主投票では特許を取得。またブロックチェーン推進協会(BCCC)では技術応用部会を立ち上げ、技術者へブロックチェーンアプリケーションの作り方を啓発している。現在はAIやIoTなど先端技術の調査、普及啓発に努めている。

監修:園田智也(そのだ・ともなり)博士|アステリア Artificial Recognition Technology (ART) 合同会社 代表
1997年、世界初の音楽検索エンジンを1997年に発明。そのエンジンは、機械学習で人間の声(歌声)のパターンを認識し、検索クエリに変換、インターネット上のデータベースに対して、曲名を検索するものであった。 1998〜2003年、機械学習と、ニューラルネットワークの技術を用いて、ジェスチャー認識システムや、マルチモーダルインターフェースシステムを開発した。 2001〜2003年、日本学術振興会特別研究員(文部科学省所管の独立行政法人日本学術振興会に認定された日本トップクラスの優れた若手研究者)。 2002年、IPA (独立行政法人 情報処理推進機構) 未踏ソフトウェア創造事業に採択。 2001年、博士課程の学生のときに、ウタゴエ株式会社を設立。 2019年、アステリアART合同会社 代表に就任。

DeepSeekで注目すべきは「強化学習」と「蒸留」

学習コストが安いという情報が先行している感がありますが、DeepSeekで注目すべき技術要素として、「強化学習」と「蒸留」があります

DeepSeekの注目技術①「強化学習」

まずは「強化学習」の方から見ていきましょう。
強化学習とは、名前に「学習」と入っていることからも分かる通り、機械学習の手法のひとつを指します。もちろん、DeepSeekが初めて使ったものではなく、従来からある手法です。

そもそも機械学習とは、データからパターンを学習し、明示的なプログラムをせずともタスクを実行させるモデルを作ること。よく例に挙がるものだと「画像の認識」などがあります。

例えばここに、猫と犬の写真が大量にあったとします。あらかじめ写っているものが猫なのか犬なのかがわかっているデータ(教師データ)を用意し、それぞれのデータの特徴を学習して、新たに来た画像がどちらに似ているかで判断できるようにします。これを「教師あり学習」と呼んでいます。

一方、大量のデータを読み込ませて、「似たような特徴を持ったデータの集まりでグルーピングさせる」という方法もあります。これを「教師なし学習」と呼んでおり、あらかじめ教師データを分類しておく必要がないので、教師あり学習に比べて、学習コストを下げることができるのです。

強化学習は ”環境とスコアを与えて繰り返すことで学習させる手法” と説明されていることが多いのですが、これはよくゲームで例えられます。AIにゲームをやらせて点数をできるだけ稼ぐように指示すると、最初はぎこちなく、すぐにゲームオーバーになるのですが、何度も繰り返すことで上達し、ハイスコアを効率的に叩き出せるようになります。2015年に囲碁の世界チャンピオンを破ったことで注目された「AlphaGo」でも強化学習が使われているので、随分前からある手法なのはご理解いただけるかと思います。

今回、世界中で話題となった「DeepSeek」はゲームではありませんが、「解答のわかっている数学の問題などを解かせる」ことで強化学習をさせています。解答の確認が簡単にできるため、多くの問題を繰り返して学習させていくことができます。ひたすら数をこなしていくと、ある時、AIが新たな解答方法に気づき、より効率的に解答を導き出す瞬間があります。これを「アハモーメント」と呼びます。

DeepSeekの注目技術②「蒸留」

DeepSeekの2つ目の注目技術ポイントは「蒸留」と呼ばれる技術。こちらは、モデル学習のための技術ではなく、モデルを小さくするための技術です。

DeepSeekに限らず、LLMのモデルサイズは巨大なものになりますが、これを実行するには強力なコンピューターリソースを必要とします。せっかくのオープンソースでもそのままではごく一部のサービスでしか利用できないので、一般的に普及したサーバーでも実行できるサイズに落としたり、場合によってはモバイルで動くことを視野に入れたりと、とにかくモデルサイズを小さくする必要があるのです。そのための技術にもいくつかの手法があります。

AIの説明をする際によく登場する「ニューラルネットワーク」の図を使って簡単に説明すると、モデルを構成するニューラルネットワーク上で、影響の少ないパラメーター 部分を間引く方法「圧縮(Pruning)」や、モデル内の重みや演算を簡略化する「量子化(Quantization)」などの方法があります。

これまでの生成AIでこのような手法が取られていたのに対して、今回DeepSeekで採用されたのが「蒸留(Distillation)」という手法。これは、親となる大きなモデルと、子となる小さなモデルを用いて、親への入力と出力の結果情報を、子のモデルに反映させようとするという手法です

先述の「圧縮」や「量子化」で小さくなったモデルは、出力結果も簡略化されます。数字でいうと四捨五入されたような状態です。しかし、この四捨五入された単位以下の情報がときには重要だったり、精度に関わってくる情報だったりするのです。

「蒸留」では、出力結果を親のモデルにできるだけ近づけるよう、親のモデルを参考に模倣・改善していきます。中国のアリババ社が公開しているオープンソースのモデル「Qwen」と、Facebookを運営するMeta社が公開しているオープンソースのモデル「Llama」という2つの軽量モデルがありますが、DeepSeekではこの「蒸留」という方法を用いて、DeepSeek R1の出力結果を模倣するように改善し公開しました

蒸留は、2つのモデルの出力結果を模倣するという手法なので、親のモデルと子のモデルが同じ系列でなくとも成立できるのです。

DeepSeek R1ができるまで

さて、「DeepSeek」が一躍注目を集めたのは「DeepSeek R1」というバージョン(2025年1月末に発表)ですが、実は「DeepSeek V3」というバージョンが、2024年12月に出ていました。こちらも、学習コストが低いことで一部からは注目されていましたが、このV3に上記の数学に特化した強化学習を実施したところ、性能が大幅に向上することが発見されたのです。

こうして作成されたモデルが「DeepSeek R1 Zero」。性能は上がったものの、実際に使おうとすると英語と中国語が混じった回答が生成されたり、出力が安定しないとう問題があったため、「教師あり学習」で使われるデータで「ファインチューニング」と呼ばれる最終調整を行いました。そうして最終的にリリースされたのが「DeepSeek R1」です。

DeepSeekがもたらしたものとは

こうして誕生したDeepSeekは、既存の生成AI企業に大きなショックを与え、株価にも影響を及ぼしました。しかし、「強化学習のみの低コストで性能向上」する点や「小さなモデルに対しての蒸留が大幅な性能向上をもたらす」点などに言及された論文も公開され、オープンソースで展開されたこれらの技術と情報は、同様の方法を使って、今後さまざまなサービスの性能の底上げにも繋げられることを意味しています。

小さなモデルであっても、それなりの性能向上が見込めれば、モバイルをはじめ、ネットワーク接続が難しいデバイスでもAIの活用が考えられるようになります。中国からのリリースであることでデータ流出のリスクやセキュリティなどが懸念されるという側面はありますが、すでに国内からも日本語にチューニングしたDeepSeekのモデルが複数公開されています。その技術は、確実に生成AI業界を進歩、改善させる方向に動いているのです

最後まで読んでいただき、ありがとうございました!

この記事がよかったら「いいね!」
この記事を書いた人
森 一弥 アステリア株式会社 ノーコード変革推進室 エバンジェリスト。 2012年よりインフォテリア(現アステリア)勤務。2017年3月までは主力製品「ASTERIA WARP」のシニアプロダクトマネージャーとしてデータ連携製品の普及に務め、特に新技術との連携に力を入れる。 ブロックチェーン技術推進の一環として実証実験やコンサルティングなどを実施。ブロックチェーンを活用した株主投票では特許を取得。またブロックチェーン推進協会(BCCC)では技術応用部会を立ち上げ、技術者へブロックチェーンアプリケーションの作り方を啓発している。現在はAIやIoTなど先端技術の調査、普及啓発に努めている。