IT之家 2 月 28 日のニュース。MIT News は 2 月 26 日にブログ記事を公開し、マサチューセッツ工科大学(MIT)が NVIDIA などの機関と共同で「テールを飼いならす(TLT)」技術を発表し、推論用大規模言語モデル(LLM)の学習効率を大幅に向上できると報じた。 IT之家 はブログ記事の内容を引用し、推論用の大規模モデルは手順を分解して複雑な問題を解決するのが得意だが、強化学習(RL)の学習過程では計算能力とエネルギー消費の負担が非常に大きいと説明している。 研究チームは、複数の代替回答を生成する「ロールアウト」段階が、学習時間の最大 85% を占めていることを見いだした。異なるプロセッサによって回答の長さが異なるため、完了が早いプロセッサは他のプロセッサが長文タスクを終えるまで仕方なく待機し、その結果、深刻な効率ボトルネックが生じる。 MIT の研究者は、この課題を解決するために NVIDIA、スイス連邦工科大学チューリッヒ校などの機関と協力し、「テールを飼いならす(TLT)」と呼ばれる自適応型ソリューションを提案した。 この方式の核心は、革新的に「投機的デコード」技術を用いる点にある。すなわち、小さな「ドラフトモデル」(drafter)を学習して大規模モデルの将来の出力を素早く予測し、その後、大規模モデルがこれらの推測を一括で検証する。こうすることで、大規模モデルは出力を 1 つずつ順番に生成する必要がなくなり、処理を大幅に加速できる。 従来の投機的デコードでは、ドラフトモデルは通常 1 回だけ学習して静的なまま維持される。しかし強化学習では主モデルが数千回更新する必要があり、静的なドラフトモデルはすぐに役に立たなくなる。 そこで TLT システムは「自適応ドラフト・トレーナー」を導入する。プロセッサの一部が短いクエリを処理してアイドル状態に入ると、システムはそれらを即座にスケジューリングして、リアルタイムでドラフトモデルを学習させる。 同時に、「自適応ロールアウト・エンジン」はワークロードの特徴に基づいてデコード戦略を自動的に調整し、ドラフトモデルが常に目標とする大規模モデルと高い同期を保ちながら、追加の計算能力コストを増やさないようにする。 実世界のデータセットに基づくテストによると、TLT 技術はモデルの精度をまったく損なうことなく、複数の推論用大規模言語モデルの学習速度を 70% から 210% 向上させた。 それだけではない。学習によって得られた軽量なドラフトモデルは、無料の副産物として後工程での効率的なデプロイにそのまま利用できる。研究チームは今後、この技術をさらに多くの学習・推論フレームワークに組み込む計画で、AI 開発コストをさらに下げ、エネルギー利用効率を高めることを目指している。
MITとNVIDIAが共同でTLT技術を開発、推論AI大規模モデルのトレーニング効率を最大210%向上
IT之家 2 月 28 日のニュース。MIT News は 2 月 26 日にブログ記事を公開し、マサチューセッツ工科大学(MIT)が NVIDIA などの機関と共同で「テールを飼いならす(TLT)」技術を発表し、推論用大規模言語モデル(LLM)の学習効率を大幅に向上できると報じた。
IT之家 はブログ記事の内容を引用し、推論用の大規模モデルは手順を分解して複雑な問題を解決するのが得意だが、強化学習(RL)の学習過程では計算能力とエネルギー消費の負担が非常に大きいと説明している。
研究チームは、複数の代替回答を生成する「ロールアウト」段階が、学習時間の最大 85% を占めていることを見いだした。異なるプロセッサによって回答の長さが異なるため、完了が早いプロセッサは他のプロセッサが長文タスクを終えるまで仕方なく待機し、その結果、深刻な効率ボトルネックが生じる。
MIT の研究者は、この課題を解決するために NVIDIA、スイス連邦工科大学チューリッヒ校などの機関と協力し、「テールを飼いならす(TLT)」と呼ばれる自適応型ソリューションを提案した。
この方式の核心は、革新的に「投機的デコード」技術を用いる点にある。すなわち、小さな「ドラフトモデル」(drafter)を学習して大規模モデルの将来の出力を素早く予測し、その後、大規模モデルがこれらの推測を一括で検証する。こうすることで、大規模モデルは出力を 1 つずつ順番に生成する必要がなくなり、処理を大幅に加速できる。
従来の投機的デコードでは、ドラフトモデルは通常 1 回だけ学習して静的なまま維持される。しかし強化学習では主モデルが数千回更新する必要があり、静的なドラフトモデルはすぐに役に立たなくなる。
そこで TLT システムは「自適応ドラフト・トレーナー」を導入する。プロセッサの一部が短いクエリを処理してアイドル状態に入ると、システムはそれらを即座にスケジューリングして、リアルタイムでドラフトモデルを学習させる。
同時に、「自適応ロールアウト・エンジン」はワークロードの特徴に基づいてデコード戦略を自動的に調整し、ドラフトモデルが常に目標とする大規模モデルと高い同期を保ちながら、追加の計算能力コストを増やさないようにする。
実世界のデータセットに基づくテストによると、TLT 技術はモデルの精度をまったく損なうことなく、複数の推論用大規模言語モデルの学習速度を 70% から 210% 向上させた。
それだけではない。学習によって得られた軽量なドラフトモデルは、無料の副産物として後工程での効率的なデプロイにそのまま利用できる。研究チームは今後、この技術をさらに多くの学習・推論フレームワークに組み込む計画で、AI 開発コストをさらに下げ、エネルギー利用効率を高めることを目指している。