Lightblue「LLab」が挑む、日本語特化型LLM開発の最前線 ~開発者ピーターさんが語る、技術の「How」とその想い~

機密情報にも対応できるような、高性能かつ軽量な日本語特化型 生成AIへのニーズは高まっています。この課題に挑むのがLightblueの「LLab」です。LLabは、生成AIの研究機関として、独自の言語モデル「ao-Karasu」の研究開発などを担い、Lightblueの技術力を底支えしています。

この記事では、LightblueのLLabの概要について解説するだけでなく、開発リーダーであるディバイン・ピーターのインタビューを通してLLabが挑む、日本語特化型LLM開発の舞台裏、その技術力に迫ります。

なぜ国産LLMが必要なのか?

生成AIがビジネスの現場で真価を発揮するためには、日本語の独特な構造や文化的背景を深く理解したモデルが不可欠です。また、日本企業では、コンプライアンスやセキュリティの観点から、データを国外に出せないケースも少なくありません。機密情報を外部APIに送れない企業ニーズが増えており、ローカル環境で完結するLLMが望まれているのです。国産LLMは、こうしたニーズに応えるための重要な鍵となります。

さらに、アリババグループが4兆円を超える予算を投じているAI研究所「DAMOアカデミー」が開発したオープンソースLLM「Qwen」は、その高度なアーキテクチャと東アジア言語での広範なトレーニングにより、日本語向けファインチューニングで優れた精度を発揮します。「Qwen」は、Llama2など他のモデルと比較し、日本語精度を高める上でアーキテクチャ上の優位性を示したのです。LightblueはAlibaba Cloud社の技術サポートを受けながら、「Qwen」をベースとした日本語特化型LLMの開発を進めています。

また、日本特有のビジネス商習慣や独特の言い回しを理解し、日本市場で効果的に機能するAIモデルの必要性も高まっています。国内で開発・運用される国産LLMであれば、より迅速なサポートや、日本市場のニーズに合わせた柔軟なカスタマイズも期待できます。さらに、7B(70億)モデルのような小型モデルは、大規模な計算リソースを持たない企業でも、自社システム内で生成AIを運用できる可能性を広げます。つまり、7Bモデルは、多くの日本企業にとって、生成AI導入の現実的な選択肢となり得るのです。

Alibaba Cloud社のApsara Conferenceにて、Lightblueの日本語LLMの取組のご紹介

LLabとは?

LightblueのLLab(エルラボ)は、企業ごとの独自ニーズに合わせた生成AIを開発するチームです。ビジネスシーンでのAI活用が進まない現状を打破すべく、一般的な言語モデルでは難しい専門用語や特殊ケースにも対応します。

LLabの強みは、日本語に特化したLLMの開発力です。専門用語が飛び交う建設・製薬などの分野や、厳格な情報管理が求められる金融・医療業界、さらには通信環境が制限される現場など、従来のAI導入が難しかった領域でも活用できるモデルの提供を目指しています。 具体的には、オープンソースのデータセットに加え、Lightblueが独自に整備したデータセットを用いてファインチューニングした日本語LLMモデル「ao-Karasu」を開発しました。これは、Alibaba CloudのQwen 1.5 72Bをベースとしており、日本語性能において国内最高水準のベンチマークを達成しています。

また、7Bパラメータモデルのような小型モデルの開発にも注力しており、将来的には、特定の業界や利用用途に最適化されたモデルを、多数展開していくことも視野に入れています。

Lightblueは、生成AIの実用化を通じて、企業の業務効率化や社会課題の解決、ひいては、日本語ユーザーが、安全かつ手軽にAIの恩恵を得られる社会の実現を目指しています。

AI EXPOにて、エヌビディアの澤井氏、AICX協会 代表理事の小澤氏と対談するLightblue代表 園田

日本語LLM開発の最前線、ピーター氏が語る7Bモデルの可能性

世界的に大きな注目を集める生成AIですが、日本語特化の分野では課題も多いのが現状です。 そこで、独自の大規模言語モデル「ao-Karasu」を開発するLightblueのLLabは、さらなる進化を目指して7Bモデルに注力しています。今回は、LLabの開発者・ピーターさんに、その背景や技術的こだわり、そして今後の展望を伺いました。

Alibaba Cloud社のApsara Conferenceにて。画面左がピーターさん。

スコットランド人研究者が語る日本語AI開発の最前線

ーー本日はよろしくお願いします。まず、ピーターさんの自己紹介と、Lightblueでの役割について教えていただけますか?

Peter : イギリスのスコットランド出身で、2020年から2023年までニュージーランドで自然言語処理の評価手法研究を行い、博士号を取得しました。2023年3月からLightblueで日本語特化大規模言語モデル(LLM)の基盤開発を担当するリサーチャーとして働いています。

ーー日本に来られたきっかけは何だったのでしょうか?

Peter : 初めて日本に来たのは10年ほど前で、早稲田大学への交換留学がきっかけです。日本での生活がとても楽しく、日本語を覚えてしまいました(笑)。それ以来、日本が好きで、「いつか日本で働きたい」という想いがずっとありました。

ーー Lightblueにジョインした決め手は何だったのでしょうか?

Peter : AI、特にLLMの研究を続けたい気持ちが強かったので、スタートアップであるLightblueの“自由度の高さ”や、自分の好きな研究ができる環境に惹かれたのが大きいですね。

日本語特化型LLM「ao-Karasu」、そして7Bモデル開発へ

ーー 現在、LLabではどのような開発に注力されているのですか?

Peter : いま注力しているのは“7Bパラメータ”の比較的小さいモデルの開発です。 お客様がローカル環境で動かせるサイズを重視しています。

ーー セキュリティ上の懸念がある方や、機密データを外部に出せない企業でも、完全にローカルで回せるLLMを提供できる、ということですね。

Peter : おっしゃる通りです。また、小さいモデルは、開発におけるPDCAを回しやすいという利点もあります。

ーー 日本語特化型LLM「ao-Karasu(アオカラス)」の開発についても教えていただけますか?

Peter : 「ao-Karasu」はLightblueが独自に開発した72Bパラメータの大規模モデルです。日本語特化型LLMが不足していると感じ、日本語の微妙なニュアンスや専門用語を理解できるモデルの必要性から着手しました。現在もMT-Bench※などの指標で性能向上を続けていますが、ここで得られた知見を7Bのような小型モデルにも活かしているという流れです。

ーーQwen2.5が公開されたことで、そのベースモデルも活用されるそうですね。

Peter : はい、Alibaba Cloudとの協業も進めながら、強力なベースモデルを取り込み、さらに高性能な日本語特化モデルを作ろうとしています。

※MT-Bench : LLMの性能を評価するためのベンチマーク

日本語LLM性能比較表。lightblue/aokarasu-72Bが総合2位を獲得 (2024/03/13時点)。 

7Bモデルの強み:顧客のユースケースに応じた最適なモデル提供を目指す

ーー実際に7Bモデルを使うメリットはどのような点でしょうか?

Peter : “現場で手軽に試せる”という点が大きいです。 ローカル環境での実行が可能ですし、お客様へのデモがしやすい。また、学習にかかるコストも抑えられるので、研究開発のサイクルを速められるのも利点です。

ーー 7Bモデルは一般的なユーザーのパソコンで試せる現実的なサイズとのことですが、もう少し具体的に教えていただけますか?

Peter : はい。セキュリティへの懸念や、ローカル環境での実行が求められる中で、7Bモデルは多くの方々に試していただける機会を増やせると期待しています。それ以下のパラメータ数では、CoT ※1 的なパフォーマンスが格段に落ちることが多く、7Bが現時点で最もバランスの取れたパラメータ数ではないかと考えています。また、7Bモデルは大規模モデルに比べて、学習にかかる時間とコストが圧倒的に少なくて済みます。その結果、研究開発のサイクルを速め、より効率的にモデルの改善や新機能の追加を行うことができます

ーー将来的に、Lightblue Assistant ※2 のようなサービスに、この7Bモデルが搭載されると面白いと思っていますが、いかがでしょうか。

Peter : あくまでSaaSではなく、個別の顧客へのカスタマイズでの提供ですが、環境が整えば、1月中には導入が完了するでしょう。これらの技術の発展は、タスクの大きさに応じてモデルを選択するという、将来的なマルチモデル利用の可能性を広げています。

※1 CoT : Chain of Thoughtの略。LLMに段階的な推論を促すプロンプティング手法。

※2 Lightblue Assistant : SlackやTeamsからChatGPTと連携し、企業の生産性向上につなげることが可能な社員ひとりひとりのアシスタントサービス。

実際のコードやデータを確認しながら、問題点や改善点を洗い出すミーティング風景

データ品質へのこだわり:独自評価モデルと生成技術

ーー LLMの性能は学習データに大きく左右されると聞きます。LLabではどのようなアプローチを取っていますか?

Peter : 独自に開発した「SLM(Small Language Model)」でテキストの質を評価し、低品質データを排除する仕組みを整えています。fastTextの分類器ベースで、ウェブ上のテキストを社内基準に照らし合わせて判定しています。

ーー なるほど、テキストの質を評価するモデルを開発されたと。具体的にはどのようなデータを収集しているのですか?

Peter : はい。一般的なウェブ上のデータですと、データが陳腐化していたり、そもそも言葉遣いとして不自然なケースも多々見受けられます。そこで、Lightblueでは、そういったデータを、社内の独自基準で判定し、排除しています。

ーー なるほど。

Peter : Wikipediaなどは一般的な知識を学習する上では有用ですが、実務でのやり取りを想定した場合、より具体的な会話データが必要になります。そこで、オープンソースの会話データセットを分析し、そこから実務で想定される多様な質問と、それに対する適切な回答のデータセットを拡充しています。

ーー 具体的には、どのようなプロセスでデータセットを生成されているのでしょうか?

Peter : はい。まず、社内では、データ生成のために、32Bパラメータ規模のQwenモデルを活用しています。48GBのGPUメモリを搭載した「L20」というGPUカードを用いることで、大きなモデルであっても、比較的少ない計算資源で学習を進められる環境を整えています。こうした環境下で、オープンソースの会話データセットから抽出したプロンプトに対する回答を、その32Bモデルで生成します。さらに、バックトランスレーション(逆翻訳)などの技術も用いて、データの質を高めています

ーー バックトランスレーション、とは?

Peter : 例えば、抽出したプロンプトと回答のペアを、まず英語に翻訳し、それを再度日本語に戻す。このプロセスを、複数の異なる翻訳モデルを使って繰り返し適用することで、多様な言い回しを学習データに効率よく反映できます。さらに、得られた回答を基に、モデル自身に自己評価(self-reflection)を行わせ、さらなる改善を促すといった、反復的なブラッシュアッププロセスを採用しています

LLabメンバーと開発中のツールやAIモデルの画面を確認し合っている様子 

LLabの技術戦略:強化学習、知識蒸留、そして顧客ニーズ特化型モデル開発へ

ーー 今後のLLM開発のトレンドとして、「モデルマージ」技術が注目されています。LLabでは、モデルマージについてどのように考えていますか?

Peter : モデルマージは、異なるモデルを組み合わせることで、より高性能なモデルを実現する技術ですが、私自身は、現時点では、モデルマージよりも優先すべき研究テーマがあると考えています。モデルマージは、まだ「アート」に近い部分があり、結果の予測が難しい。組み合わせによっては、性能が低下する可能性もあります。

ーー では、どのようなテーマを優先すべきでしょうか?

Peter : 例えば、複数のモデルから得られた回答を、どのように評価し、選択するかという、強化学習的なアプローチです。これは、モデルマージよりも透明性が高く、研究しやすいと考えています。また、今は、72Bモデルから、より小さなモデルへ知識を蒸留するような研究にも注力しています

ーー 知識を蒸留、ですか。具体的には?

Peter : はい。まず、72Bモデルで、一般的な質問応答データを用いて、確率分布を生成します。次に、生成された確率分布を使い、今度は、7Bモデルの学習を進めます。7Bモデルは、72Bモデルの確率分布を模倣することで、72Bモデルの「知識」を受け継ぐことができるのです

ーー なるほど。

Peter : こうすることで、効率的かつ高性能なモデルを開発できると考えています。7Bモデルで様々な実験を進めることで、将来的には、より大きなモデルでの精度向上にも役立てられると考えています。

ーー 最後に、今後の展望について教えていただけますか?

Peter : 顧客のユースケースに合わせて最適なモデルを提供することが大事だと思っています。議事録作成や企画書作成など、特定タスクに特化したモデルを小型サイズで提供することも視野に入れています。より多様なモデルが並存し、ユーザーが自由に選べる時代が近いと思います。

ーー それは面白い試みですね!

Peter : 特定タスクに最適化されたモデルを提供することで、ユーザーの利便性をさらに向上させることができるでしょう。

LLabを支えるチームの集合写真。多様なスキルを持つメンバーが在籍している 

日本語の可能性を信じて、ピーターさんとLLabが描くAIの未来

Peter : Lightblueは、「デジタルの恩恵を全ての人へ」というミッションのもと、日本語特化型LLMの開発に挑戦し続け、大きな成果を上げています。

  • 独自のSLMやバックトランスレーションを活用したデータ品質向上
  • 72Bモデル「ao-Karasu」から得られた知見を7Bモデルへ“知識蒸留”する手法
  • Qwenをはじめとする強力なベースモデルとの組み合わせ

こうした多角的アプローチにより、「使い勝手と性能の両立」を追求し、日本語LLMの実用化を加速させています。特にセキュリティや機密性を重視する企業にとって、ローカルで実行可能な7Bモデルの提供は大きな意味を持つでしょう。

そして何より、LLabの技術の根底には、「誰もが簡単にAIの恩恵を受けられる社会を実現したい」という強い想いがあります。日本語のニュアンスや専門分野の活用が進めば、企業だけでなく個人レベルでも革新的な成果が得られるでしょう。

今後のLightblue LLabのさらなる躍進、大規模モデルと小型モデルを状況に応じて使い分け、本当に必要とされるAIを素早く提供する。その未来に、ぜひご期待ください。

RAG Readyを解説したウェビナーアーカイブを無料配信中!

本ウェビナーでは、AINOW編集長のおざけん氏とともに「RAG Ready」に向けたロードマップを紹介しながら、現場で活用できる「RAG Ready」への具体的な準備手順とチェックポイントを解説しています。ぜひ御覧くださいませ。

ウェビナーを見る

関連記事