ao-Karasu：最先端の72B日本語LLM開発

2024年4月1日

こちらの記事は、noteに投稿した記事の再掲となります。

はじめに
モデルの開発
改善点
まとめ

はじめに

私たちLightblueの自然言語処理チーム（LLab）は、新しい最先端の日本語の大規模言語モデル(LLM)を開発しました！この記事では、このモデルの開発概要、できることとできないこと、そして今後の改善のための取り組みについて記載します。

モデルの開発

ベースモデル

最高の日本語性能を持つLLMを開発する際に、ゼロから学習させるコストは現在10億ドル以上と見積もられているため、既存の公開モデルをファインチューニングする方法を選びました。今回ベースモデルとして選定したのは、MT-Benchマークで際立つ汎用性能を誇るQwen 1.5 72B Chatモデルです。このモデルは世界的な評価を受けており、その汎用性には目を見張るものがあります。今回私たちはこのモデルをベースに特に日本語処理能力の向上を目指して学習を実施しました。

データセット

今回の学習には100万以上のさまざまなデータエントリから構成されるLightblue独自に構築した大規模データセットを使いました。前回のKarasu/Qurasuの学習時と比較して、新規で追加したのは、日本語の公開技術ブログ、ニュース記事、QAサイトの回答になります。ニュース/記事データは記事からタイトルを生成、その逆を行うチャットボットタスクを作成、QAデータはユーザーによる人気の高い回答のみを使用しました。総データ量は約11億文字になります。

学習

Qwen 72BにLLMを学習させるために、LoRAと呼ばれる手法を用いました。これによって必要なVRAMを600GBから80GBに抑え、コストも抑えることができます。事前の想定では、11億文字の学習に40日かかる可能性があると考えられていましたが、実際には約1日で学習は収束しました。学習後、アダプターをフルプレシジョンモデルにマージし、量子化を実施しています。

評価

評価にはMT-Benchを使用しました。このベンチマークではベースモデルであるQwen-72BやGPT-3.5を上回るスコアを示しましたが、社内向けのデモ環境で試してもらったところ、一部の回答にはハルシネーションが見られ、さらに品質改善が必要であると判明しています。現状では以下のような傾向があります。

得意なこと：論理的推論や文章作成
苦手なこと：簡単な事実関係であってもハルシネーションなく正確に答えること

また個人的にはMT-Benchなどの既存の評価尺度だけではLLMの性能を評価するのには不十分で、将来的により多様で複雑な評価基準が必要だと考えています。

改善点

現状で考えている改善点は以下のとおりです

高品質の小規模データセットで学習させる
RAGやFunctionCallingを導入しハルシネーションを減らす
MT-BenchだけでなくELYZA-100、LB-Benchなど会話ベンチマークでの評価を実施

まとめ

このモデルは、Lightblueの自然言語処理チームLLabによって作成されました。

開発者と連絡を取りたい場合やモデルについて質問がある場合は、peter [at] lightblue-tech.com（Peter Devine）or taniguchi[at] lightblue-tech.com（谷口）にお気軽にご連絡ください。

ao-Karasu：最先端の72B日本語LLM開発

はじめに

モデルの開発

ベースモデル

データセット

学習

評価

改善点

まとめ

関連記事

Lightblue、生成AI活用を成功に導く“AI-Ready”データ整備支援サービス「AIブリッジ for Lightblue」を7月23日より提供開始

清水建設、生成AIアシスタントを全社に導入｜利用者は既に2,000名超、あらゆる部門での生成AI活用を目指す

2025年度における従業員への賃金引き上げ方針について