ao-Karasu:最先端の72B日本語LLM開発

こちらの記事は、noteに投稿した記事の再掲となります。

はじめに

私たちLightblueの自然言語処理チーム(LLab)は、新しい最先端の日本語の大規模言語モデル(LLM)を開発しました!この記事では、このモデルの開発概要、できることとできないこと、そして今後の改善のための取り組みについて記載します。

モデルの開発

ベースモデル

最高の日本語性能を持つLLMを開発する際に、ゼロから学習させるコストは現在10億ドル以上と見積もられているため、既存の公開モデルをファインチューニングする方法を選びました。今回ベースモデルとして選定したのは、MT-Benchマークで際立つ汎用性能を誇るQwen 1.5 72B Chatモデルです。このモデルは世界的な評価を受けており、その汎用性には目を見張るものがあります。今回私たちはこのモデルをベースに特に日本語処理能力の向上を目指して学習を実施しました。

データセット

今回の学習には100万以上のさまざまなデータエントリから構成されるLightblue独自に構築した大規模データセットを使いました。前回のKarasu/Qurasuの学習時と比較して、新規で追加したのは、日本語の公開技術ブログ、ニュース記事、QAサイトの回答になります。ニュース/記事データは記事からタイトルを生成、その逆を行うチャットボットタスクを作成、QAデータはユーザーによる人気の高い回答のみを使用しました。総データ量は約11億文字になります。

学習

Qwen 72BにLLMを学習させるために、LoRAと呼ばれる手法を用いました。これによって必要なVRAMを600GBから80GBに抑え、コストも抑えることができます。事前の想定では、11億文字の学習に40日かかる可能性があると考えられていましたが、実際には約1日で学習は収束しました。学習後、アダプターをフルプレシジョンモデルにマージし、量子化を実施しています。

評価

画像

評価にはMT-Benchを使用しました。このベンチマークではベースモデルであるQwen-72BやGPT-3.5を上回るスコアを示しましたが、社内向けのデモ環境で試してもらったところ、一部の回答にはハルシネーションが見られ、さらに品質改善が必要であると判明しています。現状では以下のような傾向があります。

  • 得意なこと:論理的推論や文章作成
  • 苦手なこと:簡単な事実関係であってもハルシネーションなく正確に答えること

また個人的にはMT-Benchなどの既存の評価尺度だけではLLMの性能を評価するのには不十分で、将来的により多様で複雑な評価基準が必要だと考えています。

改善点

現状で考えている改善点は以下のとおりです

  • 高品質の小規模データセットで学習させる
  • RAGやFunctionCallingを導入しハルシネーションを減らす
  • MT-BenchだけでなくELYZA-100、LB-Benchなど会話ベンチマークでの評価を実施

まとめ

このモデルは、Lightblueの自然言語処理チームLLabによって作成されました。

開発者と連絡を取りたい場合やモデルについて質問がある場合は、peter [at] lightblue-tech.com(Peter Devine)or taniguchi[at] lightblue-tech.com(谷口)にお気軽にご連絡ください。