【プレスリリース】企業の生成AI活用の次なるステップを支援する「RAG Ready診断」を提供開始
〜Lightblueが生成AIの効果的な導入をサポート〜 最先端アルゴリズムの社会実装に取り組むAIスタートアップ、株式会社Lig...
こちらの記事は、noteに投稿した記事の再掲となります。
私たちLightblueの自然言語処理チーム(LLab)は、新しい最先端の日本語の大規模言語モデル(LLM)を開発しました!この記事では、このモデルの開発概要、できることとできないこと、そして今後の改善のための取り組みについて記載します。
最高の日本語性能を持つLLMを開発する際に、ゼロから学習させるコストは現在10億ドル以上と見積もられているため、既存の公開モデルをファインチューニングする方法を選びました。今回ベースモデルとして選定したのは、MT-Benchマークで際立つ汎用性能を誇るQwen 1.5 72B Chatモデルです。このモデルは世界的な評価を受けており、その汎用性には目を見張るものがあります。今回私たちはこのモデルをベースに特に日本語処理能力の向上を目指して学習を実施しました。
今回の学習には100万以上のさまざまなデータエントリから構成されるLightblue独自に構築した大規模データセットを使いました。前回のKarasu/Qurasuの学習時と比較して、新規で追加したのは、日本語の公開技術ブログ、ニュース記事、QAサイトの回答になります。ニュース/記事データは記事からタイトルを生成、その逆を行うチャットボットタスクを作成、QAデータはユーザーによる人気の高い回答のみを使用しました。総データ量は約11億文字になります。
Qwen 72BにLLMを学習させるために、LoRAと呼ばれる手法を用いました。これによって必要なVRAMを600GBから80GBに抑え、コストも抑えることができます。事前の想定では、11億文字の学習に40日かかる可能性があると考えられていましたが、実際には約1日で学習は収束しました。学習後、アダプターをフルプレシジョンモデルにマージし、量子化を実施しています。
評価にはMT-Benchを使用しました。このベンチマークではベースモデルであるQwen-72BやGPT-3.5を上回るスコアを示しましたが、社内向けのデモ環境で試してもらったところ、一部の回答にはハルシネーションが見られ、さらに品質改善が必要であると判明しています。現状では以下のような傾向があります。
また個人的にはMT-Benchなどの既存の評価尺度だけではLLMの性能を評価するのには不十分で、将来的により多様で複雑な評価基準が必要だと考えています。
現状で考えている改善点は以下のとおりです
このモデルは、Lightblueの自然言語処理チームLLabによって作成されました。
開発者と連絡を取りたい場合やモデルについて質問がある場合は、peter [at] lightblue-tech.com(Peter Devine)or taniguchi[at] lightblue-tech.com(谷口)にお気軽にご連絡ください。