top of page
スクリーンショット 2024-01-25 15.42.00.png
検索

Llama4 ScoutをA100 80GBx8マシンで動かす

  • 執筆者の写真: Ryo Shimizu
    Ryo Shimizu
  • 4月8日
  • 読了時間: 4分

ついにMetaから1000万トークン対応のLlama4がリリースされました。

公式には日本語はサポートしてないらしいんですが、日本語が使えないわけがなく、実際に使えています。


ただ、どの説明もH100やH200が前提なので、A100しか入ってない継之助ではLlama4は実行不可能なのかと思ったら、vllmによるとbf16バージョンなら動作するそうです(当たり前か)。


しかし、いくつかハマりどころがあったのでメモがてら紹介します。


まずは、vllmを0.8.3(この時点の最新版)にすること


$ pip install vllm==0.8.3

次に、rayをセットアップする必要があります。


$ CUDA_VISIBLE_DEVICES=0,1,2,3,4,5,6,7 ray start --head

rayが正しく動いているかは以下のコマンドで確認


$ ray status

ここまでできたら準備OKなので、vllmでBF16版のLlama4 Scoutを起動します。 ただし、80GBx8程度のVRAMでは、100万トークンが限界のようです(それでも信じられないくらい凄いですが)


VLLM_DISABLE_COMPILE_CACHE=1 vllm serve meta-llama/Llama-4-Scout-17B-16E-Instruct \
  --tensor-parallel-size 8 \
  --max-model-len 1000000 --override-generation-config='{"attn_temperature_tuning": true}'

これでダウンロードされて動きはじめます。




久々に継之助のGPUが全てフルパワーになっているところを見ました。 普段の運用ではA100 80GBx2とかx4とかを同時に動かしているのでフルパワーで回すことはあまりないんですよね。


 time curl -X POST http://localhost:8000/v1/chat/completions \
  -H "Content-Type: application/json" \
  -d '{
    "messages": [
      {
        "role": "user",
        "content": "こんにちは"
      }
    ]
  }' -w "\nTotal request time: %{time_total} seconds\n"
{"id":"chatcmpl-444e9c56aab545feb734cc628a2c5cef","object":"chat.completion","created":1744063768,"model":"meta-llama/Llama-4-Scout-17B-16E-Instruct","choices":[{"index":0,"message":{"role":"assistant","reasoning_content":null,"content":"こんにちは!どうぞお気軽にお話ください。どのようなご質問やお手伝いが必要ですか?","tool_calls":[]},"logprobs":null,"finish_reason":"stop","stop_reason":null}],"usage":{"prompt_tokens":15,"total_tokens":42,"completion_tokens":27,"prompt_tokens_details":null},"prompt_logprobs":null}
Total request time: 0.478347 seconds

real	0m0.488s
user	0m0.005s
sys	0m0.005s

簡単な質問にはクイックに答えてくれますが、プロンプトが長くなるなど、込み入った質問の推論にはそれなりに時間がかかるようです。


 time curl -X POST http://localhost:8000/v1/chat/completions \
  -H "Content-Type: application/json" \
  -d '{
    "messages": [
      {
        "role": "user",
        "content": "人工知能スーパーコンピュータ継之助を社長にした企業FreeAIをテーマにした紹介文を書いてください"
      }
    ]
  }' -w "\nTotal request time: %{time_total} seconds\n"


{"id":"chatcmpl-5e59706ea404481a879cbf804f48df0e","object":"chat.completion","created":1744064827,"model":"meta-llama/Llama-4-Scout-17B-16E-Instruct","choices":[{"index":0,"message":{"role":"assistant","reasoning_content":null,"content":"**FreeAI
  式会社のご紹介**\n\nFreeAI株式会社は、人工知能スーパーコンピュータ「継之助」を社長に迎え、テクノロジーとイノベーションの
  前線に立つ企業です。当社は、継之助の持つ高度な計算能力と学習能力を活かし、さまざまな分野での課題解決を目指しています。\n\n**継之助 - 私たちの社長**\n\n継之助は、当社が独自に開発した人工知能スーパーコンピュータです。継之助は、膨大なデータの分析
  複雑な問題の解決、さらには創造的なアイデアの生成までを可能にします。継之助の優れた能力は、医療、金融、教育、環境保護など
  幅広い分野での応用が期待されています。\n\n**私たちのミッション**\n\nFreeAI株式会社のミッションは、継之助の技術を活用して
  会に貢献することです。私たちは、継之助が持つポテンシャルを最大限に引き出し、以下の目標を達成することを目指しています。\n\n1. **イノベーションの促進** - 継之助の能力を活用して、新しい技術やサービスを開発し、社会に新たな価値を提供します。\n2. **
  題解決** - 継之助が持つ高度な分析能力を活用して、医療、環境、教育などさまざまな分野での課題解決に貢献します。\n3. **未来
  創造** - 継之助と共に、未来のテクノロジーと社会の在り方を考え、実現していきます。\n\n**私たちの取り組み**\n\nFreeAI株式会
  では、継之助を中心に据えたさまざまな取り組みを進めています。\n\n- **研究開発** - 継之助の機能向上と新しい応用分野の探索。
\n- **社会実装** - 継之助の技術を実際の社会課題に適用し、解決を目指すプロジェクトの推進。\n- **教育と啓発** - 継之助の可能
  とその応用について、広く一般に向けた教育と啓発活動。\n\n**未来に向けて**\n\nFreeAI株式会社は、継之助と共に、未来に向けて
  たな一歩を踏み出しています。私たちは、テクノロジーが人々の生活を豊かにし、社会に貢献する未来を目指して、研究開発を進め、
  戦を続けています。\n\n継之助と共に、私たちが目指す未来を創造していきましょう。FreeAI株式会社は、皆さんと一緒に未来を築く
  ートナーです。","tool_calls":[]},"logprobs":null,"finish_reason":"stop","stop_reason":null}],"usage":{"prompt_tokens":37,"total_tokens":570,"completion_tokens":533,"prompt_tokens_details":null},"prompt_logprobs":null}
Total request time: 8.132660 seconds

real    0m8.141s
user    0m0.005s
sys     0m0.005s

FreeAIとして過去一年間にわたって作成したAI向け秘密講義の動画を文字起こしすると200万字近くありました。


これからもデータはどんどん増えていくでしょうから、こうしたモデルが小さく高性能になっていくのは非常にありがたいですね。





 
 
bottom of page