top of page
スクリーンショット 2024-01-25 15.42.00.png
執筆者の写真Ryo Shimizu

Mistral-Nemoを日本語で試す

MistralとNVIDIAが共同開発したMixtral-Nemoも強力なローカルLLMです。

128Kコンテキスト長まで対応して9言語を話すマルチリンガルモデルです。


早速試してみます。


まず、Mistral_inferenceをバージョンアップします。


$ pip install mistral_inference==1.3.1

次に、PYTHONのREPLでダウンロードします


from huggingface_hub import snapshot_download
from pathlib import Path
mistral_models_path = Path.home().joinpath('mistral_models', 'Nemo-Instruct')
mistral_models_path.mkdir(parents=True, exist_ok=True)
snapshot_download(repo_id="mistralai/Mistral-Nemo-Instruct-2407", allow_patterns=["params.json", "consolidated.safetensors", "tekken.json"], local_dir=mistral_models_path)

コマンドラインから呼び出します。


$ mistral-chat $HOME/mistral_models/Nemo-Instruct --instruct --max_tokens 2048 --temperature 0.35

日本語で聞いて見ましょう。


Prompt: 富士山の高さは?
富士山の高さは、標高3,778メートルです。これは、地表からの高さを測定したものです。また、海抜からの高さを測定すると、約2,268メートルになります。富士山は、日本の最高峰であり、世界で最も高い活火山の一つでもあります。
=====================

この時点で、トークンの生成がとても高速なのに驚きました。


Prompt: 経営者になるための資質は?
経営者になるための資質は多岐にわたりますが、以下は一般的に必要とされる資質のいくつかです:

1. **リーダーシップ**: 経営者はチームを指揮し、方向性を示す必要があります。リーダーシップスキルは、チームを動機づけ、指導し、目標に向かって一貫して働くことができます。
2. **戦略的思考**: 経営者は、企業の将来の方向性を定め、戦略を立案し、実行する必要があります。これは、市場の動向や顧客のニーズを分析し、適切な決策を下すことができる能力を意味します。
3. **コミュニケーションスキル**: 経営者は、顧客、従業員、パートナーなど、多くの関係者とコミュニケーションをとる必要があります。効果的なコミュニケーションは、意思疎通を図り、関係を築き、信頼を得るために必要です。
4. **問題解決能力**: 経営者は、常に新しい問題に直面します。問題解決能力は、これらの問題を分析し、解決策を探し出し、実行する能力を意味します。
5. **適応力**: 企業環境は常に変化しています。経営者は、変化に対応し、新しい機会や挑戦に適応する能力を持っている必要があります。
6. **経営判断力**: 経営者は、企業の運営に関する重要な決断を下す必要があります。経営判断力は、データや情報を分析し、リスクを評価し、最適な決断を下す能力を意味します。
7. **経営手腕**: 経営者は、企業の運営を効率化し、コストを削減し、利益を上げるための手腕を持っている必要があります。
8. **顧客志向**: 経営者は、常に顧客のニーズと期待に応える必要があります。顧客志向は、顧客の視点から物事を考え、顧客満足を最大化するための努力を意味します。
9. **忍耐力**: 経営者の道は常に平坦ではありません。忍耐力は、挫折や失敗に直面しても、目標に向かって頑張り続ける能力を意味します。
10. **学習能力**: 経営者は、常に新しい知識やスキルを身につけ、企業を発展させるために必要です。学習能力は、新しいことを吸収し、成長する能力を意味します。

これらの資質は、経営者として成功するために必要不可欠ですが、個々の経営者の資質や経営スタイルは、非常に異なる場合があります。
=====================

なかなか優秀なようです。

Mamba論文の英語のAbstructを日本語で要約させてみます。


Prompt: 以下の文章を日本語で要約せよ \nFoundation models, now powering most of the exciting applications in deep learning, are almost universally based on the Transformer architecture and its core attention module. Many subquadratic-time architectures such as linear attention, gated convolution and recurrent models, and structured state space models (SSMs) have been developed to address Transformers' computational inefficiency on long sequences, but they have not performed as well as attention on important modalities such as language. We identify that a key weakness of such models is their inability to perform content-based reasoning, and make several improvements. First, simply letting the SSM parameters be functions of the input addresses their weakness with discrete modalities, allowing the model to selectively propagate or forget information along the sequence length dimension depending on the current token. Second, even though this change prevents the use of efficient convolutions, we design a hardware-aware parallel algorithm in recurrent mode. We integrate these selective SSMs into a simplified end-to-end neural network architecture without attention or even MLP blocks (Mamba). Mamba enjoys fast inference (5×
要約:

基盤モデル(Foundation models)は、深層学習の多くの注目すべきアプリケーションを駆動しており、ほとんどがトランスフォーマーアーキテクチャとその核となるアテンションモジュールに基づいています。長いシーケンスの計算効率の悪さを解消するために、多くの非四次元時間アーキテクチャが開発されていますが、言語などの重要なモダリティーではアテンションに及ばない結果になっています。我々は、これらのモデルの欠点として、内容に基づく推論能力の欠如を特定し、以下の改善を実施しました。

1. 入力に基づいてSSMパラメータを関数にすることで、離散的なモダリティーの欠点を解消し、モデルがシーケンスの長さ次元に沿って情報を選択的に伝達または忘却できるようにします。
2. この変更は効率的な畳み込みの使用を防ぎますが、再帰モードでハードウェアに対応した並列アルゴリズムを設計します。
3. 我々は、アテンションやMLPブロック(Mamba)などのない単純化されたエンドツーエンドニューラルネットワークアーキテクチャに、選択的SSMを統合します。Mambaは高速な推論(5倍)を実現します。
=====================

こちらもかなり優秀でした。

12Bモデルがベースとなっており、実行時のフットプリントは24GBを超えるので残念ながら4090では動かないかもしれません。A6000やTITAN RTXなど、48GBのVRAMがあれば動きそうです。


いずれにせよ強力なモデルが出てきたことは喜ばしいことで、やはりMixture of Agentsのメンバーとして頼もしくなってくれるのではないかと期待しています。



閲覧数:778回
bottom of page