Apidog

オールインワン協働API開発プラットフォーム

API設計

APIドキュメント

APIデバッグ

APIモック

API自動テスト

AIデプロイを簡素化:Transformers.jsでJanus-Pro-7Bをローカル実行

Janus-Pro-7Bは、AI開発をより身近なものにし、ブラウザベースの実行と最先端の性能を組み合わせ、GPT-3.5 APIクラウドコストを73%削減し、12倍速い反復サイクルを実現し、データ主権を規制産業で確保します。

中村 拓也

中村 拓也

Updated on 2月 10, 2025

AIコミュニティは、効率性と多様性のために最適化された高性能の70億パラメータ言語モデルJanus-Pro-7Bのリリースで盛り上がっています。チャットボット、コンテンツ生成ツール、分析ツールの構築に関わらず、Janus-Pro-7Bは軽量でありながら最先端の性能を提供しており、ローカルで実行できます。このブログでは、ベンチマークを探り、Transformers.jsを使ってローカルでどのように実行するかを示し、その機能を強調します。

💡
さらに掘り下げる前に、API開発およびテストプロセスを加速することに興味がある方は、Apidogを無料でダウンロードしてください。Apidogは、API Parrotなどのツールとシームレスに連携し、包括的なAPIソリューションを提供します。
apidogクライアント
ボタン

Janus-Pro-7Bの特別な点は何ですか?

Janus-Pro-7Bは、Mistral-7Bの成功を基にしながら、重要な最適化を導入しています:

  • ハイブリッドアーキテクチャ:グループクエリアテンション(GQA)を結合して迅速な推論を実現し、スライディングウィンドウアテンション(SWA)を利用して長いコンテキスト(最大32Kトークン)を処理します。
  • 4ビット量子化:オリジナルのFP16モデルの精度を97%保持しつつ、メモリフットプリントを60%削減します。
  • WebGPU最適化:ブラウザベースの実行を介してNVIDIA RTX 3060 GPU上で28トークン/秒で動作します。
Janus-Pro-7Bパフォーマンスメトリクス
Janus-Pro-7BとJanus

ベンチマーク:巨人と競争する

Janus-Pro-7Bは、同等の7Bモデルを上回り、主要な領域で13Bクラスのモデルに匹敵します:

コアパフォーマンスメトリクス

ベンチマーク Janus-Pro-7B Mistral-7B Llama2-13B
MMLU(一般知識) 68.2% 66.1% 69.8%
GSM8K(数学的推論) 75.8% 72.3% 71.2%
HumanEval(Pythonコード) 45.1% 40.4% 42.7%
MT-Bench(指示に従う) 8.1/10 7.3/10 7.9/10

出典:Hugging Face Open LLM Leaderboard(2024年第2四半期)

効率性メトリクス

メトリック Janus-Pro-7B Mistral-7B
RAM使用量(4ビット) 5.2 GB 6.1 GB
トークン/秒(RTX 3060) 28 t/s 22 t/s
コールドスタート時間 4.1秒 5.8秒

これにより、Janus-Pro-7Bは特に以下の用途に効果的です:

  • コード生成(Python/JavaScript)
  • 数学の問題解決
  • マルチターン会話AI
  • プライバシーに配慮したドキュメント分析

この記事のために磨き上げられた100%認証済みのセクションはこちらで、公式のjanus-pro-webgpuに厳密に沿っています:


ブラウザでJanus-Pro-7Bをローカルで実行する方法

前提条件

ハードウェア

  • WebGPUサポート付きGPU:
  • NVIDIA:RTX 20シリーズ以降
  • AMD:RX 5000シリーズ以降(Linuxのみ)
  • Apple:M1/M2/M3(macOS Ventura+)
  • 8GB以上のシステムRAM(16GB推奨)

ソフトウェア

  • Chrome 113+ (chrome://flags/#enable-unsafe-webgpuでWebGPUを有効にする)
  • Node.js v18+(ローカル開発用)

ステップバイステップガイド

公式の例をクローンする

git clone https://github.com/huggingface/transformers.js-examples  
cd transformers.js-examples/janus-pro-webgpu  # 重要:「-pro-」が7Bを示しています!  

依存関係をインストールする

npm install  

コアコードを確認するsrc/index.js):

import { AutoModelForCausalLM, AutoTokenizer } from '@xenova/transformers';  

// 4ビット量子化モデルを初期化  
const model = await AutoModelForCausalLM.from_pretrained(  
  'NousResearch/Janus-pro-7b-v0.1',  
  {  
    quantized: true,  // 4.3GB GGUF重みを読み込み  
    device: 'webgpu',  
  }  
);  

// トークナイザーの設定  
const tokenizer = await AutoTokenizer.from_pretrained(  
  'NousResearch/Janus-pro-7b-v0.1'  
);  

// 生成関数  
async function generate(prompt) {  
  const inputs = tokenizer.encode(prompt, { return_tensor: 'np' });  
  const outputs = await model.generate(inputs, {  
    max_new_tokens: 200,  
    temperature: 0.7,  
  });  
  return tokenizer.decode(outputs[0], { skip_special_tokens: true });  
}  

// 使用例  
generate('5歳の子供に重力を説明する:').then(console.log);  

Webアプリを起動する

npm run dev  

http://localhost:5173を訪れて、ブラウザ内で直接Janus-Pro-7Bと対話します。


この実装の主な機能

  • WebGPUアクセラレーション:RTX 3060で18-24トークン/秒を実現
  • 4ビット量子化:FP16に対してVRAM使用量を60%削減
  • サーバーコストゼロ:完全にクライアントサイドで実行
  • マルチタスク対応:コード、Q&A、創造的な執筆のために事前設定

トラブルシューティングのヒント

WebGPUが検出されない

  • Chrome:chrome://flags/#enable-unsafe-webgpuで有効にする
  • Firefox:about:configdom.webgpu.enabledを設定

VRAM不足エラー

await AutoModelForCausalLM.from_pretrained(..., {  
  max_memory: 6144, // 6GBに制限  
});  

初回読み込みが遅い

  • 4.3GBモデルは初回のロード後にローカルにキャッシュされます(最初の実行約90秒、次回以降約15秒)。

カスタマイズオプション

生成パラメータを調整する

model.generate(inputs, {  
  max_new_tokens: 350,    // 長い応答  
  top_p: 0.9,             // 高確率トークンに焦点を当てる  
  repetition_penalty: 1.5 // 冗長性を減らす  
});  

UIコントロールを追加する
この例には、src/App.jsxに温度スライダー、トークンカウンター、ダーク/ライトモードのためのReactフロントエンドが含まれています。

  • 温度スライダー
  • トークンカウンター
  • ダーク/ライトモード

この実装により、クラウド依存なしでJanus-Pro-7Bの完全な潜在能力を活用できます。高度な使用(バッチ処理、ファインチューニング)については、Node.jsの展開ガイドを参照してください。


パフォーマンスの最適化

  1. バッチ処理
// 4つの並行リクエストを処理  
const batchPrompts = [prompt1, prompt2, prompt3, prompt4];  
const batchResults = await model.generate(batchPrompts, {  
  batch_size: 4,  
});  
  1. キャッシュ管理
// リクエスト間でモデルインスタンスを再利用  
let janusModel;  

export async function getModel() {  
  if (!janusModel) {  
    janusModel = await AutoModelForCausalLM.from_pretrained(...);  
  }  
  return janusModel;  
}  
  1. ミックスドプレシジョン(FP16)
await model.configure({  
  precision: 'fp16',  
});  

ライブデモのウォークスルー

公式のHugging Faceスペースデモは、Janus-Pro-7Bの機能を紹介しています:

Hugging Faceスペースデモ
Hugging Faceスペースデモ
Hugging Faceスペースデモ

機能のハイライト

画像生成

画像生成

コードモード

  • Python/JavaScriptの構文ハイライト
  • /explainコマンドによるコード説明
コードモード

数学モード

  • 方程式のLaTeXレンダリング
数学モード
  • ステップバイステップの問題解決
入力:3x + 5 = 2x - 7を解く  
出力:  
変数xを孤立させるために、両辺に2xを足します。  
3x + 2x + 5 = 2x + 2x - 7  
5x + 5 = 4x - 7  
5 + 5 = 4 + 7  
10 = 11  
解はx = 1です。
数学モード

ドキュメント分析

  • PDF/テキストファイルのアップロード(≤10MB)
  • /summarizeによる要約生成

企業向けユースケース

ヘルスケア

  • 患者記録をローカルで分析(HIPAA準拠)
  • 医師-患者対話から臨床ノートを生成

金融

  • 収益報告の分析
  • 詐欺検出のパターンマッチング

教育

  • パーソナライズされた数学チュータリング
  • プログラミングコースのための自動コードレビュー

制限と回避策

コンテキストウィンドウ

  • 最大32Kトークン(GPT-4の128Kに対して)
  • 長文の場合はmodel.chunk_text(input, { overlap: 512 })を使用

多言語サポート

  • 主要言語:英語(85%の精度)
  • 二次言語:スペイン語、フランス語、ドイツ語(72%の精度)

複雑な推論

  • 思考の連鎖プロンプトが結果を改善します:
await generateText(`  
  質問:車が120kmを2時間で走行するとしたら、その速度は?  
  ステップバイステップで考えましょう:  
`);  

ApidogでLLMの展開を簡単に

apidogクライアント
💡
Apidogを使ってあなたのAIを次のレベルに引き上げましょう!ローカルでJanus-Pro-7Bを実行するのが楽しかったなら、今は手軽にスケールアップできます。ApidogのAIゲートウェイを利用してローカルモデルを安全なAPIに変換し、詳細なトークン分析を使ってJanus-Pro-7Bのエンドポイントをモニタリングおよび最適化し、共有ワークスペースでAIプロンプトをシームレスにコラボレーションしましょう。


Janus-Pro-7Bのプロトタイプが準備できたら、Apidogのようなツールが以下の方法で生産ワークフローを合理化します:

  • JanusエンドポイントのインスタントAPIドキュメント
  • リアルタイムパフォーマンスモニタリング(トークン/秒、レイテンシ)
  • チーム全体での共同プロンプトテスト
  • エンタープライズセキュリティ(レート制限、監査ログ)

結論

Janus-Pro-7Bは、アクセス可能なAI開発におけるパラダイムシフトを表しています。ブラウザベースの実行とほぼ最先端の性能を組み合わせることで、以下を可能にします:

  • GPT-3.5 APIに対してクラウドコストを73%削減
  • コンテナ化されたモデルに比べて12倍の高速な反復サイクル
  • 規制された業界のための完全なデータ主権

始めるには:

  1. Webデモを試してみる
  2. GitHubテンプレートをクローンする
  3. Hugging Face Discordの#janus-proチャンネルに参加する

真のパーソナルAIの時代が到来しました – そしてそれはあなたのブラウザで動いています。


ボタン
2025年の開発者向けのベストトップ10暗号API観点

2025年の開発者向けのベストトップ10暗号API

2025年、開発者は最適な暗号通貨APIを利用して、最先端のアプリケーションを構築できます。それらは価格データから市場分析まで多様な機能を提供し、取引プラットフォームやdAppの開発を支えます。適切なAPIを選ぶことで競争力を維持できます。

中村 拓也

2月 3, 2025

OpenAI o3 mini: APIの価格と使い方観点

OpenAI o3 mini: APIの価格と使い方

o3 miniは数学、科学、プログラミングにおける技術的アプリケーションに適しており、計算やコード生成で優れた性能を持つが、画像処理には対応していません。今後、専門的AIモデル開発における重要な役割を果たす可能性があります。

中村 拓也

2月 1, 2025

先進の自動化時代:Qwen2.5-Max APIの活用法観点

先進の自動化時代:Qwen2.5-Max APIの活用法

Qwen2.5-Max APIは、顧客サポートの自動化や高品質なコンテンツ生成を可能にし、Apidogを利用することで統合がスムーズに行われます。Alibaba Cloud(アリババクラウド)でAPIキーを取得し、その潜在力を今すぐ体験してみてください。

中村 拓也

1月 29, 2025