AlibabaのQwenチームは、2026年5月中旬にQwen3.7-Max-Previewを出荷し、開発者はすぐに同じ質問を始めました。「自分のコードからこれをどう呼び出せばよいのか?」このモデルは、100万トークンのコンテキストウィンドウと明示的な思考連鎖トレースを備えた旗艦推論システムであり、エージェントのバックエンド、長文ドキュメント分析、コード生成に強力に適しています。しかし、その名前の「プレビュー」は多くの意味を持っています。アクセスは制限されており、APIのインターフェースはまだ確定しておらず、機能するコードを書くために必要な詳細は、リリースノートやプラットフォームのドキュメントに散らばっています。
TL;DR
Qwen3.7-Max-Previewは、2026年5月14日にプレビュー公開されたAlibabaの旗艦推論モデルで、100万トークンのコンテキストウィンドウを備えています。プレビュー期間中、最も確実にこれを使用する方法はQwen Chat (chat.qwen.ai)です。本番環境のAPIアクセスは、Alibaba Cloud Model Studio (DashScope)を介してOpenAI互換のエンドポイントを使用します。ここでは、ベースURLを設定し、キーをBearerトークンとして渡し、/chat/completionsを呼び出します。3.7ティアはプレビュー専用であるため、リリース前に公式ドキュメントで正確なモデルIDとエンドポイントを確認し、利用可能性が安定するまでの間、Apidogを使用してエンドポイントをテストおよびモックしてください。
Qwen 3.7への現在のアクセス方法
Qwenは複数のサービスでモデルを提供していますが、すべてが一度に利用可能になるわけではありません。2026年5月下旬時点での正直なアクセス状況は以下の通りです。
Qwen Chat (chat.qwen.ai)。 Qwen3.7-Max-Previewを試す最速の方法です。無料のQwenアカウントでサインインし、モデルセレクターでqwen3.7-max-previewを選択し、推論トレースを見るために「Thinking Mode」をオンにします。プレビュー期間中、利用制限はありますが、費用はかからず、セットアップも不要です。これはブラウザ製品であり、APIではないため、統合ではなく評価用です。
Alibaba Cloud Model Studio (DashScope)。 ここでQwenモデルは実際のAPIとなります。Model StudioはOpenAI互換のエンドポイントを通じてQwenを公開しているため、すでにOpenAI SDKと連携しているコードは、ベースURLとキーを交換するだけでQwenを呼び出すことができます。qwen3.6-max-previewやqwen-maxファミリーのような古い階層はすでにここで利用可能です。この記事を読んでいる時点では、3.7プレビュー階層のパブリックAPIエントリーはまだ利用できないかもしれません。Qwenはこれまで、チャットプレビューの数週間後にAPIアクセスを開始してきました。

OpenAI互換パターン。 Model Studio上の最近のQwenモデルはすべて同じ形式に従います。標準のOpenAIクライアントをDashScopeのベースURLに向け、Bearerトークンで認証し、チャット補完ルートを呼び出します。このパターンはバージョン間で安定しているため、3.7モデルIDが利用可能になった後も以下のコードは機能し続けます。主に1つの文字列を変更するだけです。
プレビュー期間中はモデル識別子とエンドポイントが変更される可能性があるため、公式QwenドキュメントおよびModel Studioモデルリストを信頼できる情報源としてください。APIアクセスを待つ間の無料の方法として、Qwen 3.7を無料で使う方法に関する私たちのガイドがプレビューチャネルを詳しく解説しています。
アクセス方法一覧
| 方法 | APIアクセス | 費用 | 最適な用途 |
|---|---|---|---|
| Qwen Chat (chat.qwen.ai) | いいえ | 無料、レート制限あり | 簡単な評価、プロンプトテスト |
| Alibaba Cloud Model Studio (DashScope) | はい、OpenAI互換 | トークンごとの支払い | 本番環境への統合 |
| Hugging Face上のQwen | 重み(リリース時) | 無料(セルフホスト) | オープンウェイトモデル、Maxプレビューではない |
| サードパーティゲートウェイ | 様々 | 様々 | マルチモデルルーティング |
注目すべき点の1つは、オープンウェイトのQwenモデルはHugging Faceで利用できますが、Max-Previewティアはプロプライエタリであるため、qwen3.7-max-previewのダウンロード可能な重みは期待しないでください。
Qwen 3.7 APIキーの取得
APIアクセスはAlibaba Cloudアカウントを通じて行われます。手順は簡単です。
- Alibaba Cloudアカウントを作成し、Model Studioコンソール (
modelstudio.console.alibabacloud.com) を開きます。 - あなたのアカウントとリージョンでModel Studioをアクティブ化します。キーはリージョンにスコープされているため、シンガポールエンドポイントのキーは北京に対して認証されません。
- コンソールのAPIキーセクションを開き、キーを生成します。
sk-の後に文字列が続く形式です。 - キーを一度コピーし、パスワードのように保存します。
ベースURLを設定するため、リージョンを慎重に選択してください。
| リージョン | ベースURL |
|---|---|
| シンガポール | https://dashscope-intl.aliyuncs.com/compatible-mode/v1 |
| 米国 (バージニア) | https://dashscope-us.aliyuncs.com/compatible-mode/v1 |
| 北京 (中国) | https://dashscope.aliyuncs.com/compatible-mode/v1 |
コミットするソースコードにキーをハードコードしないでください。代わりに環境変数に設定してください。
# macOS / Linux
export DASHSCOPE_API_KEY="sk-your-key-here"
# Windows PowerShell
setx DASHSCOPE_API_KEY "sk-your-key-here"
あなたのコードは実行時にDASHSCOPE_API_KEYを読み込みます。これにより、秘密情報がリポジトリから除外され、コードに触れることなくキーをローテーションできます。この習慣は、どのモデルを呼び出す場合でも同じように適用されます。Gemini 3.5 APIに関する私たちのガイドでも同じパターンが見られます。
最初のリクエスト: Python、curl、およびJavaScript
QwenのModel StudioエンドポイントはOpenAI互換であるため、公式のOpenAI SDKをDashScopeベースURLに向けて使用するか、生のHTTP呼び出しを行うかの2つの選択肢があります。両方を以下に示します。
コードの前に一点注意です。モデルID qwen3.7-max-preview は、Qwen Chatがプレビューモデルに使用する識別子です。APIが期待する正確な文字列は、プレビュー期間中に異なる場合があり、これを試す際にはqwen3.6-max-previewのような古い階層が稼働している可能性もあります。現在のモデルIDはModel Studioのモデルリストで確認し、modelフィールドに設定してください。リクエストの形式は変わりません。
OpenAI SDKを使ったPython
pip install openaiでSDKをインストールし、リクエストを送信します。
import os
from openai import OpenAI
client = OpenAI(
api_key=os.environ["DASHSCOPE_API_KEY"],
# Use the base URL for your account's region
base_url="https://dashscope-intl.aliyuncs.com/compatible-mode/v1",
)
response = client.chat.completions.create(
# Confirm the live model ID in the Model Studio model list
model="qwen3.7-max-preview",
messages=[
{"role": "system", "content": "You are a precise coding assistant."},
{"role": "user", "content": "Write a Python function that reverses a linked list."},
],
)
print(response.choices[0].message.content)
これで完全なリクエストです。messages配列は標準的なロールパターンに従います。systemメッセージが動作を設定し、次にuserのターンが続きます。レスポンスはchoices[0].message.contentに生成されたテキストを格納しています。
curl
ターミナルからの簡単な確認、またはアプリコードを書く前にキーが機能するかを確認する場合:
curl 'https://dashscope-intl.aliyuncs.com/compatible-mode/v1/chat/completions' \
--header "Authorization: Bearer $DASHSCOPE_API_KEY" \
--header 'Content-Type: application/json' \
--data '{
"model": "qwen3.7-max-preview",
"messages": [
{"role": "user", "content": "Explain idempotency in REST APIs in two sentences."}
]
}'
キーとモデルIDが有効な場合、補完を含むJSONレスポンスが返されます。そうでない場合、エラーボディが修正すべき点を教えてくれます。エラーについては後述します。
JavaScript / Node.js
同じOpenAI SDKはNodeでも動作します。npm install openaiでインストールします。
import OpenAI from "openai";
const client = new OpenAI({
apiKey: process.env.DASHSCOPE_API_KEY,
baseURL: "https://dashscope-intl.aliyuncs.com/compatible-mode/v1",
});
const response = await client.chat.completions.create({
model: "qwen3.7-max-preview",
messages: [
{ role: "user", content: "List three trade-offs of GraphQL versus REST." },
],
});
console.log(response.choices[0].message.content);
3つの言語、1つのリクエスト形式。これがOpenAI互換APIの利点です。
ストリーミングレスポンス
ユーザーに面するものでは、出力表示の前に完全な完了を待つことは避けたいでしょう。ストリーミングは、トークンが生成されると同時に送信します。streamをtrueに設定し、チャンクをイテレートします。
stream = client.chat.completions.create(
model="qwen3.7-max-preview",
messages=[
{"role": "user", "content": "Summarize the CAP theorem."},
],
stream=True,
)
for chunk in stream:
delta = chunk.choices[0].delta.content
if delta:
print(delta, end="", flush=True)
Nodeでは、ストリーミングされたレスポンスは非同期イテラブルです。
const stream = await client.chat.completions.create({
model: "qwen3.7-max-preview",
messages: [{ role: "user", content: "Summarize the CAP theorem." }],
stream: true,
});
for await (const chunk of stream) {
process.stdout.write(chunk.choices[0]?.delta?.content || "");
}
ストリーミングは、通常のチャットモデルよりも推論モデルでより重要です。Qwen 3.7は最終回答を出す前に思考連鎖にかなりの時間を費やすことがあるため、ストリーミングがないとユーザーは空白の画面を見つめることになります。ストリーミングを使用すると、思考トレース、入力インジケーター、または回答が形成される様子を表示できます。
推論と思考のパラメータ
Qwen3.7-Max-Previewは推論モデルです。最終回答を確定する前に、<think>ブロック内に明示的な思考連鎖を生成できます。このトレースは、数学や難しい多段階問題でのスコアを向上させ、デバッグにも役立ちます。モデルのロジックがどこで逸れたかを確認できます。
DashScopeを通じて提供される最近のQwenモデルでは、思考動作はenable_thinkingフラグで制御されます。Qwenのバージョン間で推論制御が変更されているため、3.7プレビューティアの正確なメカニズムとパラメータ名は現在のAPIリファレンスで確認してください。概念的には、リクエストは次のようになります。
response = client.chat.completions.create(
model="qwen3.7-max-preview",
messages=[
{"role": "user", "content": "A train leaves at 2pm averaging 60mph. "
"A second leaves at 3pm at 75mph on the same route. "
"When does the second catch the first?"},
],
# Reasoning controls vary by Qwen version; confirm the current
# parameter in the Model Studio API reference before relying on it.
extra_body={"enable_thinking": True},
)
print(response.choices[0].message.content)
いくつか実用的な注意点:
- 思考にはトークンと時間がかかります。推論トレースは生成されたテキストです。出力に計上され、レイテンシが増加します。簡単な検索やフォーマットの場合、思考はオフにしておきます。
- 難しい問題ではオンにします。多段階の数学、トリッキーなエッジケースを持つコード、計画、分析などにおいて、思考連鎖はそのコストに見合う価値を発揮します。
- トレースを表示するかどうかを決定します。一部のアプリでは、
<think>の内容を表示してユーザーにモデルの作業を見せますが、他のアプリではそれを除去し、最終回答のみを表示します。どちらも有効な方法です。
推論の品質とコストを他のフロンティアモデルと比較検討している場合、Qwen 3.7 vs GPT-5.5 vs Opus 4.7に関する私たちの比較記事がトレードオフを並べて示しています。推論モデルはエージェントループでトークンを急速に消費する可能性があります。もしそのような状況であれば、エージェントトークンコストを削減する方法に関する私たちの記事のテクニックが直接適用されます。
エラー処理とレート制限
リクエストは予測可能な理由で失敗する可能性があります。アプリが適切に機能停止しないよう、それらに対処してください。
| HTTPステータス | 意味 | 対処法 |
|---|---|---|
| 400 | 不正なリクエスト: 不適切なJSON、無効なパラメータ | リクエストボディを修正する。モデルIDとフィールド名を確認する |
| 401 | 無効または不足しているAPIキー | キーとエンドポイントのリージョンが一致しているか確認する |
| 403 | モデルへのアクセス権なし | プレビューティアは制限されている可能性があります。アカウントが有効になっているか確認する |
| 404 | モデルが見つかりません | モデルIDが間違っているか、お住まいのリージョンで利用できません |
| 429 | レート制限またはクォータ超過 | 遅延して再試行する。QPS制限とアカウント残高を確認する |
| 500 / 503 | サーバー側のエラー | 指数バックオフで再試行する |
プレビューモデルは、アクセスが制限され、識別子が変更されるため、安定版よりも403および404エラーを頻繁に発生させます。これらのエラーが発生した場合、問題は通常、アクセスまたはモデル文字列であり、コードではありません。
Model Studioのレート制限は、アカウントごとに1秒あたりまたは1分あたりのクエリ数として設定されており、正確な数値はアカウントティアとモデルによって異なります。固定値を仮定するのではなく、コンソールで確認してください。パターンは常に同じです。429を捕捉し、待機し、遅延を増やして再試行します。
import time
from openai import OpenAI, RateLimitError, APIStatusError
client = OpenAI(
api_key=os.environ["DASHSCOPE_API_KEY"],
base_url="https://dashscope-intl.aliyuncs.com/compatible-mode/v1",
)
def ask_qwen(prompt, max_retries=4):
for attempt in range(max_retries):
try:
response = client.chat.completions.create(
model="qwen3.7-max-preview",
messages=[{"role": "user", "content": prompt}],
)
return response.choices[0].message.content
except RateLimitError:
wait = 2 ** attempt # 1s, 2s, 4s, 8s
print(f"Rate limited. Retrying in {wait}s...")
time.sleep(wait)
except APIStatusError as e:
# 400/401/403/404 are not worth retrying; surface them
print(f"API error {e.status_code}: {e.message}")
raise
raise RuntimeError("Failed after retries")
429と5xxには指数バックオフを適用し、4xxには即座に失敗します。この分割により、再試行しても解決しないエラーでAPIを叩き続けることを防ぎます。
Apidogを使ったQwen APIのテストとモック
ここでプレビューAPIの困難さが現れ、優れたツールがその価値を発揮します。アクセスが制限され、モデルIDが変化し、レート制限が厳しい状況では、アプリ全体を実行してログを読むことでテストしたくはないでしょう。リクエストを送信し、正確に何が返ってくるかを確認し、それを保存して再度実行したいはずです。Apidogはそのようなループのために作られています。

構築中にエンドポイントをモックする。これは、制限されたプレビューにとって重要な点です。Apidogのモックサーバーは、キーやレート制限なしで、APIスキーマから現実的なレスポンスを返します。これにより、実際のプレビューアクセスが制限されたり、ダウンしたり、アカウントでまだオープンになっていない場合でも、フロントエンドやエージェントは常に即座に反応する代替のQwenエンドポイントに対して開発できます。ライブAPIが準備できたら、ベースURLをモックからDashScopeに切り替えるだけで、コードは変更されません。スキーマファーストのワークフローの詳細については、スキーマファーストモードのウォークスルーを参照してください。
このパターンは、あらゆるモデルAPIに一般化できます。Qwen、Gemini、ERNIE 5.1 APIのいずれを呼び出す場合でも、Apidogのテストおよびモックループは同様に機能します。プレビューモデルの場合、実際のApidogエンドポイントはスタックの中で最も信頼性の低い部分であるため、モックステップの価値が高まります。
結論
Qwen 3.7の呼び出しは、一度やり方を知ってしまえば簡単です。問題となるのはプレビューの制限であり、API自体ではありません。
Qwenが何を返すか推測するのをやめ、実際に見てみましょう。Apidogをダウンロードして、Qwenエンドポイントを設計し、実際のテストリクエストを送信し、再利用可能なシナリオを保存し、構築中にAPIをモックしてください。無料で始めることができ、不安定なプレビューを、自信を持って開発できるものに変えることができます。
