Triton 推論サーバーを使用した高パフォーマンスのサービス

適用対象:Azure CLI ml extension v2 (現行)Python SDK azure-ai-ml v2 (現行)

この記事では、オンラインエンドポイントで Azure Machine Learning で NVIDIA Triton Inference Server を使用する方法について説明します。

Triton は、推論用に最適化されたマルチフレームワークのオープンソースソフトウェアです。 TensorFlow、ONNX Runtime、PyTorch、NVIDIA TensorRT などの一般的な機械学習フレームワークをサポートしています。 CPU または GPU ワークロードに使用できます。

Triton モデルをオンラインエンドポイントにデプロイするときに使用できる主な方法は、コードなしデプロイとフルコード (Bring Your Own Container) デプロイの 2 つあります。

Triton モデルは、コードなしでデプロイできるため、モデルを持ってくるだけで簡単にデプロイできます。
Triton モデルのフルコードデプロイは、Triton 推論サーバーで使用できる構成のカスタマイズを完全に制御できるため、それらをデプロイするためのより高度な方法です。

どちらのオプションでも、Triton Inference Server は NVIDIA によって定義された Triton モデルに基づいて推論を実行します。たとえば、アンサンブルモデルは、より高度なシナリオに使用できます。

Triton は、マネージドオンラインエンドポイントと Kubernetes オンラインエンドポイントの両方でサポートされています。

この記事では、Triton のコードなしのデプロイを使用してマネージドオンラインエンドポイントにモデルをデプロイする方法について説明します。 Azure CLI、Python SDK v2、Azure Machine Learning Studio の使用に関する情報が提供されます。 Triton Inference Server の構成を直接使用してさらにカスタマイズする場合は、「カスタムコンテナーを使用してモデルをデプロイする」および Triton の BYOC の例 (デプロイ定義とエンドツーエンドスクリプト) を参照してください。

Note

NVIDIA Triton Inference Server コンテナーの使用は NVIDIA AI Enterprise Software ライセンス契約で管理され、エンタープライズ製品サブスクリプションなしで 90 日間使用できます。詳細については、Azure Machine Learning の NVIDIA AI Enterprise に関するページを参照してください。

前提条件

Azure CLI
Python
[スタジオ](#tab/azure-studio)

Azure CLI と Azure CLI のml拡張機能(インストールおよび構成済み)。詳細については、「 CLI のインストールと設定 (v2)」を参照してください。
Bash シェルまたは互換性のあるシェル (Linux システム上のシェルや Linux 用 Windows サブシステムなど)。この記事の Azure CLI の例では、この種類のシェルを使用することを前提としています。
Azure Machine Learning ワークスペース。ワークスペースを作成する手順については、「設定」を参照してください。

動作する Python 3.8 以降の環境。
スコア付けのために追加の Python パッケージがインストールされている必要があります。次のコードを使用してインストールできます。これには次のようなものがあります。
- NumPy。配列と数値計算ライブラリ。
- Triton 推論サーバークライアント。 Triton 推論サーバーへの要求を容易にします。
- 枕。イメージ操作用のライブラリ。
- Gevent。 Triton サーバーへの接続に使用されるネットワークライブラリ。
```
pip install numpy
pip install tritonclient[http]
pip install pillow
pip install gevent
```
Azure サブスクリプションの NCv3 シリーズ VM へのアクセス。

重要

このシリーズ VM を使用するには、事前にサブスクリプションのクォータの引き上げを要求しなければならない場合があります。詳細については、「NCv3 シリーズ」を参照してください。
NVIDIA Triton Inference Server には、特定のモデルリポジトリ構造が必要です。この構造には、各モデルのディレクトリと、モデルバージョンのサブディレクトリがあります。各モデルバージョンのサブディレクトリの内容は、モデルの種類とモデルをサポートするバックエンドの要件によって決まります。すべてのモデルの構造については、「モデルファイル」を参照してください。

このドキュメントの情報は、ONNX 形式で格納されたモデルの使用に基づいているため、モデルリポジトリのディレクトリ構造は <model-repository>/<model-name>/1/model.onnx です。具体的には、このモデルで画像の識別を行います。

この記事の情報は、azureml-examples リポジトリに含まれているコードサンプルを基にしています。 YAML などのファイルをコピーして貼り付けることなくコマンドをローカルで実行するには、リポジトリを複製し、ディレクトリをリポジトリ内の cli ディレクトリに変更します。

git clone https://github.com/Azure/azureml-examples --depth 1
cd azureml-examples
cd cli

まだ Azure CLI の既定値を設定していない場合は、既定の設定を保存する必要があります。サブスクリプション、ワークスペース、およびリソースグループの値が複数回渡されることを防ぐには、以下のコマンドを使用します。次のパラメーターを、実際の構成の値に置き換えます。

<subscription> は、Azure サブスクリプション ID に置き換えてください。
<workspace> は、ご利用の Azure Machine Learning ワークスペース名に置き換えます。
<resource-group> は、ワークスペースが含まれている Azure リソースグループに置き換えます。
<location> は、ワークスペースが含まれている Azure リージョンに置き換えます。

ヒント

az configure -l コマンドを使用すると、現在の既定値を確認できます。

az account set --subscription <subscription>
az configure --defaults workspace=<workspace> group=<resource-group> location=<location>

適用対象: Python SDK azure-ai-ml v2 (現行)

Azure Machine Learning ワークスペース。ワークスペースを作成する手順については、「ワークスペースの作成」を参照してください。
Azure Machine Learning SDK for Python v2。 SDK をインストールするには、次のコマンドを使用します。
```
pip install azure-ai-ml azure-identity
```
SDK の既存のインストールを最新バージョンに更新するには、次のコマンドを使用します。
```
pip install --upgrade azure-ai-ml azure-identity
```
詳細については、「 Python 用 Azure Machine Learning パッケージクライアントライブラリ」を参照してください。

動作する Python 3.8 以降の環境。
スコア付けのために追加の Python パッケージがインストールされている必要があります。次のコードを使用してインストールできます。これには次のようなものがあります。
- NumPy。配列と数値計算ライブラリ。
- Triton 推論サーバークライアント。 Triton 推論サーバーへの要求を容易にします。
- 枕。イメージ操作用のライブラリ。
- Gevent。 Triton サーバーへの接続に使用されるネットワークライブラリ。
```
pip install numpy
pip install tritonclient[http]
pip install pillow
pip install gevent
```
Azure サブスクリプションの NCv3 シリーズ VM へのアクセス。

重要

このシリーズ VM を使用するには、事前にサブスクリプションのクォータの引き上げを要求しなければならない場合があります。詳細については、「NCv3 シリーズ」を参照してください。

この記事の情報は、azureml-examples リポジトリに含まれている online-endpoints-triton.ipynb ノートブックを基にしています。ファイルをコピーして貼り付けなくてもコマンドをローカルで実行するには、リポジトリを複製してから、リポジトリ内の sdk/endpoints/online/triton/single-model/ ディレクトリにディレクトリを変更します。

git clone https://github.com/Azure/azureml-examples --depth 1
cd azureml-examples/sdk/python/endpoints/online/triton/single-model/

デプロイ構成を定義する

Azure CLI
Python
[スタジオ](#tab/azure-studio)

適用対象:Azure CLI ml 拡張機能 v2 (現行)

このセクションでは、Machine Learning 拡張機能 (v2) で Azure CLI を使用して、マネージドオンラインエンドポイントにデプロイする方法について説明します。

重要

Triton のコードなしのデプロイの場合、ローカルエンドポイントを使用したテストは現在サポートされていません。

複数のコマンドでパスを入力せずにすむように、次のコマンドを使用して BASE_PATH 環境変数を設定します。この変数は、モデルとそれに関連する YAML 構成ファイルが格納されているディレクトリを示します。
```
BASE_PATH=endpoints/online/triton/single-model
```
次のコマンドを使用して、作成するエンドポイントの名前を設定します。この例では、エンドポイントにランダムな名前を作成します。
```
export ENDPOINT_NAME=triton-single-endpt-`echo $RANDOM`
```
エンドポイントの YAML 構成ファイルを作成します。次の例では、エンドポイントの名前と認証モードを構成します。次のコマンドで使用するファイルは、前に複製した azureml-examples リポジトリの /cli/endpoints/online/triton/single-model/create-managed-endpoint.yml にあります。

create-managed-endpoint.yaml
```
$schema: https://azuremlschemas.azureedge.net/latest/managedOnlineEndpoint.schema.json
name: my-endpoint
auth_mode: aml_token
```
デプロイの YAML 構成ファイルを作成します。次の例では、前の手順で定義したエンドポイントに blue という名前のデプロイを構成します。次のコマンドで使用するファイルは、前に複製した azureml-examples リポジトリの /cli/endpoints/online/triton/single-model/create-managed-deployment.yml にあります。

重要

Triton のコードなしのデプロイを機能させるには、 type を triton_model: type: triton_model に設定する必要があります。詳細については、「CLI (v2) モデル YAML スキーマ」を参照してください。

このデプロイでは、Standard_NC6s_v3 VM を使用します。この VM を使用するには、事前にサブスクリプションのクォータの引き上げを要求しなければならない場合があります。詳細については、「NCv3 シリーズ」を参照してください。
```
$schema: https://azuremlschemas.azureedge.net/latest/managedOnlineDeployment.schema.json
name: blue
endpoint_name: my-endpoint
model:
  name: sample-densenet-onnx-model
  version: 1
  path: ./models
  type: triton_model
instance_count: 1
instance_type: STANDARD_NC4AS_T4_V3
```

適用対象: Python SDK azure-ai-ml v2 (現行)

このセクションでは、Azure Machine Learning Python SDK (v2) を使用して、マネージドオンラインエンドポイントにデプロイする Triton デプロイを定義する方法について説明します。

重要

Triton のコードなしのデプロイの場合、ローカルエンドポイントを使用したテストは現在サポートされていません。

ワークスペースに接続するには、識別子パラメーター (サブスクリプション、リソースグループ、ワークスペース名) が必要です。
```
subscription_id = "<SUBSCRIPTION_ID>"
resource_group = "<RESOURCE_GROUP>"
workspace_name = "<WORKSPACE_NAME>"
```
次のコマンドを使用して、作成するエンドポイントの名前を設定します。この例では、エンドポイントにランダムな名前を作成します。
```
import random

endpoint_name = f"endpoint-{random.randint(0, 10000)}"
```
azure.ai.ml MLClientで前に構成した識別子パラメーターを使用して、必要な Azure Machine Learning ワークスペースへのハンドルを取得します。資格情報を構成してワークスペースに接続する方法の詳細については、構成ノートブックを参照してください。
```
from azure.ai.ml import MLClient
from azure.identity import DefaultAzureCredential

ml_client = MLClient(
    DefaultAzureCredential(),
    subscription_id,
    resource_group,
    workspace_name,
)
```
エンドポイントを構成する ManagedOnlineEndpoint オブジェクトを作成します。次の例では、エンドポイントの名前と認証モードを構成します。
```
from azure.ai.ml.entities import ManagedOnlineEndpoint

endpoint = ManagedOnlineEndpoint(name=endpoint_name, auth_mode="key")
```

デプロイを構成する ManagedOnlineDeployment オブジェクトを作成します。次の例では、前の手順で定義したエンドポイントに blue という名前のデプロイを構成し、ローカルモデルをインラインで定義します。

from azure.ai.ml.entities import ManagedOnlineDeployment, Model

model_name = "densenet-onnx-model"
model_version = "1"

deployment = ManagedOnlineDeployment(
    name="blue",
    endpoint_name=endpoint_name,
    model=Model(
        name=model_name, 
        version=model_version,
        path="./models",
        type="triton_model"
    ),
    instance_type="Standard_NC6s_v3",
    instance_count=1,
)

このセクションでは、 Azure Machine Learning Studio を使用して、マネージドオンラインエンドポイントに Triton デプロイを定義する方法について説明します。

次の YAML および CLI コマンドを使用して、モデルを Triton 形式で登録します。 YAML では、 azureml-examples/cli/endpoints/online/triton/single-model の densenet-onnx モデルが使用されます。

create-triton-model.yaml
```
name: densenet-onnx-model
version: 1
path: ./models
type: triton_model
description: Registering my Triton format model.
```
```
az ml model create -f create-triton-model.yaml
```
次のスクリーンショットは、Azure Machine Learning Studio の [ モデル ] ページで登録済みモデルがどのように表示されるかを示しています。
Studio でワークスペースを選択し、[エンドポイント] ページまたは [モデル] ページを使用してエンドポイントのデプロイを作成します。
- [エンドポイント] ページ
- [Models](モデル) ページ
1. [エンドポイント] ページで、[作成] を選択します。
2. 先ほど登録した Triton モデルを選択し、[ 選択] をクリックします。
3. Triton 形式で登録されているモデルを選択する場合、スコア付けスクリプトや環境は必要ありません。
1. [Triton モデル] を選択し、[このモデルを使用する>リアルタイムエンドポイント] を選択します。

Deploy to Azure (Azure へのデプロイ)

Azure CLI
Python
[スタジオ](#tab/azure-studio)

適用対象:Azure CLI ml 拡張機能 v2 (現行)

YAML 構成を使用してエンドポイントを作成するには、次のコマンドを使用します。
```
az ml online-endpoint create -n $ENDPOINT_NAME -f $BASE_PATH/create-managed-endpoint.yaml
```

YAML 構成を使用してデプロイを作成するには、次のコマンドを使用します。

az ml online-deployment create --name blue --endpoint $ENDPOINT_NAME -f $BASE_PATH/create-managed-deployment.yaml --all-traffic

適用対象: Python SDK azure-ai-ml v2 (現行)

ManagedOnlineEndpoint オブジェクトを使用してエンドポイントを作成するには、次のコマンドを使用します。
```
endpoint = ml_client.online_endpoints.begin_create_or_update(endpoint)
```
ManagedOnlineDeployment オブジェクトを使用してデプロイを作成するには、次のコマンドを使用します。
```
ml_client.online_deployments.begin_create_or_update(deployment)
```
デプロイが完了すると、 traffic 値は 0%に設定されます。 traffic値を 100%に更新します。
```
endpoint.traffic = {"blue": 100}
ml_client.online_endpoints.begin_create_or_update(endpoint)
```

エンドポイントをテストする

Azure CLI
Python
[スタジオ](#tab/azure-studio)

適用対象:Azure CLI ml 拡張機能 v2 (現行)

デプロイが完了したら、次のコマンドを使用して、デプロイされたエンドポイントにスコアリング要求を行います。

ヒント

スコアリングには、azureml-examples リポジトリのファイル /cli/endpoints/online/triton/single-model/triton_densenet_scoring.py が使用されます。エンドポイントに渡される画像は、サイズ、型、および形式の要件を満たすために前処理を行い、予測されたラベルを表示するための後処理が必要です。 triton_densenet_scoring.py ファイルは、tritonclient.http ライブラリを使用して Triton 推論サーバーと通信します。このファイルはクライアント側で実行されます。

エンドポイントスコアリング URI を取得するには、次のコマンドを使用します。

scoring_uri=$(az ml online-endpoint show -n $ENDPOINT_NAME --query scoring_uri -o tsv)
scoring_uri=${scoring_uri%/*}

認証キーを取得するには、次のコマンドを使用します。

auth_token=$(az ml online-endpoint get-credentials -n $ENDPOINT_NAME --query accessToken -o tsv)

エンドポイントを使用してデータをスコア付けするには、次のコマンドを使用します。孔雀の画像をエンドポイントに送信します。

python $BASE_PATH/triton_densenet_scoring.py --base_url=$scoring_uri --token=$auth_token --image_path $BASE_PATH/data/peacock.jpg

スクリプトからの応答は、次の応答のようになります。

Is server ready - True
Is model ready - True
/azureml-examples/cli/endpoints/online/triton/single-model/densenet_labels.txt
84 : PEACOCK

適用対象: Python SDK azure-ai-ml v2 (現行)

エンドポイントスコアリング URI を取得するには、次のコマンドを使用します。
```
endpoint = ml_client.online_endpoints.get(endpoint_name)
scoring_uri = endpoint.scoring_uri
```

認証キーを取得するには、次のコマンドを使用します。

keys = ml_client.online_endpoints.get_keys(endpoint_name)
auth_key = keys.primary_key

次のスコアリングコードは、Triton 推論サーバークライアントを使用して、孔雀の画像をエンドポイントに送信します。このスクリプトは、 Triton を使用してオンラインエンドポイントにモデルをデプロイする例のコンパニオンノートブックで使用できます。

# Test the blue deployment with some sample data
import requests
import gevent.ssl
import numpy as np
import tritonclient.http as tritonhttpclient
from pathlib import Path
import prepost

img_uri = "http://aka.ms/peacock-pic"

# Remove the scheme from the URL
url = scoring_uri[8:]

# Initialize the client handler
triton_client = tritonhttpclient.InferenceServerClient(
    url=url,
    ssl=True,
    ssl_context_factory=gevent.ssl._create_default_https_context,
)

# Create headers
headers = {}
headers["Authorization"] = f"Bearer {auth_key}"

# Check the status of the Triton server
health_ctx = triton_client.is_server_ready(headers=headers)
print("Is server ready - {}".format(health_ctx))

# Check the status of the model
model_name = "model_1"
status_ctx = triton_client.is_model_ready(model_name, "1", headers)
print("Is model ready - {}".format(status_ctx))

if Path(img_uri).exists():
    img_content = open(img_uri, "rb").read()
else:
    agent = f"Python Requests/{requests.__version__} (https://github.com/Azure/azureml-examples)"
    img_content = requests.get(img_uri, headers={"User-Agent": agent}).content

img_data = prepost.preprocess(img_content)

# Populate inputs and outputs
input = tritonhttpclient.InferInput("data_0", img_data.shape, "FP32")
input.set_data_from_numpy(img_data)
inputs = [input]
output = tritonhttpclient.InferRequestedOutput("fc6_1")
outputs = [output]

result = triton_client.infer(model_name, inputs, outputs=outputs, headers=headers)
max_label = np.argmax(result.as_numpy("fc6_1"))
label_name = prepost.postprocess(max_label)
print(label_name)

スクリプトからの応答は、次の応答のようになります。

Is server ready - True
Is model ready - True
/azureml-examples/sdk/endpoints/online/triton/single-model/densenet_labels.txt
84 : PEACOCK

エンドポイントとモデルを削除する

Azure CLI
Python
[スタジオ](#tab/azure-studio)

適用対象:Azure CLI ml 拡張機能 v2 (現行)

エンドポイントの使用が完了したら、次のコマンドを使用して削除します。
```
az ml online-endpoint delete -n $ENDPOINT_NAME --yes
```
モデルをアーカイブするには次のコマンドを使用します。
```
az ml model archive --name sample-densenet-onnx-model --version 1
```

適用対象: Python SDK azure-ai-ml v2 (現行)

エンドポイントを削除します。エンドポイントを削除すると、子デプロイも削除されますが、関連付けられている環境やモデルはアーカイブされません。
```
ml_client.online_endpoints.begin_delete(name=endpoint_name)
```
次のコードを使用してモデルをアーカイブします。
```
ml_client.models.archive(name=model_name, version=model_version)
```

次のステップ

詳細については、次の記事を参照してください。

フィードバック

このページはお役に立ちましたか?

Last updated on 2026-01-15

次の方法で共有

Triton 推論サーバーを使用した高パフォーマンスのサービス

前提条件

デプロイ構成を定義する

Deploy to Azure (Azure へのデプロイ)

エンドポイントをテストする

エンドポイントとモデルを削除する

次のステップ

フィードバック

その他のリソース