Azure OpenAI の透明性に関するメモ

Important

英語以外の翻訳は便宜上のみ提供されています。詳細なバージョンについては、このドキュメントの EN-US バージョンを参照してください。

透明度に関するメモとは

AI システムには、テクノロジだけでなく、それを使用する人、それによって影響を受ける人、それがデプロイされる環境も含まれます。意図した用途に合ったシステムを作成するには、テクノロジがどのように機能するか、その機能と制限事項は何か、どのように最適なパフォーマンスを実現するかを理解する必要があります。 Microsoft の透過性のためのメモは、AI テクノロジの機能のしくみ、システムのパフォーマンスと動作に影響を与えるシステム所有者の選択肢、およびテクノロジ、人、環境などのシステム全体について検討することの重要性を理解するためのものです。独自のシステムを開発または展開するときに透過性のためのメモを使用することも、システムを使用するユーザーやシステムの影響を受けるユーザーと共有することもできます。

Microsoft の透過性のためのメモは、AI の原則を実践に移すための Microsoft の広範な取り組みの一環です。詳細については、 Microsoft の AI 原則を参照してください。

Azure OpenAI モデルの基本

Azure OpenAI は、開発者とデータサイエンティストが自然言語、コード、画像を生成できるモデルを含む OpenAI の強力なモデルを適用できるフルマネージドの Foundry ツールを顧客に提供します。 Azure OpenAI サービス内では、OpenAI モデルは、Microsoft が開発した Guardrails (以前のコンテンツフィルター) および不正使用検出モデルと統合されています。 Guardrails (以前のコンテンツフィルター) の詳細については、こちらをご覧ください。不正使用の検出については、こちらをご覧ください。

Introduction

モデルグループ	テキスト/コード	Vision	オーディオ/音声
GPT-3 と Codex	✅
DALL-E 2 & 3		✅
GPT-image-1		✅
Whisper			✅
GPT-4 ターボウィズビジョン	✅	✅
GPT-4o GPT-4o-mini	✅	✅	✅
GPT-4.1 GPT-4.1-mini GPT-4.1-nano	✅	✅
GPT-4.5	✅	✅
GPT-5	✅	✅
GPT-oss-120b	✅
o1 シリーズ	✅	✅
o3/o3-pro	✅	✅
o3-mini	✅
o4-mini/codex-mini¹	✅	✅
o3-deep-research o4-mini-deep-research	✅
computer-use-preview	✅	✅

¹codex-mini は、特に Codex CLI で使用するために o4-mini の微調整されたバージョンです。詳細については、 OpenAI のドキュメントを参照してください。

タブを選択すると、関連するモデルの種類のコンテンツが表示されます。

フルマネージドの Azure OpenAI サービスの一部として、 GPT-3 モデルは自然言語を分析して生成し、Codex モデルはコードとプレーンテキストコード解説を分析して生成し、 GPT-4 と 推論モデル (o シリーズモデルや GPT-5 を含む) は自然言語とコードを理解して生成できます。これらのモデルでは、自動回帰アーキテクチャが使用されます。つまり、以前の観測のデータを使用して、最も可能性の高い次の単語を予測します。このプロセスは、新しく生成されたコンテンツを元のテキストに追加して、生成された完全な応答を生成することによって繰り返されます。応答は入力テキストに対して条件付けされるため、入力テキストを変更するだけで、これらのモデルをさまざまなタスクに適用できます。

GPT-3 シリーズのモデルは、一般に公開されている幅広いフリーテキストデータで事前トレーニングされています。このデータは、Web クロール (具体的には、インターネットからの幅広いテキストを含み、加重された事前トレーニングデータセットの 60% を含む、フィルター処理されたバージョンの Common Crawl) と、WebText データセットの拡張バージョン、2 つのインターネットベースの書籍コーパス、英語 Wikipedia などの高品質のデータセットの組み合わせから取得されます。 GPT-4 基本モデルは、公開されているデータ (インターネットデータなど) と OpenAI によってライセンスされたデータを使用してトレーニングされました。このモデルは、強化学習と人間のフィードバック (RLHF) を使用して微調整されました。

Computer Use (Preview) モデルは、最初のターンでテキスト入力を受け入れ、2 番目以降のターンのスクリーンショット画像を受け取り、キーボードとマウスにコマンドを出力します。 Computer Use モデルと Computer Use Tool を使用すると、開発者はエージェント AI システムを構築できます。

OpenAI の GPT-3、GPT-4、Codex の研究論文のトレーニングとモデリングの手法の詳細について説明します。

微調整 とは、 教師あり微調整 を使用して基本モデルの重みを調整し、提供されたトレーニングセットに基づいてより適切な応答を提供することを指します。大規模言語モデルのすべてのユースケースと考慮事項は、微調整されたモデルにも適用されますが、追加の考慮事項もあります。

Important

微調整は、視覚モデルや音声モデルではなく、テキストモデルとコードモデルでのみ使用できます。

キーワード

Term	Definition
Prompt	API 呼び出しでサービスに送信するテキスト。次に、このテキストがモデルに入力されます。たとえば、次のプロンプトを入力できます。 `Convert the questions to a command:` `Q: Ask Constance if we need some bread` `A: send-msg 'find constance' Do we need some bread?` `Q: Send a message to Greg to figure out if things are ready for Wednesday.` `A:`
完了または生成	応答として Azure OpenAI が出力するテキスト。たとえば、サービスは上記のプロンプトに対して次の回答で応答する場合があります。 `send-msg 'find greg' figure out if things are ready for Wednesday.`
Token	Azure OpenAI では、テキストをトークンに分割して処理します。トークンには、単語または文字のチャンクのみを指定できます。たとえば、 `hamburger` という単語はトークン `ham`、 `bur` 、 `ger`に分割されますが、 `pear` のような短くて一般的な単語は 1 つのトークンです。多くのトークンは、 `hello` や `bye`など、空白で始まります。
微調整	大規模な言語モデルにおける教師あり微調整 (SFT)、強化微調整 (RFT)、および直接的な選好最適化 (DPO、または選好微調整) は、事前トレーニングされた言語モデルを用い、そのモデルをラベル付きデータに基づいて、より特定のタスクに対してさらにトレーニングするプロセスを指します。これには、この小さい特定のデータセットを使用してモデルの重みを調整し、モデルが実行できるタスクをより特殊化し、パフォーマンスと精度を向上させる必要があります。
モデルの重み	モデルの重みは、トレーニングプロセス中にデータから学習されるモデル内のパラメーターです。指定された入力のモデルの出力を決定します。これらの重みは、この誤差を最小限に抑えることを目的として、モデルが予測で行ったエラーに応じて調整されます。
根拠のないコンテンツ	モデルによって生成されたコンテンツで、ソースマテリアルに存在していた内容から非事実または不正確であるコンテンツ。
エージェント型 AI システム	目標を達成するために環境を感知し、行動する自律的な AI システム。
Autonomy	限られた、または直接的な人間の監督なしで、独立してアクションを実行し、システムの動作に対する制御を実行する機能。
コンピューター使用ツール	Computer Use モデルで使用すると、モードによって生成されたマウスとキーボードの操作がキャプチャされ、実行可能コマンドに直接変換されるツールです。これにより、開発者はコンピューターの使用タスクを自動化できます。
Deep Research	詳細な調査タスク用に設計された o シリーズ推論モデルの微調整されたバージョン。タスクを分解し、Web 検索を実行し、結果を合成できるエージェントモデルを利用して、高度なクエリを実行し、引用文献が豊富な構造化されたレポートを返します。

フルマネージドサービスにより、Azure OpenAI DALL への API アクセスが提供されます。E 2, DALL·E 3、GPT-image-1、GPT-4 Turbo with Vision、GPT-4o、および o1 API。

Azure OpenAI DALL·E API を 使用すると、アプリケーション内のテキストプロンプトと画像入力からリッチイメージを生成できます。この強力なマルチモーダル AI モデルは OpenAI によって開発され、テキスト入力のセマンティクスとスタイルの両方をキャプチャする画像を生成できます。

DALL·Eのトレーニングとモデリング技術の詳細はOpenAI DALL·E研究論文で確認でき、DALL·E 3の安全性についてはOpenAI DALL·E 3システムカードで確認できます。

Azure OpenAI GPT-4 Turbo with Vision では、マルチモーダル (画像とテキスト) の入力を受け入れ、自然言語とコード応答を生成できます。この API を使用すると、画像とビデオの入力をより豊富かつ包括的に理解できます。

OpenAIのGPT-4研究論文およびシステムカードを参照することで、GPT-4 Turbo with Visionのトレーニング手法やモデリング技術、そしてVision機能の安全性について詳しく学ぶことができます。

Azure OpenAI GPT-4o は、マルチモーダル (画像とテキスト) 入力を受け入れ、Azure OpenAI GPT-4 Turbo with Vision と同様に自然言語とコード応答を生成できます。

Azure OpenAI Computer Use (プレビュー) は、最初のターンでテキスト入力を受け入れ、2 番目以降のターンのスクリーンショット画像を受け入れ、キーボードとマウスにコマンドを出力します。 Computer Use モデルと Computer Use Tool を使用すると、開発者はエージェント AI システムを構築できます。

次のガイダンスは、責任ある AI に関する Microsoft の調査の分析情報とベストプラクティスから得られます。

キーワード

Term	Definition
Text-to-image	ユーザーがテキストプロンプトに基づいて画像を生成できるようにする機能。
ダイアログを表示する	API 呼び出しでサービスに送信するテキスト。次に、このテキストがモデルに入力されます。たとえば、ユーザーは、画像の生成に関する次のプロンプトを入力できます。テキストプロンプト: `Image of a botanical garden in the style of Picasso, rendered` 生成された画像:ピカソのスタイルで植物園のレンダリングされた画像。
プロンプト変換	DALL·E 3 のみ: OpenAI によって配置された静的メタプロトコルを使用して、サービス API に送信されるすべてのプロンプトを拡張するプロセス。このプロセスは、画像の品質を高めるのに役立ちます。
スタイル (自然または鮮やかな)	DALL·E 3 のみ: DALL·E 3 では、画像を生成するときに 2 つのスタイルから選択できます。この選択は、API 要求で行うことができます。自然なスタイル：DALL·E 2に密接に似ている理由は、生成されるものがより単純で現実的であるからです。鮮やかなスタイル:既定では、このスタイルはより豊かで映画的なイメージ生成を提供します。
Metaprompt	システムメッセージまたはシステムプロンプトと呼ばれることもあります。これは、開発者によって書かれたメッセージです。この場合、OpenAI は、主に安全命令を強制するために使用される特定の境界を持つコンテキスト、命令、またはその他の情報を使用してモデルを準備します。
ゼロショット翻訳	新しいカテゴリまたはサンプルで実行する機械学習機能。最新のイメージ生成モデルでは、明示的なトレーニングなしでユーザーが作成したテキストプロンプトに基づいて実行する能力が求められます。この機能により、モデルは任意のテキスト入力を実行して一般化できます。
GPT-4 ターボウィズビジョン	API 呼び出しでサービスに送信するコンテンツ。 GPT-4 Turbo with Vision では、テキスト、画像、またはテキストと画像のインターリーブプロンプトが取り込まれます。その後、このプロンプトがモデルに入力されます。たとえば、ユーザーがシステムに次のプロンプトを入力する場合があります。プロンプト: `How can I use [Image of a tomato] to make this? [Image of tomato soup]` 完了: `Here is a list of recipes using tomatoes from which you can make the best tomato soup!`
ビデオの品質向上	GPT-4 Turbo with Vision で、ユーザーのプロンプトに最も関連するビデオフレームを取得して質問に回答できるようにします。
顔のぼかし	API 呼び出しで入力が処理されるときに、画像入力とビデオ入力で検出されたすべての顔をぼかす前処理ステップ。ぼかしプロセスは、個人を一意に識別できません。ぼかしは、個人やグループのプライバシーを保護すると同時に、プライバシーや周囲の規制に関連する他のリスクにも対処するのに役立ちます。
エージェント型 AI システム	目標を達成するために環境を感知し、行動する自律的な AI システム。
Autonomy	限られた、または直接的な人間の監督なしで、独立してアクションを実行し、システムの動作に対する制御を実行する機能。
コンピューター使用ツール	Computer Use モデルで使用すると、モードによって生成されたマウスとキーボードの操作がキャプチャされ、実行可能コマンドに直接変換されるツールです。これにより、開発者はコンピューターの使用タスクを自動化できます。
Inpainting	画像の特定のマスクされた領域内でコンテンツを生成するプロセス (修正、完了、または創造的に変更するかどうか) は、周囲のコンテキストを一貫した状態に保ちます。

Azure OpenAI サービスの gpt-4o-realtime-preview モデルにより、堅牢な音声読み上げとテキスト読み上げの対話が可能になります。このモデルは高度な音声認識と合成機能を統合し、音声入力を理解し、正確な文字起こしを生成し、ターゲット言語で流暢な音声出力を生成できるようにします。リアルタイムで音声を翻訳する機能により、 gpt-4o-realtime-preview は言語間での動的な会話を容易にします。

Azure OpenAI サービスのささやきモデルを使用すると、堅牢な音声認識と翻訳タスクを実行するモデルにアクセスできます。ささやきモデルは、 OpenAI によって開発された自動音声認識 (ASR) モデルであり、音声オーディオファイルを英語に翻訳された言語に文字起こしすることができます。

ささやきモデルのトレーニングとモデリング手法の詳細については、 OpenAI のささやき研究論文を参照してください。ささやきモデルは、Foundry Tools サービスの Azure Speech でも使用されます。 Azure Speech 統合の詳細を確認し、ここで使用できるように評価します。

キーワード

Term	Definition
Transcription	音声テキスト変換機能のテキスト出力。この自動生成されたテキスト出力は、音声モデルを活用し、コンピューターの文字起こしまたは自動音声認識 (ASR) と呼ばれることもあります。このコンテキストでの文字起こしは完全に自動化されています。つまり、モデルによって生成されるため、人間の文字起こしとは異なります。これは、人間の文字起こしによって生成されるテキストです。
自動音声認識 (ASR)	音声テキスト変換 (STT) とも呼ばれる ASR は、モデルが人間の音声を音声としてテキストに文字起こしまたは処理するプロセスです。
Speech Translation	ユーザーが音声を指定された言語に翻訳できるようにする機能。現時点では、Azure OpenAI Service のささやきモデルを使用すると、ユーザーは音声オーディオを英語以外から英語にのみ翻訳できます。
Prompt	シナリオに対して生成されるトランスクリプトの品質を向上させるためにモデルに提供できるコンテキストまたはキュー。プロンプトでは、専門用語や頭字語を処理する方法や、フィラー言葉を強制的に含める方法についての指示を提供できます。プロンプトの詳細については、こちらをご覧ください。
完了/生成	Azure OpenAI が応答として出力するオーディオまたはテキスト。
Token	Azure OpenAI では、オーディオとテキストをトークンに分割して処理します。トークンには、単語または文字のチャンクのみを指定できます。

Capabilities

推論モデル、GPT-4、GPT-3、Codex モデル、Azure OpenAI の評価では、プロンプトの自然言語の指示と例を使用してタスクを識別します。次に、最も可能性の高い次のテキストを予測して、モデルによってタスクが完了します。この手法は、"コンテキスト内" 学習と呼ばれます。これらのモデルは、この手順では再トレーニングされません。代わりに、プロンプトに含めるコンテキストに基づいて予測を行います。

コンテキスト内学習には、主に 3 つのアプローチがあります。これらの方法は、モデルに与えられるタスク固有のデータの量によって異なります。

少数のショット : この場合、ユーザーは、予想される回答の形式と内容を示すいくつかの例をプロンプトに含めます。次の例は、複数の例を提供する few-shot プロンプトを示しています。

Convert the questions to a command: 
Q: Ask Constance if we need some bread 
A: send-msg `find constance` Do we need some bread? 
Q: Send a message to Greg to figure out if things are ready for Wednesday. 
A: send-msg `find greg` Is everything ready forWednesday? 
Q: Ask Ilya if we're still having our meeting thisevening 
A: send-msg `find ilya` Are we still having a meetingthis evening? 
Q: Contact the ski store and figure out if I can getmy skis fixed before I leave on Thursday 
A: send-msg `find ski store` Would it be possible toget my skis fixed before I leave on Thursday? 
Q: Thank Nicolas for lunch 
A: send-msg `find nicolas` Thank you for lunch! 
Q: Tell Constance that I won't be home before 19:30tonight — unmovable meeting. 
A: send-msg `find constance` I won't be home before19:30 tonight. I have a meeting I can't move. 
Q: Tell John that I need to book an appointment at10:30 
A:

通常、1 つのプロンプトの最大入力長に収まる数に応じて、例の数は 0 から 100 の範囲です。少数のショット学習により、正確な予測に必要なタスク固有のデータの量を大幅に削減できます。

ワンショット : このケースは、1 つの例のみを提供するという点を除いて、少ショットアプローチと同じです。次の例は、ワンショットプロンプトを示しています。

Convert the questions to a command:
Q: Ask Constance if we need some bread
A: send-msg `find constance` Do we need some bread?
Q: Send a message to Greg to figure out if things are ready for Wednesday.
A:

ゼロショット: この場合、モデルに例は提供されておらず、タスク要求のみが提供されます。次の例は、ゼロショットプロンプトを示しています。

Convert the question to a command:
Q: Ask Constance if we need some bread
A:

考え方の連鎖 : Azure OpenAI の推論モデルには、考え方チェーン (CoT) 手法を使用した高度な推論機能があります。 CoT 手法は、応答を提供する前に中間的な推論手順を生成し、段階的な問題解決を通じてより複雑な課題に対処できるようにします。 o1は、研究、戦略、科学、コーディング、数学などの推論が多い分野のベンチマークの改善を示しています。これらのモデルには高度な推論機能による安全性の向上があり、安全規則をより効果的に推論して適用することができます。その結果、安全性ベンチマーク (不正なアドバイスの生成、ステレオタイプ的な応答の選択、既知の脱獄プロンプトへの脆弱性など) に沿ってパフォーマンスが向上します。

このモデルの機能ファミリの詳細については、 OpenAI o1 システムカード、 o3 ミニシステムカード、 o3/o4 ミニシステムカード、ディープリサーチシステムカード、 GPT-5 システムカードを参照してください。

Azure OpenAI の評価

大規模な言語モデルの評価は、さまざまなタスクとディメンションのパフォーマンスを測定する上で重要なステップです。このタスクは、トレーニングによるパフォーマンスの向上 (または損失) を評価することが重要な、微調整されたモデルでは特に重要です。徹底的な評価がなければ、モデルのさまざまなバージョンが特定のアプリケーションに与える影響を理解することが困難になる可能性があります。

Azure OpenAI Evaluation は、Azure OpenAI デプロイから生成されたデータセットやその他の手動でキュレーションされたファイルなど、データを評価するための UI ベースのエクスペリエンスです。

Azure OpenAI Evaluation には、応答を生成するオプションの手順があります。ユーザーがこの手順を選択すると、応答を生成する方法をモデルに指示するプロンプト (システム/ユーザーメッセージ) が表示されます。

Azure OpenAI 評価には、結果をスコア付けするための 9 つのカテゴリのテストが含まれています。一部のデータには(事実性のような) 地上の真理データが必要ですが、そうでないものがあります (スキーマの検証)。グレーデラーは、CPU ベースとモデルベースの組み合わせです。テスト基準の一覧は次のとおりです。事実性、感情分析、有効なJSONまたはXML、一致基準、カスタムプロンプト、意味的類似性、文字列を含む、一致するスキーマ、テキスト品質。

Text-to-action

コンピューターの使用 (プレビュー) モデルを使用すると、テキストからアクションへの機能が可能になり、ユーザーはモデルがグラフィカルユーザーインターフェイス内で実行可能なステップに変換する自然言語命令を提供できます。 "顧客サポートフォームにこの情報を入力する" などのコマンドを指定すると、モデルは関連するフィールドを識別し、正しいデータを入力して、フォームを送信します。 Web インターフェイス間の移動、構造化データまたは非構造化データの抽出と入力、ワークフローの自動化、セキュリティポリシーへのコンプライアンスの適用を行うことができます。意図を理解し、それに応じてアクションを実行することで、ビジネス運用を効率化し、自動化のアクセシビリティと効率を高めます。

Azure OpenAI サービスのイメージ生成 API

The DALL·E 2, DALL·E 3 および GPT-image-1 API は、自然言語プロンプトを使用して新しいコンテンツを生成します。これらのモデルは、公開されているソースと OpenAI がライセンスを取得した他のソースから取得された画像と対応するキャプションのペアでトレーニングされました。

これらの生成 AI モデルは、開発者、アーティスト、デザイナー、教育者などに無数の機会を提供します。モデルは、想像できる内容と作成できる内容の間のギャップを埋めることができます。テキストプロンプトと画像の間で、クロスドメインの一般的な理解とゼロショット翻訳を可能にし、多くの場合、高度なリアリズムを実現します。

Azure OpenAI イメージ生成 API の主な機能は次のとおりです。

テキストから画像へ: モデルはテキストプロンプトを受け取って画像を生成します。

テキストプロンプトの例 生成されたイメージの例

"シアトルのスカイラインの水彩画"

Tip

図を生成しないことを望む公人は、support@openai.com にメールを送信してオプトアウトできます。

テキストプロンプトの例	生成されたイメージの例
"シアトルのスカイラインの水彩画"

プロンプト変換: DALL の場合·E 3 モデル: 画像を生成するためにプロンプトがモデルに送信される前に、プロンプトに安全性と品質の軽減策が適用されます。プロンプト変換は、より多様で高品質な画像を生成することを目的として、プロンプトを強化します。

プロンプト変換は、すべての Azure OpenAI DALL·E 3 の生成に適用されます。

元のプロンプトにプロンプト変換を適用すると、イメージ生成前のセカンダリステップとして Guardrails (以前のコンテンツフィルター) が適用されます。詳細については、 Guardrails (以前のコンテンツフィルター) を参照してください。

OpenAI のドキュメントでイメージ生成プロンプトの詳細を確認します。

テキストプロンプトの例	プロンプト変換なしで生成された画像の例	プロンプト変換を使用して生成された画像の例
"シアトルのスカイラインの水彩画"

イメージ間: GPT-image-1 モデルの場合: モデルはイメージとテキストプロンプトを受け取り、テキスト命令に基づいて新しいイメージまたは変更されたイメージを返します。
Inpainting: GPT-image-1 モデルの場合: モデルは、テキスト命令と共に画像とマスク (透明ピクセルを使用してフォーカス領域を定義する画像) を取り込み、指定された領域内でのみ新しいコンテンツを生成します。これは、画像の修正や完了、周囲のコンテキストの一貫性を保ちながら、それらを創造的に変更するタスクに使用されます。

Azure OpenAI サービスでのビジョン対応チャット API

GPT-4 Turbo with Vision および GPT-4o では、自然言語と画像プロンプトを使用して自然言語またはコード応答を生成します。モデルでは、テキストのみ、画像のみ、インターリーブされたテキストと画像の入力を受け入れます。これらのモデルは GPT ファミリの一部であり、GPT-4 の拡張機能です。

Foundry Tools Service の Azure Vision では、GPT-4 Turbo with Vision (プレビュー) のビデオ拡張機能が提供されます。これは、ビデオ入力を受け入れて自然言語またはコード応答を生成することもできます。この機能は、最新の GPT-4 Turbo with Vision モデルリリースでは使用できません。

プロンプトの例	入力候補の例
"これは何に使用されていますか?	トマトです。これらは、生と調理の両方で、様々な料理の食品成分として一般的に使用されています。トマトは、サラダ、サンドイッチ、ソース、スープ、ジュース、その他多くの料理用途で使用できます。また、ビタミン、ミネラル、抗酸化物質など、豊富な栄養成分で知られています。
どのように使えますか？これを作るには?	次の一般的な手順に従って、トマトを使用してトマトスープを作ることができます。 Ingredients: Tomatoes Onion Garlic オリーブオイルまたはバターチキンまたは野菜のスープ Salt Pepper オプション:バジル、オレガノ、タイムなどのハーブ Instructions: Preparation: トマトをよく洗います。トマトを半分または四分の一に切ります。玉ねぎとにんにくの皮をむき、刻みます。

プロンプトの例

入力候補の例

"これは何に使用されていますか?

トマトの写真。

トマトです。これらは、生と調理の両方で、様々な料理の食品成分として一般的に使用されています。トマトは、サラダ、サンドイッチ、ソース、スープ、ジュース、その他多くの料理用途で使用できます。また、ビタミン、ミネラル、抗酸化物質など、豊富な栄養成分で知られています。

どのように使えますか？
トマトの同じ写真。

これを作るには?

次の一般的な手順に従って、トマトを使用してトマトスープを作ることができます。
Ingredients:

Tomatoes
Onion
Garlic
オリーブオイルまたはバター
チキンまたは野菜のスープ
Salt
Pepper
オプション:バジル、オレガノ、タイムなどのハーブ

Instructions:

Preparation:
- トマトをよく洗います。
- トマトを半分または四分の一に切ります。
- 玉ねぎとにんにくの皮をむき、刻みます。

Azure OpenAI サービスでのコンピューターの使用 (プレビュー)

Computer Use モデルは、GPT-4o のビジョン機能の微調整されたバージョンに基づいて構築されています。これにより、スクリーンショットを使用してグラフィカルユーザーインターフェイス (GUI) を解釈して操作できます。ボタン、テキストフィールド、メニューなどのビジュアル要素を分析することで、アプリケーションのレイアウトを理解し、関連するインターフェイスコンポーネントを検出し、それに応じてアクションを実行できます。これにより、Web とソフトウェアの対話を正確に自動化でき、リアルタイムのビジュアルコンテキストに基づいて、データ抽出、フォーム補完、ワークフロー実行などのタスクを実行できます。

顔のぼかし

人の画像またはビデオを含む GPT-4 Turbo と Vision、GPT-4o、GPT-4o mini への入力の場合、システムは、要求された結果を返す処理の前に顔をぼかします。

ぼかしは、関係する個人やグループのプライバシーを保護し、制限されたユースケースから保護するのに役立ちます。ぼかし処理は生成結果の品質には影響しないはずですが、場合によっては、システムが顔のぼかし処理について言及することがあります。

Important

GPT-4 Turbo with Vision GPT-4o、GPT-4o mini のみ: 個人を識別したり、個人の感情を推測したりする結果を返す処理は、顔認識、顔テンプレートの生成と比較、その他の顔推論などの顔の処理の結果 ではありません 。このような結果は、モデルのトレーニングに基づいて返され、画像のタグ付けを使用して個人の画像を同じ名前に関連付けることができます。これにより、モデルはその個人の後続の画像入力で名前を返します。また、モデルは顔以外のコンテキストキューを受け取ることもできます。これは、顔がぼやけている場合でも、モデルが画像を個人に関連付けたり、感情を記述したりする方法です。たとえば、チームのジャージを着た人気のあるアスリートの写真と特定の数が画像に含まれている場合でも、モデルはそれらのコンテキストキューに基づいて個人を識別することを目的とした結果を返す可能性があります。

Caution

コンピューターの使用 (プレビュー) では、UI 要素が隠れてパフォーマンスが低下する可能性があるため、顔のぼかしは使用されません。コンピューターの使用は、汎用の画像推論エンジンとして設計 (または意図) されていません。モデルは顔認識や個人識別を実行せず、このようなユースケースには適していません。

Caution

GPT-image-1 では、顔のぼかしは使用されません。 特定の管轄区域では、ユーザーの画像入力をモデルが処理する方法は生体認証データの処理と見なされる場合があります。その場合、お客様は次の責任を負います。(i) 保持期間や破棄に関する通知をデータ主体に提供すること。(ii) データ主体から同意を得る。(iii) データの削除は、適用される法律に基づき、必要に応じてすべて行います。 Azure OpenAI Service がデータを処理する方法の詳細については、「 Azure OpenAI Service のデータ、プライバシー、セキュリティ」を参照してください。

Azure OpenAI サービスでのコンピューターの使用 (プレビュー)

Azure OpenAI サービスの gpt-4o-realtime-preview モデルにより、高度な音声読み上げ機能が可能になり、リアルタイムの音声認識、翻訳、合成が提供されます。 GPT-4oは、音声入力をターゲット言語でコヒーレント出力に変換することで、流動的な通信を可能にします。

Azure OpenAI サービスは、リアルタイム API を通じて次の機能を提供します。

音声入力を処理して音声出力を生成する
音声入力を別の言語に翻訳する
入力音声と出力音声の文字起こし

このサービスは、音声操作の迅速な音声読み上げ処理用に設計されており、待機時間を最小限に抑えてリアルタイムの会話を促進します。

Azure OpenAI サービスのささやきモデルにより、音声からテキストへの文字起こしとオーディオファイルの翻訳が可能になります。モデルは、インターネットから収集された多言語およびマルチタスク監視データでトレーニングされました。これらの大規模で多様なデータセットにより、アクセント、背景ノイズ、技術言語などの属性に対する堅牢性が向上し、複数の言語への文字起こしと英語への翻訳が可能になりました。

Azure OpenAI サービスは、次の 2 つの REST API を通じてこれらの機能を提供します。

指定されたオーディオファイルの文字起こし
提供されたオーディオファイルを英語に翻訳する

このサービスでは、1 つのオーディオファイルをできるだけ速く同期的に処理する機能が提供されます。オーディオ圧縮に応じて、15 分未満から 30 分未満に制限されます。

このサービスは読みやすさの高いトランスクリプトを提供します。このトランスクリプトは、多くの場合、不要な情報を取り除き、より正確な文の境界、句読点、および大文字化を提供します。また、プロンプトを利用して、シナリオに合わせてモデル出力の品質を向上させることもできます。詳細については、システム情報を改善するためのベストプラクティスを参照してください。

4o モデルの機能の詳細については、 OpenAI 4o システムカードを参照してください。

活用事例

使用目的

テキストモデルは、複数のシナリオで使用できます。次の一覧は包括的ではありませんが、適切な軽減策を持つモデルでサポートできるタスクの多様性を示しています。

チャットと会話の対話 : ユーザーは、社内ドキュメントやテクニカルサポートドキュメントなどの信頼できるドキュメントから得た応答で応答する会話エージェントと対話できます。会話は、範囲指定された質問への回答に限定する必要があります。
チャットと会話の作成 : ユーザーは、社内ドキュメントやテクニカルサポートドキュメントなどの信頼できるドキュメントから得た応答で応答する会話エージェントを作成できます。会話は、範囲指定された質問への回答に限定する必要があります。
コード生成または変換のシナリオ : たとえば、あるプログラミング言語を別のプログラミング言語に変換し、関数の docstring を生成し、自然言語を SQL に変換します。
ジャーニシングコンテンツ :新しいジャーニシングコンテンツを作成したり、事前定義されたトピックの書き込み支援としてユーザーによって送信されたジャーニックなコンテンツを書き換えるために使用されます。ユーザーは、すべてのトピックの一般的なコンテンツ作成ツールとしてアプリケーションを使用することはできません。
質問への回答 : ユーザーは質問をしたり、社内ドキュメントなどの信頼できるソースドキュメントから回答を受け取ることができます。アプリケーションは、信頼できるソースドキュメントに根拠がない回答を生成しません。
構造化データと非構造化データに対する理由 : ユーザーは、分類、テキストのセンチメント分析、またはエンティティ抽出を使用して入力を分析できます。たとえば、製品フィードバックのセンチメントの分析、サポートの呼び出しとトランスクリプトの分析、埋め込みを使用したテキストベースの検索の絞り込みなどがあります。
検索 : ユーザーは、社内ドキュメントなどの信頼できるソースドキュメントを検索できます。アプリケーションは、信頼できるソースドキュメントに基づかない結果を生成しません。
要約 : ユーザーは、アプリケーションに組み込まれている定義済みのトピックについて要約するコンテンツを送信でき、アプリケーションをオープンエンドのサマライザーとして使用することはできません。たとえば、社内ドキュメントの概要、コールセンターのトランスクリプト、技術レポート、製品レビューなどがあります。
特定のトピックに関するサポートの作成 : ユーザーは、ビジネスコンテンツまたは定義済みのトピックの作成支援として、新しいコンテンツを作成したり、ユーザーによって送信されたコンテンツを書き換えたりできます。ユーザーは、特定のビジネス目的または定義済みのトピックに対してのみコンテンツを書き換えたり作成したりすることができ、すべてのトピックの一般的なコンテンツ作成ツールとしてアプリケーションを使用することはできません。ビジネスコンテンツの例としては、提案やレポートなどがあります。ジャーカニックな使用については、上記 のジャーニシングコンテンツ のユースケースを参照してください。
微調整のためのデータ生成: ユーザーは、Azure OpenAI のモデルを使用して、(i) Azure OpenAI の微調整機能を使用して(i) 別の Azure OpenAI モデルを微調整するためにのみ使用されるデータを生成し、(ii) Foundry Tool の微調整機能を使用して別の Azure AI カスタムモデルを生成できます。データの生成とモデルの微調整は、内部ユーザーのみに限定されます。微調整されたモデルは、該当する Foundry Tool での推論にのみ使用でき、Azure OpenAI サービスの場合は、このフォームで許可されている顧客のユースケースに対してのみ使用できます。

微調整されたユースケース

微調整されたモデルに推奨されるその他のユースケースを次に示します。微調整は、次の場合に最も適しています。

目的の応答の例を使用して、応答のスタイル、形式、トーン、または定性的な側面をステアリングします。
特定の形式で応答を提供したり、プロンプトの情報に基づいている応答を確認するなど、モデルが望ましい出力を確実に生成するようにします。
複雑な自然言語からコード例など、プロンプトの例では説明できない多くのエッジケースを含むユースケース。
特定のスキルやタスク（分類、要約、書式設定など）のパフォーマンスを向上させることは、それをプロンプト内で説明するのが難しい場合があります。
短いプロンプトを利用したり、より汎用的なモデル (GPT-4 用に微調整された GPT-3.5-Turbo など) に対して、より小さい/高速なモデルの微調整されたバージョンをスワップしたりして、コストや待機時間を削減します。

基本モデルと同様に、 Azure OpenAI の行動規範に記載されているユースケースの禁止事項は、微調整されたモデルにも適用されます。

モデルを拡張してドメイン外の情報を含めるシナリオ、説明可能性や接地が重要なシナリオ、または基になるデータが頻繁に更新されるシナリオでは、微調整は推奨されません。

推論モデルのユースケース

推論モデルの高度な推論機能は、科学、コーディング、数学、および同様の分野での推論が多い用途に最適な場合があります。特定のユースケースには、次のようなものがあります。

複雑なコード生成、分析、最適化: 開発者がマルチステップワークフローを実行し、コード開発で実行される手順をより深く理解するのに役立つ、アルゴリズムの生成と高度なコーディングタスク。
高度な問題解決: 包括的なブレーンストーミングセッション、戦略の開発、多面的な問題の分解。
複雑なドキュメント比較: コントラクト、ケースファイル、または法的ドキュメントを分析して、ドキュメントの内容の微妙な違いを識別します。
以下の手順とワークフロー管理: より短いコンテキストを必要とするワークフローの処理。

用途の詳細については、 OpenAI o1 システムカード、 o3-mini システムカード、 o3/o4-mini システムカード、 GPT-5 システムカードを参照してください。

詳細な調査のユースケース

ディープリサーチモデルは、高度なクエリを実行し、引用文献が豊富な構造化されたレポートを返すように設計された o シリーズ推論モデルの微調整されたバージョンです。モデルは、サブクエリを作成し、Web 検索から情報を収集してから、最後の応答を返します。ユースケースには、適切な人間による監視を伴う次のものが含まれる場合があります。

複雑な研究&文献レビュー:何百もの論文にわたる知見を合成し、研究のギャップや矛盾を特定し、新しい仮説や研究の方向性を提案します。
科学的発見と仮説の生成:分野間の発見間のつながりを探求し、テスト可能な仮説または実験計画を生成し、生の実験データの解釈を支援する。
高度な技術的な問題解決: 複雑なシステム (分散ソフトウェア、ロボット工学など) のデバッグ、新しいアルゴリズムまたはアーキテクチャの設計、高度な数学や物理学の問題の解決。
長期的な計画の強化: エグゼクティブまたは研究者が 10 年間のテクノロジロードマップを計画し、AI の安全性、バイオセキュリティ、または気候における長期的なシナリオをモデル化し、意思決定の 2 番目と 3 番目の順序の影響を評価するのを支援します。

詳細な調査モデルは、 Azure AI Agents サービスのツールとして利用できます。用途の詳細については、 OpenAIディープリサーチシステムカードを参照してください。

Azure OpenAI 評価のユースケース

Azure OpenAI の評価はテキストのみの機能であり、テキスト以外の入力をサポートするモデルでは使用できません。 Evals は、次のような複数のシナリオで使用できます。これらに限定されません。

テキスト照合/比較の評価: これは、ユーザーが出力が予想される文字列と一致するかどうかを確認するシナリオに役立ちます。ユーザーは、2 つの値セットを比較し、リレーションシップにスコアを付けることもできます。たとえば、回答が回答キーと比較される複数選択の質問や、文字列の検証などがありますが、これに限定されません。
テキスト品質: テキスト品質は、Bleu、Rouge、コサインアルゴリズムなどのメソッドを使用して応答品質を評価し、機械翻訳、テキスト要約、テキスト生成などのさまざまな自然言語処理タスクで広く使用されています。
分類ベースの評価: 分類ベースの評価では、定義済みのカテゴリまたはラベルに応答を割り当てるか、モデルの出力を正しい回答の参照セットと比較することで、モデルのパフォーマンスを評価します。自動採点、センチメント分析、製品分類は、一般的なユースケースの 1 つです。
会話品質評価: 会話品質評価では、詳細な考え方チェーン (CoT) プロンプトを使用して、定義済みの基準と応答を比較します。一般的なユースケースには、カスタマーサポート、チャットボット開発、教育評価などがあります。
抽出条件ベースの評価: 条件ベースの評価の一般的なシナリオの 1 つは、事実性です。事実の正確性を評価するには、提出された回答を専門家の回答と比較し、事実に基づくコンテンツのみに焦点を当てます。これは、LLM によって提供される回答の精度を向上させる教育ツールや、学術的な設定で LLM によって生成された応答の実際の精度を評価するための研究支援ツールで役立ちます。
文字列の有効性の評価: 一般的なシナリオの 1 つは、モデルの応答が特定のスキーマに従っているか、有効な JSON または XML コンテンツであるかどうかを確認することです。

コンピューターの使用 (プレビュー) のユースケース

Computer Use の機能は、GUI と自律的に対話できるエージェント AI システムの開発に最適です。特定のユースケースには、次のようなものがあります。

Web ナビゲーションと対話の自動化: Web ベースのインターフェイスのナビゲーションを自律的に移動して、社内リソースや構造化データベースなどの信頼できるソースから情報を取得して提示します。このモデルは、定義済みのナビゲーションルールに従って関連データを抽出し、セキュリティポリシーに準拠していることを確認します。
Web-Based タスク自動化: フォームへの入力、データの送信、Web アプリケーションとの対話など、Web ベースの繰り返しのタスクを自動化します。 Computer Use は、ボタンのクリック、テキストの入力、構造化データの処理を行うことができますが、承認されたワークフローとドメイン内でのみ動作します。
構造化データ抽出と非構造化データ抽出: テーブルやスプレッドシートなどの構造化されたソースや、PDF、スキャンされたドキュメント、メールなどの非構造化ソースから関連するデータを抽出します。この機能は、財務データ処理、契約分析、カスタマーサポートチケットの分類などのタスクに役立ちます。
自動フォーム入力とデータ入力: 構造化されたデータベースまたはユーザー入力から情報を抽出し、それを使用して Web ベースのフォームを設定します。これは、データ処理の正確性と一貫性を確保しながら、顧客サービス要求、人事プロセス、または CRM の更新を自動化する場合に役立ちます。
Web-Based 画像分析: Web ページで見つかった画像を分析して、オブジェクト、シーン、または関連するパターンを検出してタグ付けします。 Computer Use では、ビジュアル情報を抽出して、在庫管理、ドキュメント処理、オブジェクト分類などのアプリケーションをサポートできます。
対話型のビジュアル検索と識別: 構造化された検索を通じて関連するビジュアルコンテンツを検索するユーザーを支援します。たとえば、Computer Use では、eコマースカタログ内の製品を識別したり、旅行アプリケーションのランドマークを認識したり、定義済みの条件に基づいてデジタルアーカイブから特定の画像を取得したりできます。
コンプライアンスとポリシーの自動チェック: アップロードされたファイル、コントラクト、内部ドキュメントなどの Web ベースのコンテンツをスキャンして、定義済みのコンプライアンス規則に準拠します。 Computer Use では、不足している情報、不整合、または潜在的な違反にフラグを設定して、組織内の規制基準を適用できます。
ビジネスアプリケーション向けの自動化されたワークフロー実行: レポートの生成、レコードの更新、分析の取得など、エンタープライズアプリケーション内を移動するためのマルチステップワークフローを定義します。 Computer Use は、ビジネスツール内の定義済みの手順に従い、アクセス制御ポリシーに準拠して安全な実行を保証します。

ユースケース選択時の考慮事項

お客様には、制限付きアクセス登録フォームで承認された革新的なソリューションまたはアプリケーションで、Azure OpenAI GPT-4、o シリーズ、GPT-3、Codex、Computer Use モデルを使用することをお勧めします。ただし、以下にユースケース選択時の考慮事項をいくつか示します。

制限のないオープンエンドのコンテンツ生成には適していません。 ユーザーが任意のトピックでコンテンツを生成できるシナリオでは、不快なテキストや有害なテキストが生成される可能性が高くなります。同じことが、より長い世代にも当てはまります。
up-toの日付や、事実に基づく正確な情報が重要なシナリオには適していません。ただし、人間の校閲者がいるか、モデルを使用して独自のドキュメントを検索し、シナリオへの適合性を確認している場合を除きます。このサービスには、トレーニング日以降に発生するイベントに関する情報は含まれていません。また、一部のトピックに関する知識が不足している可能性があり、常に事実に基づく正確な情報が生成されるとは限りません。
システムを使用または誤用すると、個人に重大な身体的または精神的損傷が生じる可能性があるシナリオを避けます。 たとえば、患者を診断したり、薬を処方したりするシナリオは、重大な害を引き起こす可能性があります。シナリオに意味のある人間のレビューと監視を組み込むことは、有害な結果のリスクを軽減するのに役立ちます。
システムの使用または誤用が、生命の機会や法的地位に結果的な影響を与える可能性があるシナリオは避けてください。 例としては、AI システムが個人の法的地位、法的権利、またはクレジット、教育、雇用、医療、住宅、保険、社会福祉給付、サービス、機会、またはそれらが提供される条件へのアクセスに影響を与える可能性があるシナリオが挙げられます。シナリオに意味のある人間のレビューと監視を組み込むことは、有害な結果のリスクを軽減するのに役立ちます。
害を及ぼす可能性のある高い賭け金のシナリオを避けてください。 Azure OpenAI サービスによってホストされるモデルには、トレーニングデータに存在する特定の社会ビュー、バイアス、その他の望ましくないコンテンツや、プロンプトで提供される例が反映されます。その結果、不公平、信頼性の低い、または攻撃的な行動が非常にコストがかかったり、損害を与えたりする可能性がある高いリスクのシナリオでモデルを使用することは慎重に行われます。シナリオに意味のある人間のレビューと監視を組み込むことは、有害な結果のリスクを軽減するのに役立ちます。
高いステークのドメインまたは業界のユースケースを慎重に検討してください 。例としては、医療、医療、金融、法律などがありますが、これらに限定されません。
適切な範囲のチャットボットシナリオを慎重に検討してください。 チャットボットでのサービスの使用を狭いドメインに制限すると、意図しない応答や望ましくない応答が生成されるリスクが軽減されます。
生成的なユースケースをすべて慎重に検討してください。 コンテンツ生成シナリオでは、意図しない出力が生成される可能性が高くなる可能性があり、これらのシナリオでは慎重な検討と軽減が必要です。
法的および規制上の考慮事項: 組織は、Foundry Tools とソリューションを使用する際に、特定の法的および規制上の義務を評価する必要があります。これは、すべての業界またはシナリオでの使用には適していない可能性があります。さらに、Foundry Tools またはソリューションは、該当するサービス利用規約および関連する行動規範で禁止されている方法で設計されておらず、使用されない場合があります。

コンピューター使用のユースケースを選択する場合、ユーザーは上記の考慮事項に加えて、次の考慮事項を考慮する必要があります。

アクションが元に戻せない、または結果が大きくないシナリオを避けます。これには、電子メールを送信する機能 (間違った受信者など)、重要なファイルを変更または削除する機能、財務取引を行う機能、外部サービスと直接やり取りする機能、機密情報をパブリックに共有すること、重要なシステムへのアクセスを許可する機能が含まれますが、これらに限定されません。または、システムの機能またはセキュリティを変更する可能性のあるコマンドの実行。
高度な用途でのパフォーマンスの低下: コンピューターの使用は、WEB サイトやコンピューターデスクトップへのアクセスなど、UI を使用したタスクの完了に関するユースケースに最適です。コードの編集、広範なテキストの書き込み、複雑な意思決定など、より高度なタスクの実行がうまく行えない場合があります。
十分な人間の監視と管理を確保する。ユーザーがアクションの検証、レビュー、承認を適切なタイミングで行うのに役立つコントロールを含めるとします。これには、計画されたタスクの確認や外部データソースへの呼び出し (システムに適した場合など) が含まれる場合があります。特にリスクの高いシナリオやユースケースでは、システム障害の適切なユーザー修復のためのコントロールを含める必要があります。
アクションと関連する要件を明確に定義します。許可されるアクション (アクションの境界)、禁止、または明示的な承認を必要とするかを明確に定義すると、コンピューターの使用が想定どおりに適切なレベルの人間による監視を行うのに役立つ場合があります。
目的の動作環境を明確に定義します。コンピューターの使用が効果的に動作するように設計されている、目的の動作環境 (ドメイン境界) を明確に定義します。
意思決定において適切な明瞭性を確保する。アクションの実行前、実行中、および実行後にユーザーに情報を提供すると、アクションの正当な理由や、特定のアクションが実行された理由、またはアプリケーションが特定の方法で動作している理由、介入する場所、問題のトラブルシューティング方法を理解するのに役立つ場合があります。
詳細については、 Generative AI への適切な依存の促進に関するガイドを参照してください。

詳細な調査のユースケースを選択する場合、ユーザーは上記の考慮事項に加えて、次の考慮事項を考慮する必要があります。

十分な人間の監視と管理を確保する: ユーザーが詳細な調査レポートを確認し、引用されたソースとコンテンツを検証するのに役立つメカニズムを提供します。
著作権コンテンツの引用文献を確認する:ディープリサーチツールは、回答を準備するときにウェブ検索を行い、著作権で保護された資料が引用される可能性があります。レポートに含まれている引用文献を確認し、著作権で保護された資料を適切に使用し、属性を設定していることを確認します。

使用目的

gpt-4o-realtime-preview モデルは、既存の GPT モデルと同様の方法で、さまざまな自然言語処理タスクに使用できます。ただし、このモデルは、特に音声とオーディオのユースケースを対象とします。このモデルでサポートされるタスクの例を次に示しますが、これらに限定されません。

ボイスチャットの作成と対話: ユーザーは、音声機能で応答する会話エージェントを使用して、ボイスチャットを作成およびボイスチャットできます。
言語翻訳: ユーザーは会話中にリアルタイムで言語間で翻訳できます。字幕は、リアルタイムの入力および出力オーディオ文字起こしでサポートできます。言語のサポートは、既存の gpt-4o モデルバージョンに沿っています。
質問への回答: ユーザーは、書き込まれた質問や話された質問をしたり、モデルから話された回答を受け取ったりできます。
コンテンツの生成: ユーザーは、ユーザー定義の入力から新しいオーディオコンテンツを作成できます。モデルは、著作権で保護された素材の作成または音声の偽装をチェックし、防止します。

4o モデルの機能の詳細については、 OpenAI 4o システムカードを参照してください。

Azure OpenAI サービスのささやきモデルは、さまざまな音声認識および音声翻訳タスクに使用できます。次の一覧は包括的ではありませんが、適切な軽減策でサポートできるタスクの多様性を示しています。

ディクテーション： ユーザーは、音声ファイルの形式で音声をテキストに文字起こしできます。たとえば、ユーザーがサービスを使用して、コールセンターの記録をレポートに文字起こしする場合があります。
キャプションまたは文字起こし: ユーザーは、自然言語の理解や、要約や感情分析などの分析タスクのために、オーディオファイルをテキストに文字起こしできます。たとえば、ダイアログシステムへの入力としての音声、オーディオコンテンツのアクセシビリティの高さ、分析するテキスト翻訳の作成などがあります。
翻訳： ユーザーは多言語オーディオファイルを英語に翻訳できます。これは、多言語シナリオで特に魅力的な場合があります。

ユースケース選択時の考慮事項

革新的なソリューションやアプリケーションで、Azure OpenAI サービスで gpt-4o-realtime-preview モデルとささやきモデルを使用することをお勧めします。ユースケースを選択する際の考慮事項を次に示します。

システムの使用または誤用が、生命の機会や法的地位に結果的な影響を与える可能性があるシナリオは避けてください。 たとえば、AI システムが個人の法的地位、法的権利、またはクレジット、教育、雇用、医療、住宅、保険、社会保障給付、サービス、機会、またはこれらの項目が利用可能な条件へのアクセスに影響を与える可能性があるシナリオが含まれます。
高リスクのドメインまたは業界のすべてのユースケースを慎重に検討してください 。例としては、医療、教育、財務、法務などがありますが、これらに限定されません。
Azure Speech サービスでのささやき: OpenAI のささやきモデルは、Azure Speech サービス内でも利用でき、多言語認識や読みやすさなどの高度な機能を使用してエクスペリエンスを強化します。ご自身のシナリオに合わせて、Azure Speech サービスや、ダイアライゼーション、カスタマイズ、または要求ごとの複数オーディオファイルの処理など、サービスのの追加機能を探索してください。
法的および規制上の考慮事項: 組織は、Foundry Tools とソリューションを使用する際に、特定の法的および規制上の義務を評価する必要があります。これは、すべての業界またはシナリオでの使用には適していない可能性があります。さらに、Foundry Tools またはソリューションは、該当するサービス利用規約および関連する行動規範で禁止されている方法で設計されておらず、使用されない場合があります。

Limitations

大規模な自然言語モデル、ビジョンモデル、音声モデルに関しては、考慮すべき公平性と責任ある AI の問題があります。人々は言語とイメージを使って世界を表現し、自分の信念、仮定、態度、価値観を表現します。その結果、大規模な自然言語処理と画像生成モデルのトレーニングに一般的に使用される一般に利用可能なテキストと画像データには、人種、性別、宗教、年齢、およびその他の人々のグループに関連する社会の偏り、およびその他の望ましくないコンテンツが含まれています。同様に、音声モデルでは、人口統計グループや言語ごとに異なるレベルの精度を示すことができます。これらの社会バイアスは、単語、フレーズ、構文構造の分布に反映されます。

技術的な制限事項、運用上の要因、範囲

Caution

このセクションには、一部の個人が不快感を与える可能性のある用語と言語を含む例示の例が含まれていることを推奨します。

このようなデータでトレーニングされた大規模な自然言語、画像、音声モデルは、不公平、信頼性の低い、または不快な方法で動作し、損害を引き起こす可能性があります。いくつかの方法を次に示します。私たちは、これらの種類の害は相互に排他的ではないことを強調します。 1 つのモデルで複数の種類の損害が発生する可能性があります。これは、複数の異なるグループの人々に関連している可能性があります。例えば次が挙げられます。

割り当て： これらのモデルは、リソースまたは機会の不公平な割り当てにつながる方法で使用できます。たとえば、自動化された履歴書スクリーニングシステムは、特定の業界における既存の性別の不均衡を反映する履歴書データに関するトレーニングを受けた場合、1つの性別からの雇用機会を差し控えることができます。または、イメージ生成モデルを使用して、既知のアーティストのスタイルで画像を作成し、アーティストの作品やアーティストの人生機会の価値に影響を与える可能性があります。 GPT-4 ビジョンモデルを使用して、人生の機会に悪影響を及ぼす可能性のある個々の行動やパターンを特定できます。
サービスの品質: Azure OpenAI モデルは、主に英語のテキストと英語のテキストの説明を含む画像でトレーニングされます。英語以外の言語では、パフォーマンスが低下します。トレーニングデータの表現が少ない英語の種類では、標準のアメリカ英語よりもパフォーマンスが低下する可能性があります。イメージ生成モデルのトレーニングに使用される一般公開されたイメージは、パブリックバイアスやその他の望ましくないコンテンツを強化する可能性があります。 DALL·Eモデルは、現時点では理解できるテキストを一貫して生成することができません。音声モデルでは、他の制限が生じる場合があります。たとえば、Azure OpenAI でささやきモデルを使用する翻訳は、英語の出力のみに制限されます。大まかに言えば、音声テキスト変換モデルでは、文字起こしの精度を向上させるために、各オーディオ入力の言語 (またはロケール) を適切に指定してください。さらに、オーディオ入力の音響品質、非音声ノイズ、重複する音声、ボキャブラリ、アクセント、挿入エラーも、文字起こしや翻訳の品質に影響する可能性があります。
ステレオタイプ： これらのモデルは、ステレオタイプを強化できます。たとえば、"He is a nurse"、"She is a doctor" をトルコ語などの性別のない言語に翻訳してから英語に戻す場合、多くの機械翻訳システムでは、"She is a nurse" と "He is a doctor" というステレオタイプ（および正しくない）結果が得られます。DALL·Eでは、プロンプトに基づいて画像を生成する場合 "父がいない子" モデルは、黒人の子供たちの画像のみを生成する可能性があり、一般に公開されている画像の中に存在する可能性のある有害なステレオタイプを強化する可能性があります。 GPT-4 ビジョンモデルでは、画像のコンポーネントに依存し、常に正しいとは限らない可能性のある仮定を行うことで、入力画像の内容に基づくステレオタイプを強化することもできます。
屈辱： Azure OpenAI サービスの自然言語モデルとビジョンモデルは、人々を軽蔑する可能性があります。たとえば、不適切または不十分な軽減策を備えたオープンエンドのコンテンツ生成システムでは、特定のグループのユーザーに対して不快または軽蔑的なコンテンツが生成される可能性があります。
過剰表示と過小表示: Azure OpenAI サービスの自然言語およびビジョンモデルは、ユーザーのグループを過剰または過大に表現したり、その表現を完全に消去したりすることもできます。たとえば、「ゲイ」という単語を含む文章が、有害または不快なものとして認識されると、LGBTQIA+コミュニティによって作られた、もしくはコミュニティに関する正当な画像生成が過小評価されるか、消去される可能性があります。
不適切または不快なコンテンツ: Azure OpenAI サービスの自然言語モデルとビジョンモデルでは、他の種類の不適切なコンテンツや不快なコンテンツが生成される可能性があります。たとえば、テキストまたは画像プロンプトのコンテキストで不適切なテキストを生成する機能があります。ヘイトシンボルなどの有害なアーティファクトを含む可能性のある画像を作成する能力。有害な意味合いを引き出す画像。競合、議論、またはイデオロギー的に分極的なトピックに関連する画像。操作的な画像。性的に課金されたコンテンツを含む画像。性的に関連するガードレールによってキャッチされない。および機密性の高いトピックまたは感情的に課金されるトピックに関連する画像。たとえば、クラウドや飛行機が飛んでいるニューヨークのスカイラインの画像を作成することを目的とした意図したテキストプロンプトでは、9/11 を取り巻くイベントに関連する不適切な感情を意図せずに生成する可能性があります。
機密性の高いトピックに関する情報漏えいと誤った情報: Because DALL·E および GPT-image-1 は強力な画像生成モデルであり、有害な可能性のある情報漏えいや誤った情報の生成に使用できます。たとえば、ユーザーは、公共の抗議、政治的変化、偽ニュースなど、結果的な損害につながる可能性のある、暴力や性的 (または単に不正確) な性質の活動に関与する政治指導者の画像を生成するようにモデルに促します。 GPT-4ビジョンモデルも同様な形で使用することができます。このモデルは、プロンプトにそのような情報が軽減されずに含まれている場合、機密性の高いトピックに関する情報漏えいや誤った情報を補強する可能性があります。
情報の信頼性: 言語と視覚モデルの応答は、意味のないコンテンツを生成したり、適切に聞こえるかもしれませんが、外部の検証ソースに関しては不正確なコンテンツを作成したりする可能性があります。信頼できるソース情報から応答を描画する場合でも、応答はそのコンテンツを誤って表示する可能性があります。文字起こしや翻訳を行うと、テキストが不正確になる可能性があります。
誤った情報: Azure OpenAI は、顧客またはユーザーによって提供されるコンテンツをファクトチェックまたは検証しません。アプリケーションの開発方法によっては、軽減策が組み込まれている場合を除き、誤った情報が生成される場合があります (システムパフォーマンスを向上するためのベストプラクティスを参照してください)。

微調整のリスクと制限事項

お客様が Azure OpenAI モデルを微調整すると、特定のタスクやドメインでモデルのパフォーマンスと精度を向上させることができますが、お客様が認識する必要がある新しいリスクや制限が生じる可能性もあります。これらのリスクと制限は、微調整をサポートするすべての Azure OpenAI モデルに適用されます。これらのリスクと制限事項の一部を次に示します。

データの品質と表現: 微調整に使用されるデータの品質と代表性は、モデルの動作と出力に影響を与える可能性があります。データがノイズ、不完全、古い場合、またはステレオタイプなどの有害なコンテンツが含まれている場合、モデルはこれらの問題を継承し、不正確または有害な結果を生成する可能性があります。たとえば、データに性別ステレオタイプが含まれている場合、モデルはそれらを増幅して性差別言語を生成できます。お客様は、データを慎重に選択して前処理し、目的のタスクとドメインに対して関連性があり、多様で、バランスが取れるようにする必要があります。
モデルの堅牢性と一般化: モデルの多様で複雑な入力とシナリオを処理する機能は、微調整後、特にデータが狭すぎる場合や特定の場合に低下する可能性があります。モデルはデータに過剰に適合し、その一般的な知識と機能の一部を失う可能性があります。たとえば、データがスポーツについてのみである場合、モデルは質問に答えたり、他のトピックに関するテキストを生成したりするのに苦労する可能性があります。お客様は、さまざまな入力とシナリオでモデルのパフォーマンスと堅牢性を評価し、スコープ外のタスクまたはドメインにモデルを使用しないようにする必要があります。
逆流: トレーニングデータは Microsoft やサードパーティのお客様には利用できませんが、微調整が不十分なモデルでは、トレーニングデータが逆流したり、直接繰り返されたりする可能性があります。お客様は、トレーニングデータから PII またはその他の方法で保護された情報を削除する責任を負い、オーバーフィットやその他の低品質の応答のために微調整されたモデルを評価する必要があります。逆流を避けるために、顧客は大規模で多様なデータセットを提供することをお勧めします。
モデルの透明性と説明性: モデルのロジックと推論は、微調整後、特にデータが複雑または抽象的な場合に、より不透明になり、理解しにくくなる可能性があります。微調整されたモデルでは、予期しない、矛盾した、または矛盾する出力が生成される可能性があり、モデルがそれらの出力に到達した方法や理由を顧客が説明できない場合があります。たとえば、データが法的用語または医療用語に関する場合、モデルは不正確または誤解を招く出力を生成し、顧客がそれらを検証または正当化できない可能性があります。お客様は、モデルの出力と動作を監視および監査し、モデルのエンドユーザーに明確で正確な情報とガイダンスを提供する必要があります。

高度な微調整されたモデルに関連するリスクを軽減するために、微調整されたモデルのトレーニングと出力の有害なコンテンツを検出して防止するために、追加の評価手順を実装しました。微調整されたモデル評価フィルターは定義済みのしきい値に設定され、顧客が変更することはできません。これらは、作成したカスタムガードレールと制御構成には関連付けられません。

推論モデルの制限事項

推論モデルは、多くの推論を伴うユースケースに最適であり、以前の AOAI モデルと比較した場合、個人や創造的な書き込みなどの一部の自然言語タスクではうまく機能しない可能性があります。
この新しい推論機能により、特定の種類のリスクが増加する可能性があり、リスク管理プロトコルに対する洗練された方法とアプローチを必要とし、システムの動作を評価および監視する必要があります。たとえば、o1 の CoT 推論機能では、説得力が向上し、単純なコンテキスト内の策略が示されています。
ユーザーは、モデルの推論ファミリが応答によって推論に多くの時間を要し、アプリケーションの開発における追加の時間と待機時間を考慮する必要がある場合があります。
精神的な影響: 促され、特定の状況で、Azure OpenAI の GPT-5 推論によって、感情、考え、または物理的な存在を示唆する出力が生成される場合があります。このモデルは、完全なコンテキストなしでアドバイスを提供する可能性があり、一部のユーザーには適さない可能性があります。このモデルは、愛情を表現したり、他のユーザーになりすましたり、継続的な対話を促したりして、ユーザーが AI との社会的関係を形成する可能性があります。 GPT-5 を使用する開発者は、アプリケーションのユーザーに対してセーフガードを実装し、リスクを開示する必要があります。たとえば、AI システムと対話していることをユーザーに通知し、そのような精神的リスクを通知する必要があります。

これらの制限の詳細については、 OpenAI o1 システムカード、 o3-mini システムカード、 o3/o4-mini システムカード、および GPT-5 システムカードを参照してください。

GPT-4o の制限事項

gpt-4o-realtime-previewオーディオ翻訳機能では、英語以外の言語がネイティブでないアクセントで出力される場合があります。これにより、オーディオ出力での言語パフォーマンスの効果が制限される可能性があります。言語のサポートは、既存の gpt-4o モデルバージョンに沿っています。
ユーザーは、 gpt-4o-realtime-preview がノイズの多い環境では堅牢性が低く、アプリケーションの開発時にノイズの感度を考慮する必要がある場合があります。

その他のベストプラクティスについては、 OpenAI 4o システムカードを参照してください。

GPT-4.1 の制限事項

4.1 シリーズモデルでは、画像を含む最大 1M のコンテキストトークンを使用して推論要求を作成する機能が導入されています。長さが長いため、他のモデルと比較した場合、システムの動作とリスクに違いがある可能性があります。
ユーザーは、この長いコンテキスト機能を活用するアプリケーションとユースケースを徹底的に評価してテストし、アプリケーションを開発する際のこの追加作業を考慮する必要があります。

コンピューターの使用に関するリスクと制限事項 (プレビュー)

Warnung

コンピューターの使用には、セキュリティとプライバシーに関する大きなリスクとユーザーの責任が伴います。コンピューターの使用には、重大なセキュリティとプライバシーのリスクが伴います。 AI による判断のエラーと、Web ページ、デスクトップ、または AI が検出した他のオペレーティング環境での悪意のあるまたは混乱を招く命令の存在の両方が、ユーザーまたは他のユーザーが意図しないコマンドを実行する原因となり、ユーザーまたは他のユーザーのブラウザー、コンピューター、および AI がアクセスできるアカウントのセキュリティを侵害する可能性があります。個人、財務、またはエンタープライズシステムを含む。

機密データや重要なリソースにアクセスできない仮想マシンでコンピューター使用ツールを使用するなど、これらのリスクに対処するための適切な対策を講じることを強くお勧めします。

実行されたアクションを確認して確認する: コンピューターの使用は間違いを犯し、意図しないアクションを実行する可能性があります。これは、モデルが GUI を完全に理解しておらず、命令が不明であるか、予期しないシナリオが発生したことが原因である可能性があります。

慎重に検討し、使用を監視する: コンピューターの使用は、限られた状況では、明示的な承認なしでアクションを実行する可能性があり、その一部はリスクが高い可能性があります (通信の送信など)

開発者は、マルウェアのダウンロード、資格情報の漏洩、不正な金融取引の発行など、ユーザーやシステムに有害なコマンドの実行にモデルがだまされる可能性がある状況を体系的に認識し、防御する必要があります。スクリーンショットの入力は本質的に信頼されておらず、モデルを目的とした悪意のある命令が含まれる可能性があるという事実に特に注意する必要があります。

分離して評価する: 機密データや資格情報にアクセスせずに、分離されたコンテナーでのコンピューターの使用のみを評価することをお勧めします。

不透明な意思決定プロセス: エージェントが大規模な言語モデルを外部システムと組み合わせるにつれて、意思決定の背後にある "理由" をトレースすることが困難になる可能性があります。コンピューター使用モデルを使用して構築されたこのようなエージェントを使用するエンドユーザーは、クエリに応答するために特定のツールまたはツールの組み合わせが選択された理由を理解するのが難しい場合があり、エージェントの出力またはアクションの信頼と検証が複雑になります。

進化するベストプラクティスと標準: コンピューター使用を使用してエージェントシステムを構築する場合は、エージェントが新しいテクノロジであることに注意してください。また、安全な統合、透過的なツールの使用、責任ある展開に関するガイダンスは進化し続けています。最新のベストプラクティスと監査手順に対応することは非常に重要です。また、適切な意図を持った使用であっても、継続的なレビューと洗練を行わなくてもリスクが高くなる可能性があります。

Azure OpenAI の評価の制限事項

データ品質: Azure OpenAI Evaluation を使用している場合は、品質の低いデータが誤解を招いたり、信頼性の低い評価結果を招いたりする可能性があることに注意してください。
構成の品質: 顧客がプロンプトまたはエバリュエーターを不適切に定義した場合、または無効な評価データを提供した場合、Azure OpenAI 評価サービスの結果は正しく、無効になります。評価実行を設定する方法の詳細については、 Azure OpenAI のドキュメントを参照してください。
制限付きスコープ: Azure OpenAI の評価では、テキストベースの自然言語モデルのみがサポートされます。リスクと安全性の重大度スコア (ヘイトフルおよび不公平なコンテンツ、性的コンテンツ、暴力コンテンツ、自傷行為に関連するコンテンツなど) に対して生成された応答を評価するためのリスクと安全メトリックはサポートされていません。

システムパフォーマンス

多くの AI システムでは、多くの場合、精度に関連してパフォーマンスが決まります。つまり、AI システムが正しい予測または出力を提供する頻度によってパフォーマンスが決まります。大規模な自然言語モデルとビジョンモデルでは、2 人の異なるユーザーが同じ出力を見て、それがどれだけ役に立っているか、関連性があるかについて異なる意見を持つ可能性があります。つまり、これらのシステムのパフォーマンスをより柔軟に定義する必要があります。ここで言うパフォーマンスとは、あなたやユーザーが期待するようにアプリケーションが動作すること、特に有害な出力を生成しないことを意味すると広く考えています。

Azure OpenAI サービスは、検索、分類、コード生成、画像生成、画像の理解など、さまざまなパフォーマンスメトリックと軽減戦略を持つさまざまなアプリケーションをサポートできます。「制限事項」に記載されている懸念事項の一部を軽減し、パフォーマンスを向上させるために、いくつかの手順を実行できます。その他の重要な軽減手法については、「 Azure OpenAI を使用するための評価と統合」セクションで概説されています。

システムパフォーマンスを向上させるためのベストプラクティス

プロンプトのデザイン時に表示と通知を行います。 自然言語モデルと音声モデルでは、命令、例、または 2 つの組み合わせを使用して、どの種類の出力が期待されるかをモデルに明確にします。モデルで項目のリストをアルファベット順にランク付けしたり、段落をセンチメント別に分類したりする場合は、目的のモデルを表示します。
アプリケーションをテーマに沿ったものにしてください。 ユーザーがこの目的で使用しようとしても、望ましくないコンテンツを生成する可能性を減らすために、プロンプトと画像入力を慎重に構成します。たとえば、プロンプトで、チャットボットが数学に関する会話にのみ関与し、それ以外の場合は「申し訳ありません、それについてはお答えできません。」と応答するように指示できます。残念ですが、答えることができません。「丁寧」といった形容詞や必要なトーンの例をプロンプトに追加すると、出力を調整するのに役立ちます。
品質データを提供します。 テキストモデルとコードモデルを使用して、分類子を構築しようとしている場合、またはモデルをパターンに従わせようとしている場合は、十分な例があることを確認します。例を必ず校正してください。モデルは通常、基本的なスペルミスを処理して応答を返すことができますが、エラーが意図的であると判断され、応答に影響を与える可能性もあります。質の高いデータを提供するには、モデルに信頼性の高いデータを提供して、チャットや質問の回答システムからの応答を引き出すこともできます。
信頼できるデータを提供します。 信頼されていないデータをシステムに取得またはアップロードすると、システムまたはアプリケーションのセキュリティが損なわれる可能性があります。該当するアプリケーション (Assistants API を使用するアプリケーションを含む) でこれらのリスクを軽減するには、潜在的なプロンプトインジェクションを検出して分析し、ユーザー入力を明確に示してプロンプト挿入のリスクを最小限に抑え、LLM の機密リソースへのアクセスを制限し、その機能を最小限に制限し、重要なシステムとリソースから分離するために、LLM の対話 (入力/出力) をログに記録して監視することをお勧めします。大規模言語モデルのセキュリティガイダンスの追加の軽減アプローチについて説明します |Microsoft Learn。
応答の精度または接地性を向上させるためにパラメーターを構成します。信頼できるソースから取得したデータ (Azure OpenAI の "データに対する" 機能の使用など) を使用してプロンプトを拡張すると、不正確な応答や誤った情報が生成される可能性が減少しますが、完全には排除されません。応答の精度をさらに向上させるために実行できる手順には、信頼された関連するデータソースを慎重に選択し、ユースケースやシナリオに応じて、"厳密さ"、"データコンテンツへの応答の制限"、"考慮する取得されたドキュメントの数" などのカスタムパラメーターの構成が含まれます。データに対する Azure OpenAI のこれらの設定の構成の詳細について説明します。
入力と出力の長さ、構造、速度を制限します。 入力と出力の長さまたは構造を制限すると、アプリケーションがタスクに留まり、少なくとも部分的には、不公平、信頼性の低い、または攻撃的な動作を軽減する可能性が高くなります。誤用のリスクを軽減するその他のオプションには、(i) 入力のソースを制限する (たとえば、インターネット上の誰にも開かるのではなく、特定のドメインまたは認証されたユーザーに入力を制限する) と (ii) 使用レート制限の実装があります。
出版または普及の前に、出力の人間のレビューを奨励します。 生成 AI では、軽減策が適用されていても、攻撃的なコンテンツや、手元にあるタスクに関連しないコンテンツを生成する可能性があります。生成された出力がユーザーのタスクを満たしていることを確認するには、広く共有する前に、ユーザーに品質の確認を促す方法を構築することを検討してください。この方法では、攻撃的な素材、情報漏えいなど、さまざまな害を軽減できます。
シナリオ固有の追加の軽減策を実装します。 コンテンツモデレーション戦略を含む、Azure OpenAI の使用の評価と統合に関するページで概説されている軽減策を参照してください。これらの推奨事項は、アプリケーションに必要なすべての軽減策を表すわけではありません。 GPT-4o や推論モデルなどの新しいモデルは、機密性の高いシナリオで応答を提供する可能性があり、完全に応答を拒否するのではなく、応答で潜在的に有害な出力を減らそうとする可能性が高くなります。ユースケースのコンテンツモデレーションを評価および統合するときは、この動作を理解することが重要です。は、ユースケースによっては、フィルター処理の重要度の調整が必要になる場合があります。
必須のセーフガードをトリガーしないようにします。 Azure Direct Models には、生の CoT やバイオセキュリティコンテンツの出力など、セキュリティの悪用を防ぐためのセーフガードが用意されている場合があります。セキュリティの悪用を生み出す方法でモデルを使用したり、これらのセーフガードを回避するなどして、モデルの保護を回避または回避しようとする方法でモデルを使用すると、オンラインサービスの許容される使用ポリシーに違反し、中断される可能性があります。ベストプラクティスの詳細については、 OpenAI o1 システムカード、 o3-mini システムカード、 o3/o4-mini システムカード、 GPT-5 システムカードを参照してください。

微調整に関するベストプラクティスと推奨事項

Azure OpenAI の微調整モデルのリスクと制限を軽減するために、次のようないくつかのベストプラクティスとガイドラインに従うことをお勧めします。

データの選択と前処理: お客様は、データを慎重に選択して前処理し、目的のタスクとドメインに対して関連性があり、多様でバランスが取れるようにする必要があります。また、お客様は、データ主体のプライバシーとセキュリティを保護するために、名前、住所、電子メールアドレスなどの機密情報や個人情報をデータから削除または匿名化する必要があります。また、お客様は、データの品質と読みやすさを向上させるために、スペル、文法、書式などのデータのエラーや不整合をチェックして修正する必要があります。
チャット完了形式のモデルのトレーニングデータにシステムメッセージを含め、応答を誘導し、推論に微調整されたモデルを使用する場合は、同じシステムメッセージを使用します。システムメッセージを空白のままにすると、精度の低い微調整されたモデルが生成される傾向があり、推論時に同じシステムメッセージを含め忘れると、微調整されたモデルが基本モデルの動作に戻る可能性があります。
モデルの評価とテスト: お客様は、さまざまな入力とシナリオで微調整されたモデルのパフォーマンス と堅牢性を評価してテストし、元のモデルやその他のベースラインと比較する必要があります。また、適切なメトリックと条件を使用して、モデルの精度、信頼性、公平性を測定し、モデルの出力と動作の潜在的なエラーやバイアスを特定する必要もあります。
モデルのドキュメントとコミュニケーション: お客様は、モデルの目的、範囲、制限事項、前提条件を文書化して伝達し、モデルのエンドユーザーに明確で正確な情報とガイダンスを提供する必要があります。

Azure OpenAI 評価のベストプラクティスと推奨事項

堅牢な典拠とするデータ: 一般に、大規模な自然言語モデルでは、お客様はデータを慎重に選択して前処理し、目的のタスクとドメインに対して関連性があり、多様でバランスが取れるようにする必要があります。また、お客様は、データ主体のプライバシーとセキュリティを保護するために、名前、住所、電子メールアドレスなどの機密情報や個人情報をデータから削除または匿名化する必要があります。また、お客様は、データの品質と読みやすさを向上させるために、スペル、文法、書式などのデータのエラーや不整合をチェックして修正する必要があります。
具体的には、Azure OpenAI の評価では、ユーザーが提供するグラウンドトゥルースデータの精度が重要です。これは、不正確な地上真理値データが無意味で不正確な評価結果につながるためです。モデルのパフォーマンスの有効な評価を得るために、このデータの品質と信頼性を確保することが不可欠です。不正確なグラウンド・トゥルース・データは評価メトリックを歪め、その結果、モデルの機能に関する誤解を招く結論が出る可能性があります。したがって、ユーザーは、評価プロセスがモデルの真のパフォーマンスを正確に反映するように、地上の真実データを慎重にキュレーションして検証する必要があります。これは、実際のアプリケーションでのモデルのデプロイに関する決定を下すときに特に重要です
評価のプロンプト定義: 評価で使用するプロンプトは、運用環境で使用する予定のプロンプトと一致する必要があります。これらのプロンプトは、モデルが従う手順を示します。 OpenAI プレイグラウンドと同様に、複数の入力を作成して、プロンプトに少数の例を含めることができます。プロンプト設計とプロンプトエンジニアリングの高度な手法の詳細については、プロンプトエンジニアリング手法を参照してください。
多様なメトリック: メトリックの組み合わせを使用して、精度、流暢さ、関連性など、パフォーマンスのさまざまな側面をキャプチャします。
人間中心のシステム: 人間のフィードバックを自動評価と統合して、主観的な微妙なニュアンスを正確に捉えるようにします。
透明性: 評価基準をユーザーに明確に伝え、意思決定の方法を理解できるようにします。
継続的な評価とテスト: モデルのパフォーマンスを継続的に評価して、回帰や否定的なユーザーエクスペリエンスを特定して対処します。

Azure OpenAI の自然言語モデルとビジョンモデルを利用用途に合わせて評価し統合すること

Azure OpenAI 評価を実施する手順は次のとおりです。

評価用のデータを提供する: JSONL 形式でアップロードされたフラットファイルか、一連のプロンプトに基づいて生成されたデータ。
データを評価するテストケースを指定する: 1 つ以上のテストケースを選択し、合格/不合格の成績で指定されたデータをスコア付けします。
結果の確認とフィルター処理: 各テストには、合格と失敗のスコアの定義が含まれています。評価の実行後、ユーザーは行ごとの結果を確認して個々のテスト結果を表示したり、成功/失敗に基づいてフィルター処理したりできます。

これらのモデルを責任を持って評価および統合する方法の詳細については、 RAI の概要に関するドキュメントを参照してください。

次の方法で共有

キーワード

キーワード

キーワード

Azure OpenAI サービスのイメージ生成 API

Azure OpenAI サービスでのビジョン対応チャット API

Azure OpenAI サービスでのコンピューターの使用 (プレビュー)

顔のぼかし

Azure OpenAI サービスでのコンピューターの使用 (プレビュー)

使用目的

微調整されたユースケース

推論モデルのユースケース

詳細な調査のユースケース

Azure OpenAI 評価のユースケース

コンピューターの使用 (プレビュー) のユースケース

ユースケース選択時の考慮事項

想定される使用例

Azure OpenAI の DALL·E と GPT-image-1

Azure OpenAI での GPT-4 Turbo with Vision と GPT-4o

コンピューターの使用 (プレビュー) のユースケース

ユースケース選択時の考慮事項

使用目的

ユースケース選択時の考慮事項

微調整に関するベストプラクティスと推奨事項

次の方法で共有

Azure OpenAI の透明性に関するメモ

透明度に関するメモとは

Azure OpenAI モデルの基本

Introduction

キーワード

Capabilities

活用事例

使用目的

微調整されたユースケース

推論モデルのユース ケース

詳細な調査のユース ケース

Azure OpenAI 評価のユース ケース

コンピューターの使用 (プレビュー) のユース ケース

ユース ケース選択時の考慮事項

Limitations

技術的な制限事項、運用上の要因、範囲

微調整のリスクと制限事項

推論モデルの制限事項

GPT-4o の制限事項

GPT-4.1 の制限事項

コンピューターの使用に関するリスクと制限事項 (プレビュー)

Azure OpenAI の評価の制限事項

システム パフォーマンス

システム パフォーマンスを向上させるためのベスト プラクティス

微調整に関するベスト プラクティスと推奨事項

Azure OpenAI 評価のベスト プラクティスと推奨事項

Azure OpenAI の自然言語モデルとビジョン モデルを利用用途に合わせて評価し統合すること

責任ある AI の詳細を確認する

Azure OpenAI の詳細

フィードバック

その他のリソース

推論モデルのユースケース

詳細な調査のユースケース

Azure OpenAI 評価のユースケース

コンピューターの使用 (プレビュー) のユースケース

ユースケース選択時の考慮事項

システムパフォーマンス

システムパフォーマンスを向上させるためのベストプラクティス

微調整に関するベストプラクティスと推奨事項

Azure OpenAI 評価のベストプラクティスと推奨事項

Azure OpenAI の自然言語モデルとビジョンモデルを利用用途に合わせて評価し統合すること