[この記事はプレリリース ドキュメントであり、変更されることがあります。]
コンピューター操作は、エージェントが Windows コンピューター上のタスクを操作および自動化できるようにする Copilot Studio のツールです。 Web サイトやデスクトップ アプリで、ボタンを選択したり、メニューを選んだり、画面上のフィールドにテキストを入力したりします。 コンピューター操作で実行する処理を自然言語で記述し、仮想マウスとキーボードを使用してセットアップしたコンピューターでタスクを実行します。 コンピューター操作を使用すると、エージェントは、システムに直接接続する API がない場合でもタスクを完了できます。 アプリや Web サイトを使うことができれば、コンピューターも使うことができます。 自動データ入力、請求書処理、データ抽出などのタスクには、コンピューター操作を使用できます。
重要
この記事には Microsoft Copilot Studio プレビュー ドキュメントが含まれ、変更される可能性があります。
プレビュー機能は運用環境での使用を想定しておらず、機能が制限される可能性があります。 これらの機能は公式リリースの前に使用できるため、一足先にアクセスして フィードバックを送る ことができます。
運用に対応したエージェントを構築する場合は Microsoft Copilot Studio の概要 を参照してください。
コンピューターの利用は、視覚機能と高度な推論を組み合わせてグラフィカル ユーザー インターフェース (GUI) と対話する AI モデルであるコンピューター利用エージェント (CUA) によって行われます。 AI を搭載しているため、インターフェイスの変更に適応します。 たとえば、ボタンや画面が変更されても、ツールはフローを中断することなく動作を続けます。 使い方はシンプルです。 必要なものを自然言語で記述するだけです。 コードを記述する必要はありません。
このビデオでは、コンピューター使用ツールを使用して、エージェントが Web アプリケーションと対話する方法を学習します。
要件
この機能は、リージョンが米国に設定されている環境で使用できます。
エージェントが生成オーケストレータを有効にし、コンピューターを使用できるようにしてください。
コンピューターの使用をエージェントに追加する
Copilot Studio の新しいエージェントまたは既存のエージェントで、次の手順に従って、ツールとしてコンピューター操作を追加します。
エージェントの ツール セクションに移動し、ツールの追加を選択します。
ツールの追加ダイアログで、新しいツールを選択します。
コンピュータの使用を選択します。
ツールがコンピューターで実行する必要があるタスクを説明する手順を指定します。 使用開始するためのいくつかの指示テンプレートが表示されます。 コンピューター操作に最適な手順を記述する方法の詳細については、コンピューター操作の指示のベスト プラクティスを確認してください。
コンピューター操作を実行するコンピューターを選択します。 ホストされているブラウザー、一般向けの Web サイトでのタスクを自動化するためのすぐに使用できるコンピューター、またはコンピューター操作に使用するよう構成できる Windows コンピューターを選択できます。 コンピューター操作の実行場所を構成するを参照してください。
[追加と構成] を選択します。
設定ページで、次の 3 つのフィールドを設定します。
- 名称: コンピュータ使用ツールの表示名を入力します。 この名前は、エージェントに追加する他のツールと区別するのに役立ちます。
- 説明: このツールが何をするのか、どのような場合に使用するのか、簡単な説明を入力します。 このテキストは、このツールをいつ使用するかをエージェントに知らせます。
- 手順: URL やアプリケーション名など、ツールが実行する手順を一覧表示します。 ヒントについては、コンピューターの使用手順に関するベスト プラクティスを参照してください。
構成ページで、関連する可能性のある他のフィールドと設定を確認します。
入力: 入力を使用して、コンピューターの使用が実行されるたびに変化する動的な値を定義します。 たとえば、実行のたびに異なる値でフォームに入力する場合は、そのフィールドの入力を作成します。 実行時に、コンピューターの使用は、タスクを完了するために命令と入力値を組み合わせて使用します。
コンピューター: エージェントがコンピューター操作を実行するために使用するターゲット コンピューターを選択します。 要件に基づいて適切なコンピューターの種類を選択する方法の詳細については、コンピューター操作を実行する場所を構成するを参照してください。
- 更新を使用して、コンピューターの一覧を更新します。
- コンピューターの管理を選択して、Power Automate ポータルでコンピューター管理ページを開きます。
- コンピューターの詳細を確認を選択し、Power Automate ポータルでコンピューターの詳細ページを開きます。
接続: このツールに使用される接続。 新しい接続を更新または作成して、使用する資格情報を変更します。
使用する資格情報: 実行中のコンピューター操作の認証方法を指定します。
- Maker提供の認証情報 (デフォルト):このオプションはメーカーの認証情報を使用し、自律エージェントに適しています。
警告
この設定を持つエージェント を共有し ていれば、それを使う誰でも元の作者の権限で設定されたマシン上で行動できます。
- エンド ユーザーの資格情報: このオプションでは、エージェントと対話しているユーザーの資格情報が使用されます。 各ユーザーは、コンピューターへのアクセス資格情報を持っている必要があります。
人間による監督: コンピューター操作エージェントが、モデルの動作を変更する可能性のある有害な指示を検出した場合に、メール (Outlook) 経由で連絡するユーザーを指定します。 各エージェントの実行とそのアクティビティは、それを開始したユーザーに関連付けられます。 もしコンピュータ使用エージェントを操作している人以外のレビュアーを選ぶと、その人は実行を開始していないため、そのレビュアーはその活動を見ていない可能性が高いです。 そのため、要求を適切に検証したり、処理したりすることはできません。 さらに、受信者が承認され、そのような要求を処理するために必要なコンテキストがあることを確認します。 応答時間の制限は、要求がアクティブなままの期間を定義します。 この期間が経過すると、要求は期限切れになり、応答が受信されない場合、コンピューター操作の実行は停止します。 詳細については、人間による監督を参照してください。
保存された資格情報: コンピューターが Web サイトやアプリケーションへのサインインに使用する資格情報を定義します。 実行中、サインイン プロンプトが表示された場合、コンピューターは、このセクションで定義した資格情報をそのサイトまたはアプリケーションに安全に使用します。 これらの認証情報のパスワード値は、Power Platformの内部ストレージ(設定不要)に保存するか、提供しているAzure Key Vaultに保存されます。 Azure Key Vault を作成する方法については、Azure portal を使用して Key Vault を作成するを参照してください。
内部ストレージオプション:このオプションを使えば、事前設定なしでツール内で認証情報を設定できます。 秘密は暗号化され、Power Platform内部に保存されます。 各資格証明書について、以下の詳細を記載してください:
- タイプ:使用するサーフェスに応じてウェブサイトとデスクトップアプリのどちらかを選択してください
- ユーザー名:ターゲットのウェブサイトやアプリケーションにサインインするために使うユーザー名。
- パスワード:ターゲットのウェブサイトやアプリケーションにサインインするために使われるパスワードの数値。
注意
パスワード フィールドは、すべての Web サイトとほとんどの Windows アプリケーション (WinForms、WPF、UWP、WinUI、Win32) でサポートされており、ほとんどのお客様のシナリオに対応しています。 Electron、Java、Unity、ゲーム、コマンドライン インターフェイス、Citrix、その他の仮想化環境など、一部のアプリの種類はサポートされない場合があります。
- ログインドメイン または デスクトップアプリ名:認証情報を入力するドメインまたはアプリケーション名(例: login.microsoft.com やExcel)。 ログインドメインについては、メインのURLと異なる可能性があるため、必ず確認してください。
Azure Key Vaultオプション:このオプションでは、まずサブスクリプションID、リソースグループ名、Key Vault名を入力することで、ツール内で認証情報を設定できます。 この情報はすべて、Key Vault の概要ページから入手できます。
Power Platform で Azure Key Vault シークレットを使用するには:
- Vaultを持つAzureサブスクリプションには PowerPlatformリソースプロバイダー が登録されている必要があります。
- 環境変数を作成するユーザーは、Azure Key Vault リソースに対する適切なアクセス許可を持っている必要があります。
まだであれば、Azure Key Vault の設定手順に従い、以下の詳細を提供してください。
- ユーザー名:ターゲットのウェブサイトやアプリケーションにサインインするために使うユーザー名。
- Azure シークレット名: Web サイトまたはアプリケーションのパスワードを格納する Key Vault 内のシークレットの名前。
注意
パスワード フィールドは、すべての Web サイトとほとんどの Windows アプリケーション (WinForms、WPF、UWP、WinUI、Win32) でサポートされており、ほとんどのお客様のシナリオに対応しています。 Electron、Java、Unity、ゲーム、コマンドライン インターフェイス、Citrix、その他の仮想化環境など、一部のアプリの種類はサポートされない場合があります。
- ログインドメイン または デスクトップアプリ名:認証情報を入力するドメインまたはアプリケーション名(例: login.microsoft.com やExcel)。 ログインドメインについては、メインのURLと異なる可能性があるため、必ず確認してください。
アクセス制御: 既定では、コンピューター操作は任意の Web サイトまたはアプリケーションで動作できます。 このアクセスを制限する場合、アクセス制御を有効にして、コンピューターで使用する特定の URL とデスクトップ アプリケーションを定義します。 Web サイトとアプリケーションの両方を構成できます。
-
Web サイト: メイン Web サイトのアドレス (たとえば、example.com) を入力します。 その Web サイトのすべてのページが自動的に含められます。 サブドメインにはワイルドカード (*) を使用することもできます。
- 例:
www.contoso.com、*.contoso.com、contoso.com
- 例:
-
デスクトップ アプリケーション: アプリケーションの製品名またはプロセス名を入力します。 これを見つけるには、Ctrl + Shift + Esc キーを押してタスク マネージャーを開きます。 次に、プロセス タブを確認します。
- 例:
Microsoft Edge、msedge、Notepad。
- 例:
注意
アクセス制御では、許可リストに含まれていない Web サイトまたはアプリケーションに対してモデルがアクションを実行できないようにするだけです。 モデルが開くのを止めるわけではありません。 たとえば、microsoft.com と Microsoft Edge のみが許可リストに含まれている場合、モデルでは引き続き Edge 検索バーを使用して Bing を開くことができます。 ただし、Bing を開くと、許可リスト内にないため、操作しようとすると失敗します。
-
Web サイト: メイン Web サイトのアドレス (たとえば、example.com) を入力します。 その Web サイトのすべてのページが自動的に含められます。 サブドメインにはワイルドカード (*) を使用することもできます。
保存を選択します。
コンピューターの使用をテストする
コンピューター操作のテストは、作成の過程で重要な手順です。 名前、説明、手順を入力し、ツールを保存したら、 テストを選択してテスト エクスペリエンスを開始します。
短い読み込み期間の後、テスト エクスペリエンスが表示されます。
- 左側のパネルには、あなたの指示と、ツールの推論や動作のステップバイステップログが表示されます。
- 右側のパネルには、コンピューターを使用するために設定したマシンのアクションのプレビューが表示されます。
タスクが終了すると、テストが完了しましたというメッセージが表示されます。 テストが進行中であっても、テストの停止を選択することで、コンピューター上のすべてのアクションを直ちに停止することができます。
結果が期待どおりでない場合は、構成ページに移動して手順を調整してください。 詳細を追加して精度を向上させます。 ガイダンスについては、効果的な指示の記述のベスト プラクティスを参照してください。
コンピューターを使用したエージェントの公開
コンピュータの利用を設定し、その後エージェントを公開してください。 エージェントの実行方法は、シナリオによって異なります。 自律型または会話型にすることができます。
- 自律エージェントは自動的に実行され、バックグラウンドでタスクを実行します。
- 会話エージェントを使用すると、ユーザーは Microsoft Teams などのチャネルを介して対話できます。
コンピューターの使用は、ユーザーとの対話なしにバックグラウンドでタスクを実行する自律型エージェントに最適です。
会話エクスペリエンスでコンピューターの使用を適用することもできますが、次の考慮事項に留意してください。
- 認証設定としてユーザーの認証を選択した場合、会話でエージェントと対話する各ユーザは、コンピュータ使用で使用するコンピューターの有効な認証情報が必要となります。
- ツールが実行されると、推論メッセージとコンピューターの活動のスクリーンショットがチャットで共有されます。
ベスト プラクティス
今日のデジタル環境において生産性と安全性を維持するためには、コンピューターを使用する際のベスト プラクティス、特に明確な指示書の作成とマシンの安全確保に従ってください。
コンピューターをセキュリティで保護するためのベスト プラクティス
AI が自然言語を使用してタスクを実行できるコンピューター用のコンピューターをセットアップする場合は、次のセキュリティに関する推奨事項を検討してください。
| セキュリティの推奨事項 | 追加情報 |
|---|---|
| コンピューター専用機を使用する | 特定の分離されたマシンを、コンピューターの使用に関係するタスク専用に割り当てます。 このアプローチにより、無関係なソフトウェア、マルウェア、または不正アクセスによる相互汚染のリスクが軽減されます。 これにより、構成、更新、監視をより効果的に制御できます。 |
| コンピューターで使用するために使用しているユーザー アカウントにアクセス許可を制限する | 最小特権の原則 (必要なツールの実行に必要なアクセス許可のみを付与する) に従って、コンピューターで使用するユーザー アカウントを設定します。 |
| Web アクセスを特定の信頼できる Web サイトのみの許可リストに制限する | Webアクセスは、吟味された信頼できるドメインの事前定義されたリストにのみ許可します。 たとえば、コンピューター操作に使用されるコンピューターを対象とする Microsoft Edge ポリシー設定を Microsoft Intune で構成できます。 |
| 特定のデスクトップ アプリの利用を制限する | 目的の AI ワークフローに不可欠なアプリケーションのみをインストールし、実行を許可します。 不要なソフトウェアへのアクセスを削除または無効にします。 たとえば、アプリケーション コントロールを構成して、マシン上で実行を許可するアプリケーションを制限することができます。 |
コンピューターの使用手順に関するベスト プラクティス
記述する指示によって、コンピューターの使用がどの程度うまく機能するかが決まります。 具体的で詳細な指示は、コンピューターが正確にタスクを完了する際に役立ちます。 同僚にタスクを説明するようなものだと考えてください。 明確なステップ バイ ガイダンスが確実な成功をサポートします。
効果的な説明を書くためのアドバイス:
Web サイトとアプリケーションについて具体的に説明します。 Web サイトの完全な URL と、ツールが使用するアプリケーションの正確な名前を常に含めてください。 例:https://www.microsoft.comを開き、「会社ニュース」へ行きます。
関連するアクションを明確に記述します。 何かをやってほしいなら、特にフォームの提出やメール送信のような行動では、はっきりと伝えましょう。 例: フォームに記入したら「 送信」を選択します。許可を求める必要はありません。
複雑な対話を分解します。 UI の操作が複雑になる可能性がある領域については、各手順を詳細に説明します。 例: 右上の 「More 」アイコンを選択します。ドロップダウンが表示されます。開いたらリストの最後の項目を選択します。
長いタスクには段階的な形式を使用します。 長い指示は、リストとして書式設定すると従いやすくなります。
指示のサンプル
コンピュータの使い方を試したり、自分の使い方を書いたりする際の参考にしてください。
| シナリオ | 名前 | プロパティ | 説明 |
|---|---|---|---|
| 請求書処理 | 請求書の詳細を転送して送信する | PDF から請求書データを転送し、別のフォームに送信します。 | 1. https://computerusedemos.blob.core.windows.net/web/Contoso/invoice-manager.html に移動し、[日付 フィルター] を [過去 24 時間] に設定して、請求書の PDF を開きます。 2. 新しいタブで https://computerusedemos.blob.core.windows.net/web/Contoso/index.html を開き、その PDF のデータをフォームに入力します。 請求書フォームを送信し、確認は必要ありません。 |
| データ入力 | 在庫品目の送信 | 在庫システムに製品を追加します。 | 1. https://computerusedemos.blob.core.windows.net/web/Adventure/index.html に移動します。 2. 次の各項目について、新しいエントリを送信します。 リアディレイラー、RD-4821、50、42.75、Tailspin Toys ペダルセット、PD-1738、80、19.99、ノースウィンドトレーダー ブレーキレバー、BL-2975、35、14.50、Trey Research チェーンリング ボルトセット、CB-6640、100、5.25、VanArsdel、Ltd. ボトムブラケット、BB-9320、60、24.90、Tailwind Traders |
| データ抽出 | ポートフォリオ マネージャーと値を検索する | ポートフォリオのマネージャ名と値を取得します。 | 1. https://computerusedemos.blob.core.windows.net/web/Portfolio/index.html に移動します。 2. Fourth Coffee の行を探し、ポートフォリオ マネージャーの名前と現在のポートフォリオの価値を表示されているとおりに正確に記録します。 3. これら 2 つの値を最終出力として返します。 |
データ抽出のベストプラクティス
コンピュータを使ってウェブサイトやアプリケーションからデータを抽出し、そのデータをエージェントやエージェント内の他のツールに渡すことができます。 そのためには、 コンピュータ使用用の説明書で直接抽出したい情報を説明すればいいです。
抽出したデータを他のツール(例えばメール送信)で使いたい場合は、 エージェントの指示 でその必要性を明記し、両方のツールがエージェントに追加されていることを確認してください。
例: コンピュータを使って金融ポートフォリオダッシュボード用のクライアント情報を抽出し、抽出したデータをメールで送ります。 この場合、エージェントはコンピュータ使用ツールとメールツールの両方を含める必要があります。
テキストとしての値の抽出
コンピュータに特定の値を抽出し、それをプレーンテキストとして返すよう指示することもできます。 例えば、以下のプロンプトはクライアントであるFourth Coffeeのポートフォリオマネージャーとポートフォリオ価値を抽出します。
1. Go to https://computerusedemos.blob.core.windows.net/web/Portfolio/index.html.
2. Find the row for Fourth Coffee and record the Portfolio Manager name and the current Portfolio Value exactly as shown.
3. Return those two values as the final output.
エージェントは要求された2つの値だけをテキストとして返します。
値をJSONとして抽出
また、コンピューターに依頼して抽出した情報をJSON形式で返してもらうこともできます。 この形式は、構造化データを別のツールに渡したいときに便利です。 以下の例は、Contosoに関連するすべてのポートフォリオ行を抽出し、適切にフォーマットされたJSONとして返します。
Navigate to https://computerusedemos.blob.core.windows.net/web/Portfolio/index.html, retrieve the portfolio details for all Contoso entities, and return the results as a valid JSON object.
Structure the output so that:
* Each top-level key is the client name
* Each value contains the client's portfolio ID, portfolio value, portfolio manager, and last updated date (format: YYYY-MM-DD)
* Return only the JSON, with no additional text.
このアプローチにより、出力が構造化されることが保証されます。
ライセンス
コンピューターがプレビュー中に使用された場合は、エージェント アクション機能を使用して、5 Copilot Credit の請求レートで請求されます。 詳細については、Microsoft Copilot Studio の課金レートと管理を参照してください。
各コンピューター操作の実行は複数のアクションを実行でき、各アクションには 5 つの Copilot クレジットが必要です。
たとえば、Web ベースのタイムシート フォームに記入するためにコンピュータの使用を設定した場合、トリガーされるたびにこれらのアクションが実行されます:
ブラウザーを起動します。
タイムシート Web ポータルに移動します。
新しいタイムシートの作成を選択します。
[開始時刻] フォーム フィールドに入力します。
[終了時刻] フォーム フィールドに入力します。
プロジェクト コード フィールドに入力します。
送信ボタンを選択します。
この例では、コンピューター操作によって 7 つのアクションが実行され、合計で 35 個のメッセージが使用されます。
フィードバックをお寄せください
コンピューターの使用に関するフィードバックはありますか? computeruse-feedback@microsoft.com でお知らせください。