この記事では、機密情報ソース テーブルをハッシュしてアップロードする方法について説明します。
適用対象
機密情報ソース テーブルをハッシュしてアップロードする
このフェーズでは、次の操作を行います。
- カスタム セキュリティ グループとユーザー アカウントを設定します。
- エージェントの正確な一致 (EDM) アップロード ツールを設定します。
- EDM Upload Agent ツールを使用して、salt 値と機密情報ソース テーブルをハッシュし、アップロードします。
「データのハッシュとアップロード」の説明に従って、 Two-computer メソッド または Single computer メソッド を使用して機密 データをハッシュおよびアップロードできます。 データのアップロードにカスタム ハッシュを使用することはできません。 ハッシュとアップロードのドキュメントで説明されているように、これら 2 つのメソッドのみを使用できます。
ベスト プラクティスは、2 台のコンピューターを使用して、機密データのハッシュとアップロードのプロセスを分離することです。 2 台のコンピューター間で手順を分離すると、インターネットへの接続によって侵害される可能性があるコンピューターで、実際のデータをクリア テキスト形式で使用できないようにすることができます。 これにより、発生した問題を簡単に特定できます。
前提条件
テクノロジ要件
- Microsoft 365 の職場または学校アカウント。 このアカウントは、 EDM_DataUploaders セキュリティ グループに追加する必要があります。
- 次のいずれかのオペレーティング システムを備えたコンピューター。 このコンピューターは 、EDM アップロード エージェントを実行します。
- Windows 10以降のバージョン
- Windows Server 2019 以降のバージョン
- .NET バージョン 4.6.2 でのWindows Server 2016
- データのアップロードに使用するコンピューター上のディレクトリ。 このディレクトリには、次のものが含まれます。
- EDM アップロード エージェント。
-
.csv、.tsv、またはパイプ (|) 形式の機密情報データ ファイル。 既定では、EDM アップロード エージェントは、データ ファイルが .csv 形式であると想定しています。
> [!TIP]
タブまたはパイプ (コンマではなく) で区切られたデータを含むファイルを使用するには、
/ColumnSeparatedパラメーターで "(Tab)" または "(|)" オプションを指定します。 例:EdmUploadAgent.exe /UploadData /DataStoreName PatientRecords /DataFile C:\Edm\Hash\PatientRecords.csv /HashLocation C:\Edm\Hash /Schema edm.xml /AllowedBadLinesPercentage 5 - 出力には、ハッシュ プロシージャを完了するときに作成されるおよび salt ファイルがあります。
-
edm.xml ファイルからのデータストア名。 この例では、
PatientRecordsを使用します。
セキュリティ グループとユーザー アカウントの要件
グローバル管理者として、サブスクリプションの適切なリンクを使用して管理センターに移動し、EDM_DataUploadersというセキュリティ グループを作成します。
EDM_DataUploaders セキュリティ グループに 1 人以上のユーザーを追加します。 (これらのユーザーは、機密情報のデータベースを管理するユーザーです)。
正確なデータ一致スキーマ
新しいエクスペリエンスに EDM スキーマと機密情報の種類ツールを使用した場合、またはクラシック エクスペリエンス用の EDM 機密情報の種類/ルール パッケージを使用した場合は、そのスキーマをダウンロードして機密情報ソース テーブルをハッシュする必要があります。 詳細については、「 XML 形式での EDM スキーマ ファイルのエクスポート」を参照してください。
この EDM スキーマをダウンロードするには、コマンド プロンプト ウィンドウを開き、次のコマンドを実行します。
EdmUploadAgent.exe /SaveSchema /DataStoreName <schema name> /OutputDir <path to output folder>
データの書式設定の要件
機密データをハッシュしてアップロードする前に、コンテンツの解析で問題が発生する可能性がある特殊文字をテーブル内で検索します。
次の構文で EDM アップロード エージェントを使用して、テーブルが適切な形式であることを検証できます。
EdmUploadAgent.exe /ValidateData /DataFile [data file] /Schema [schema file]
書式設定に関する一般的な問題
- 列の数が一致しません。 この問題は、EDM が列区切り記号として解釈するテーブル内の値内にコンマまたは引用符文字が存在することが原因である可能性があります。 値全体を囲む場合を除き、単一引用符と二重引用符を使用すると、ツールが個々の列の開始と終了を誤って識別する可能性があります。
- 値内の単一引用符文字またはコンマ: たとえば、人の名前に Tom O'Neil などの単一引用符が含まれている場合、または都市名が 's-Gravenhage などのアポストロフィで始まる場合は、機密情報テーブルを生成するために使用されるデータ エクスポート プロセスを変更し、そのような列を二重引用符で囲む必要があります。
- 値内の二重引用符文字: ベスト プラクティスは、テーブルにタブ区切りの形式を使用することです。 タブ区切りのテーブルは、このような問題の影響を受けにくいです。
データをハッシュしてアップロードする
organizationに適した EDM アップロード エージェントを選択します。
| EDM Upload Agent version | 説明 |
|---|---|
| 商用 + GCC | ほとんどの商用のお客様は、このオプションを使用する必要があります。 |
| GCC-High | このオプションは、特にセキュリティの高い政府機関のクラウド サブスクライバー向けです。 |
| DoD | このオプションは、米国国防総省クラウドのお客様向けです。 |
EDM アップロード エージェントの各バージョンでは、ハッシュされたデータにソルト値が自動的に追加されます。 選択した場合は、独自の塩の値を指定できます。
警告
独自の salt 値を使用する場合は、ユース ケースに EDM アップロード エージェントの標準バージョンを使用するために戻ることはできません。 1 台のコンピューターからハッシュしてアップロードする場合は、使用するコンピューターが Microsoft 365 テナントに直接接続できる必要があります。 さらに、クリア テキストの機密情報ソース テーブル ファイルは、ハッシュできるように、このコンピューター上に存在する必要があります。
機密情報ソース テーブルは、クリア テキストとして書式設定されます。 ハッシュ ステップに 1 台のコンピューターを使用し、アップロード 手順に別のコンピューターを使用すると、Microsoft 365 テナントに直接接続されたコンピューター上のクリア テキストでデータが公開されないように保護できます。
重要
この方法では 、両方のコンピューターに同じバージョンの EDM アップロード エージェントをインストールする必要があります。 その後、セキュリティで保護されたコンピューターから、Microsoft 365 テナントに直接接続できるコンピューターにハッシュ ファイルと salt ファイルをコピーできます。
セキュリティで保護された環境のコンピューターで、コマンド プロンプト ウィンドウで次のコマンドを実行します。
EdmUploadAgent.exe /CreateHash /DataFile [data file] /HashLocation [hash file location] /Schema [Schema file] /AllowedBadLinesPercentage [value]例えば:EdmUploadAgent.exe /CreateHash /DataFile C:\Edm\Data\PatientRecords.csv /HashLocation C:\Edm\Hash /Schema edm.xml /AllowedBadLinesPercentage 5/
Salt <saltvalue>オプションを指定しなかった場合、ハッシュされたファイルとこれらの拡張子を持つ salt ファイルが出力されます。- EdmHash
- EdmSalt
機密情報ソース テーブル (PatientRecords.csv など) を テナントにアップロードするために使用するコンピューターに、これらのファイルを安全にコピーします。
EDM アップロード エージェントを承認します。
- 管理者として、コマンド プロンプト ウィンドウを開きます。
- EDM アップロード エージェントがインストールされているディレクトリに切り替えます。 (推奨されるディレクトリは C:\EDM\Data です)。
- 次のコマンドを実行します。
EDM Upload Agent.exe /Authorize重要
EDM アップロード エージェントは、インストールされているフォルダーから実行する必要があり、データ ファイルへの完全なパスをシンディケートする必要があります。
職場または学校の Microsoft 365 アカウントでサインインします。 ( EDM_DataUploaders セキュリティ グループに追加されたアカウント)。 ユーザー アカウントからご利用のテナント情報を抽出し、接続を行います。
ハッシュされたデータをアップロードするには、コマンド プロンプト ウィンドウで次のコマンドを実行します。
EdmUploadAgent.exe /UploadHash /DataStoreName \<DataStoreName\> /HashFile \<HashedSourceFilePath\ /ColumnSeparator ["{Tab}"|"|"]例:
EdmUploadAgent.exe /UploadHash /DataStoreName PatientRecords /HashFile C:\\Edm\\Hash\\**PatientRecords.EdmHash**機密データのアップロードが成功したことを確認するには、コマンド プロンプト ウィンドウで次のコマンドを実行します。
EdmUploadAgent.exe /GetDataStoreアップロードが成功した場合は、データ ストアの一覧と、最後に更新された日時が表示されます。
特定のストアにアップロードされたすべてのデータを表示し、更新された時点でコマンド プロンプト ウィンドウで次のコマンドを実行します。
EdmUploadAgent.exe /GetSession /DataStoreName <DataStoreName>
ヒント
ハッシュとアップロードプロセスを初めて作成した後に自動化するには、「 正確なデータ一致の機密情報ソース テーブル ファイルを更新する」を参照してください。
管理者は、超えるトークンを列に切り捨てることで、複数トークンの制限を超えるアップロード値をアップロードできます。
- 構成: app.config を使用して制御
- 既定の動作: サポートは既定で無効になっています
管理者は、最小マルチトークン最適化機能を無効にすることができます。
- 構成: app.config を使用して制御
- 既定の動作: 最適化は既定で有効になっています。
EDM および 2 バイト文字セット言語
正確なデータ一致では、中国語、日本語、韓国語で使用される 2 バイト文字がサポートされています。 ただし、2 バイト文字としてエンコードされた裏付け証拠の文字列一致はサポートされていません。 また、このドキュメントで後述するように EDM のグローバリゼーションが有効になっていない限り、分類されたコンテンツで検出されたマルチトークン CJK テキストと一致しません。 いずれの場合も、SIT は、プライマリ フィールドと裏付け証拠フィールドの両方のマルチトークン テキストにマップする必要があります。
2 バイト文字の正確なデータ マッチングを呼び出すには、次の手順を実行します。
- 日本語の漢字など、2 バイト文字セット言語で一致するように構成された EDM 機密情報の種類 (SIT) を作成します。
- EDM アップロード エージェントのバージョン 17.01.0495.0 (またはそれ以降) をダウンロードしてインストールすることを確認します
-
EdmUploadAgent.exe.config ファイルのグローバリゼーション パラメーターを true に更新します。
<add key=" IsGlobalizationEnabled" value="true"> - 一致するデータを含むソース テーブルをハッシュしてアップロードします。
EDM 解析引用符のシナリオ
ParseQuotesExhaustiveScenariosByDefault は、データのアップロード中に使用できるオプションの構成属性です。 これは、コンマが埋め込まれたフィールドを含む CSV、一貫性のない単一/二重引用符、エスケープ文字など、ソース ファイルの複雑な書式設定によって発生するデータ インジェスト エラーを解決するように設計されています。 既定では、 ParseQuotesExhaustiveScenariosByDefault is falseの値です。 この設定を有効にするには、アップロード EdmUploadAgent.exe.config ファイルに ParseQuotesExhaustiveScenariosByDefault="true" を追加します。
二重引用符 ("): フィールドが二重引用符で始まる場合、パーサーは一致する終了二重引用符を検索します。 引用符内のコンマは、区切り記号ではなくテキストとして扱われます。 たとえば、入力行 (未加工の CSV) の値は "ID"、First Name、"Title、Role" で、解析された値 (結果) は
ID、First Name、Title, Roleになります。 二重引用符は、単一引用符よりも階層が高くなります。 二重引用符で囲まれた文字列内の単一引用符は、リテラル文字として扱われます。単一引用符 ('): フィールドが単一引用符で始まる場合、パーサーは二重引用符と同様に区切られた文字列として扱います。
引用符なし: フィールドが引用符で始まらない場合、データは次の区切り記号が見つかるまでそのまま取り込まれます。
次の手順
新しいエクスペリエンスの場合: 正確なデータ一致の機密情報の種類をテストする
クラシック エクスペリエンスの場合: 機密情報の種類/ルール パッケージに一致する正確なデータを作成する