您可以設定每個電子檔探索案例的設定,以控制下列功能:
- 近似重複項和電子郵件對話
- 主題
- 自動產生檢閱集查詢
- 忽略文字
- 光學字元辨識
提示
開始使用 Microsoft Security Copilot,探索使用 AI 的力量更聰明、更快速地工作的新方法。 深入了解 Microsoft Purview 中的 Microsoft Security Copilot。
設定案例的分析設定
若要設定案例的搜尋和分析設定:
- 移至 Microsoft Purview 入口網站 ,並使用獲指派電子檔探索許可權之使用者帳戶認證登入。
- 選取電子檔探索解決方案卡,然後在左側導覽中選取 [案例]。
- 選取案例,然後選取 案例設定。
- 在 案例設定上,選取 搜尋 & 分析。
- 案例 搜尋 & 分析 頁面隨即顯示。 這些設定會套用至案例中的所有檢閱集。
- 選取適用的搜尋和分析選項之後,選取 [儲存]。
下列各節說明您可以為案例設定的分析設定。
近似重複項和電子郵件對話
在此部分中,設定重複偵測、接近重複偵測和電子郵件執行緒的參數。
- 近乎重複/電子郵件線程: 當您開啟此設定時,當您對檢閱集中的數據執行分析時,工作流程會包含重複偵測、接近重複偵測和電子郵件線程。
- 文件和電子郵件相似性閾值: 如果兩個文件的相似性層次超過臨界值,則兩個文件都位於相同的近重複集中。
- 最小/最大字數: 這些設定指定僅對至少具有最小字數和最多最大字數的文件執行近重複和電子郵件線程分析。
近似重複項偵測
考慮要檢閱的一組文件,其中文件子集使用相同的範本,而且大部分相同的樣板語言,但有一些差異。 如果審閱者能夠識別這個子集,徹底審查其中一個子集,並審查其餘部分的差異,他們就不會錯過任何獨特的信息,同時只需從頭到尾閱讀所有文檔所需時間的一小部分。 近似重複項偵測會將文字類似的文件分組在一起,以協助您提升檢閱程序的效率。
當您執行接近重複偵測時,系統會剖析每個包含文字的檔。 然後將每份文件兩兩比較,以判斷其相似性是否大於所設定的閾值。 如果是,系統會將文件分組在一起。 一旦所有文件都經過比較和分組,系統會將每個群組中的文件標記為「樞紐」;在檢閱文件時,您可以先檢閱樞紐,然後檢閱相同「近乎重複」集中的其他文件,並著重於樞紐與正在檢閱的文件之間的差異。
電子郵件執行緒
考慮一個持續一段時間的電子郵件對話。 在大多數情況下,電子郵件線程中的最後一封郵件包含所有先前郵件的內容。 因此,檢閱最後一則訊息可提供執行程中發生之交談的完整內容。 電子郵件執行緒可識別這類郵件,讓檢閱者可以檢閱所收集文件的一小部分,卻又不會漏掉任何細節。
電子檔張中的 Email 線程是組織屬於同一對話一部分的一系列相關電子郵件的過程。 此序列包括初始電子郵件以及連結至原始電子郵件的所有後續回覆和轉寄。 透過將這些電子郵件分組到線程中,審閱者可以看到對話的整個上下文,從而更容易理解溝通流程。 這種方法可以幫助審閱者更有效地識別相關信息,並且無需單獨審查每封電子郵件。 分析程式中包含的Email訊息會填入下列中繼資料:
- 包含:此欄位可識別電子郵件是否包含討論串中的所有唯一內容,包括所有先前的回覆。 它確保只審查線程中最全面的電子郵件,這對於了解對話的完整上下文至關重要,而無需查看每個單獨的回复。
- 具有唯一附件:此欄位會標記包含相同線程內其他電子郵件中找不到的附件的電子郵件。 即使電子郵件內容重複,唯一的附件也會被標記,以確保所有相關文件都經過審查。 這方面在法律審查過程中非常重要,以確保不會遺漏任何獨特的證據,即使電子郵件正文本身不是唯一的。
它與 Outlook 中的交談差異在於?
乍一看,此過程聽起來類似於 Outlook 中的對話分組。 不過,有一些重要的區別。 考慮一個分叉成兩個對話的電子郵件對話。 例如,有人回覆的電子郵件不是對話中最新的電子郵件,因此對話中的最後兩封電子郵件都有獨特的內容。
Outlook 仍會將這些電子郵件群組成單一交談。 只閱讀最後一封電子郵件可能會錯過倒數第二封電子郵件的上下文,該電子郵件也包含獨特的內容。 由於電子郵件線程會將每封電子郵件解析為單獨的元件並進行比較,因此電子郵件線程會將最後兩封電子郵件標記為包含性,確保您只要閱讀所有標記為包含性的電子郵件,就不會錯過任何上下文。
讓我們也考慮一個包含多個回覆的電子郵件線程,其中某些回覆包含修改引用內容的內聯回應。 如果內嵌回覆變更了先前電子郵件的一部分,則最新的回覆不會完全包含先前電子郵件的內容。 最新的回覆和具有獨特內容的較早電子郵件都會標示為包含。 這種方法可確保保留內聯回覆中的任何唯一資訊,不會被忽略。
佈景主題
在本節中,您可以為主題設定以下參數:
- 主題: 開啟時,當您對檢閱集中的資料執行分析時,工作流程會執行主題叢集。
- 主題數量上限: 指定當您對檢閱集中的數據執行分析時,工作流程可以產生的主題數目上限。
- 在主題中包含數字:開啟時,工作流程會在產生主題時包含識別主題的數字。
- 動態調整主題數量上限: 在某些情況下,檢閱集中可能沒有足夠的檔來產生所需的主題數目。 若啟用此設定,電子文件探索會動態調整主題數目上限,而不是嘗試強制執行主題數目上限。
當您建立新文件時,通常會從您想要在文件中傳達的一或多個想法開始,然後使用與這些想法相符的字詞來撰寫文件。 想法越普遍,與該想法相關的字詞越頻繁。 此方法也符合讀者使用文件的方式。 閱讀文檔中要了解的重要事情是文檔試圖傳達的主要思想。 這種理解還包括哪些想法出現在哪裡以及想法之間的關係是什麼。
此程式可以延伸至電子檔探索檢閱者想要取用案例中一組檔的方式。 他們想要查看檢閱集中有哪些想法,以及哪些檔會討論這些想法。 如果他們找到感興趣的特定文件,他們希望能夠看到討論類似想法的文件。
電子檔探索中的 主題 功能會嘗試藉由分析檢閱集中討論的 主題 ,並將主題指派給檢閱集中的檔,以模擬人類如何推理檔。 在電子檔探索中,主題會更進一步,並識別每個檢閱集和檔中 的主要主題 。 主要主題是文件中最常出現的主題。
主題如何運作?
[主題] 功能會分析檢閱集中具有文字的檔,以剖解析檢閱集中所有檔中出現的常見主題。 電子文件探索會對出現這些主題的文件指派這些主題。 其也會使用文件中用來代表主題的字詞來標記每個主題。 因為檔可以包含各種類型的主題,所以電子檔探索通常會將多個主題指派給檢閱集和檔。 此作業稱為 「主題」清單。 在檢閱集或檔中最醒目顯示的主題會指定為其 主要主題。
設定佈景主題
案例支援主題,並套用至其中的所有檢閱集。 您可以在建立新案例時設定主題的設定,也可以更新現有案例的主題設定。
若要在案例中配置主題,請完成下列步驟:
- 移至 Microsoft Purview 入口網站 ,並使用獲指派電子檔探索許可權之使用者帳戶認證登入。
- 選取 電子檔探索 解決方案卡,然後在左側導覽中選取 [案例 (預覽) ]。
- 選取案例,然後選取 案例設定。
- 在 案例設定上,選取 搜尋 & 分析。
- 選取下列主題選項(視情況而定):
- 主題數量上限: 指定當您對案例中包含的檢閱集中的數據執行分析時,工作流程可以產生的主題數目上限。 如需限制的詳細資訊,請參閱 電子檔探索中的限制。
- 在主題中包含數字:產生主題時,會包含識別主題的數字。
- 動態調整主題數量上限: 在某些情況下,檢閱集中可能沒有足夠的檔來產生案例所需的主題數目。 啟用此設定時,會動態調整主題數目上限,而不是嘗試強制執行主題數目上限。
- 如果您需要排除與主題相關聯的關鍵字,請在 「忽略文字」 欄位中輸入所需的文字或規則運算式。 在 套用至 欄位中,選取 主題 以將文字或規則運算式套用至所有主題。
- 選取 [儲存]。
建立新的案例之後,當您將檢閱集新增至案例時,工作流程會自動對數據執行分析。 工作流程會在分析處理過程中產生檢閱集的主題。
檢閱集查詢
如果您選取 [ 分析之後自動建立 [ 以供檢閱 ] 已儲存的搜尋複選框,電子檔探索會自動產生名為 [ 供檢閱 ] 的檢閱集查詢。
此查詢會從檢閱集中篩選出重複的專案,因此您可以快速檢閱檢閱集中的唯一專案。 只有在對案例中的檢閱集執行分析時,才會建立此查詢。 如需檢閱集查詢的詳細資訊,請參閱 查詢檢閱集中的資料。
忽略文字
某些文字可能會降低分析的品質,例如冗長的免責聲明,無論電子郵件內容如何,都會新增至電子郵件訊息中。 如果您知道應忽略的文字,您可以指定文字字串和分析功能,以將其從分析中排除, (近重複、電子郵件線程、主題和應排除文字的相關性) 。 也支援使用正規表示式 (RegEx) 來處理忽略的文字。
光學字元辨識 (OCR)
當您開啟此設定時,OCR 處理會針對影像檔案執行。 將 OCR 套用至影像檔案時,這些檔案中的文字會在搜尋結果中顯示。 如果您在搜尋查詢) 中選取此選項,則只有在進階索引 (期間處理的項目上才會執行 OCR 。
例如,如果在進階索引期間處理部分索引或有其他索引錯誤的大型 PDF 檔案,則會套用 OCR。 OCR 處理只會發生在進階索引程序期間重新編製索引的檔案上。 這表示可能會有內容新增至檢閱集的情況,但不會針對 OCR 處理某些電子郵件附件,因為這些檔案不會在進階索引期間處理。
將數據新增至檢閱集之後,您可以檢閱、搜尋、標記和分析影像文字。 您可以在檢閱集中所選影像檔案的文字檢視器中檢視擷取的文字。 如需詳細資訊,請參閱: