共用方式為


企業網站內部部署 Microsoft 365 Copilot 連接器

企業網站內部部署 Microsoft 365 Copilot 連接器可讓您的組織從 公司擁有的網站編製網頁和內容的索引。 從網站設定連接器和索引內容之後,使用者可以在 Microsoft 搜尋和 Microsoft 365 Copilot 中搜尋該內容。

本文適用於 Microsoft 365 系統管理員或設定、執行和監視企業網站內部部署 Microsoft 365 Copilot 連接器的任何人。

功能

  • 從內部部署或私有雲託管的網站索引網頁。
  • 在單個連接中索引多達 50 個網站。
  • 使用排除規則從編目中排除網頁。
  • 使用 Copilot 中的語意搜尋 ,讓使用者能夠尋找相關內容。

這些是支援的檔案類型。

副檔名 檔案類型 描述
.pdf PDF 可攜式文件格式
.odt OpenDocument 文字 OpenDocument 文字文件
.ods OpenDocument 試算表 OpenDocument 試算表
.odp 域名 OpenDocument 簡報 OpenDocument 簡報
.odg 域名 OpenDocument 圖形 OpenDocument 圖形
.xls Excel (舊) Excel 電子表格 (舊格式)
.xlsx Excel (新) Excel 電子表格 (新格式)
.ppt PowerPoint (舊) PowerPoint 簡報 (舊格式)
.pptx PowerPoint (新) PowerPoint 簡報 (新格式)
.doc Word (老) Word文件 (舊格式)
.docx Word (新) Word文件 (新格式)
.csv CSV Comma-Separated 價值觀
.txt 純文字 純文字檔案
.xml XML 可延伸標記語言
.md 域名 降價 Markdown 檔案
.rtf RTF 格式 RTF 格式
.tsv 域名 定位點分隔值 Tab-Separated 價值觀
.gif GIF 圖形交換格式
.jpeg JPEG JPEG 影像
.jpg JPG格式 JPEG 影像
.png PNG 可攜式網路圖形
.mp3 MP3的 MPEG 音訊層 III
.wav WAV的 波形音訊檔案格式
.艾夫 AIFF的 音訊交換檔案格式
.flac FLAC 免費無損音訊編解碼器
.亞太區 加氣混凝土 進階音訊編碼
.ALAC 域名 ALAC Apple 無損音頻編解碼器
.wma WMA (有損) Windows Media 音訊 (有損)
.wma WMA (無損) Windows Media 音訊 (無損)
.ogg 奧格 Ogg Vorbis 音頻格式
.PCM 域名 PCM的 Pulse-Code 調製音頻
.mp4 MP4的 MPEG-4 視頻文件
.mkv 域名 MKV的 Matroska 視頻文件
.avi AVI 音訊視訊交錯
.wmv WMV的 Windows Media 視訊
.mov 移動 蘋果 QuickTime 電影
.flv FLV Flash 視訊格式
.avchd 域名 AVCHD 高級視頻編碼高清
.webm 域名 WebM 網路媒體檔案
.mpeg MPEG-2 動態圖片專家組形式
.hevc 域名 HEVC/H.265 型 高效率視訊編碼

這些是支援的 MIME 類型。

MIME 類型 描述
text/html 超文本標記語言 (HTML) 用於格式化網頁結構。
文字/webviewhtml 用於在 WebView 控制項中轉譯的 Web 內容的 MIME 類型。
文字/x-server-parsed-html 伺服器解析的HTML文檔,常用於伺服器端包括 (SSI) 。

限制

  • 不支援 SAML、JWT 權杖、Forms 型驗證等驗證機制。

必要條件

  • 您必須是組織 Microsoft 365 租使用者的 搜尋系統管理員
  • 安裝 Microsoft Graph 連接器代理程式:若要存取內部部署網站,您必須安裝並設定 Microsoft Graph 連接器代理程式下載代理程式安裝程式 ,然後按照安裝指示進行設定。 安裝之後,請確定代理程式已正確設定,以將您的內部部署網站與連接器連線。
  • 網站 URL:若要連線到您的網站內容,您需要網站的 URL。 您可以在單一連線中索引多個網站 (最多 50 個) 。
  • 服務帳戶 (選用) :只有當您的網站需要驗證時,才需要服務帳戶。 公用網站不需要驗證,而且可以直接編目。 對於需要身份驗證的網站,建議擁有一個專用帳戶來驗證和抓取內容。

注意事項

如果您之前已安裝GCA,請確保它已更新至3.1.10.0版或更高版本。

快速入門

螢幕擷取畫面,顯示企業網站內部部署 Microsoft 365 Copilot 連接器的連線建立畫面。

顯示名稱

顯示名稱用於識別 Copilot 中的每個引文,幫助使用者輕鬆識別關聯的檔案或項目。 顯示名稱也表示受信任的內容。 顯示名稱也用作 內容來源過濾器。 此欄位存在預設值,但您可以將其自訂為組織中使用者可辨識的名稱。

將網站網址新增至索引

指定您要檢索的網站根目錄。 企業網站內部部署 Copilot 連接器會使用此 URL 作為起點,並遵循此 URL 中的所有連結進行編目。 您可以在單一連線中為最多 50 個不同的網站 URL 建立索引。

連接器只會編目根 URL 網域中的網頁,不支援編目網域外 URL。 重新導向僅支援在同一網域內。 如果要檢索的網頁中有重定向,您可以直接將重定向的 URL 添加到要檢索的 URL 列表中。

使用網站地圖進行檢索

選取時,連接器只會編目 Sitemap 中列出的 URL。 此選項也可讓您在稍後的步驟中設定增量編目。 如果未選取或找不到網站地圖,連接器會對網站根 URL 上找到的所有連結進行深度編目。

選取此選項時,編目程式會執行下列步驟:

a. 編目程式會在根位置尋找 robots.txt 檔案。 例如,如果您提供的 URL 是 https://www.contoso.com,則編目器會在 中 https://www.contoso.com/robots.txt尋找 robots.txt 檔案。

b. 找到 robots.txt 檔案後,爬蟲會在 robots.txt 檔案中找到網站地圖連結。

c. 然後,編目器會編目 Sitemap 檔案中列出的所有網頁。

d. 如果上述任何步驟失敗,爬蟲會對網站進行深度爬蟲,而不會擲回任何錯誤。

僅索引指定子目錄下的頁面

網站連接器提供選項,可僅為指定子目錄下的網頁編製索引。

  • 如果 未核取此選項,連接器一律會從 URL 的根目錄開始編目。 例如,如果您提供的URL是 https://www.contoso.com/electronics,則聯結器會從 https://www.contoso.com開始編目。
  • 此選項時,連接器會從確切的輸入 URL 開始編目。 例如,如果您提供的URL是 https://www.contoso.com/electronics,則聯結器會從 https://www.contoso.com/electronics開始編目。

圖形連接器代理程式

Graph 連接器代理程式可作為網站執行個體與連接器 API 之間的橋樑,以實現安全且有效率的資料傳輸。 在此步驟中,選取您要用於連接器的代理程式組態。

如果您尚未安裝 Microsoft Graph 連接器代理程式 ,您可以 下載代理程式安裝程式 ,並遵循安裝指示進行設定。 安裝之後,請確定代理程式已正確設定,以將您的內部部署網站與連接器連線。

提供驗證類型

您選擇的驗證方法適用於您提供的所有網站,以在連線中編製索引。 若要驗證和同步網站的內容,請選擇 六種 支援的方法之一:

a.
如果您的網站可公開存取,而不需要任何驗證要求,請選取此選項。

b. 基本驗證
輸入您帳戶的使用者名稱和密碼,以使用基本身份驗證進行身份驗證。

提示

嘗試使用者名稱的多種排列進行驗證。 範例 -

  • 用戶名
  • username@domain.com
  • 網域/使用者名稱

c. Windows
Windows 驗證需要使用者名稱、網域和密碼。 您需要在 「使用者名稱」 欄位中提供使用者名稱和網域,格式為下列任一格式:domain\username 或 username@domain。 必須在 密碼 欄位中輸入密碼。 對於 Windows 驗證,提供的使用者名稱也必須是安裝代理程式之伺服器上的管理員。

d. 網站管理員
SiteMinder 身份驗證需要格式正確的 URL、 https://custom_siteminder_hostname/smapi/rest/createsmsession用戶名和密碼。

e. Microsoft Entra OAuth 2.0 用戶端認證
具有 Microsoft Entra ID 的 OAuth 2.0 需要資源識別碼、用戶端識別碼和用戶端密碼。

資源識別碼、用戶端識別碼和用戶端密碼值取決於您如何為網站設定 Microsoft Entra ID 型驗證。 兩個指定選項之一可能適合您的網站:

  1. 如果您同時使用 Microsoft Entra 應用程式作為身分識別提供者和用戶端應用程式來存取網站,則用戶端識別碼和資源識別碼是此單一應用程式的應用程式識別碼,而用戶端密碼是您在此應用程式中產生的秘密。

    設定用戶端應用程式之後,請務必移至應用程式的 [憑證] & [密碼 ] 區段來建立新的用戶端密碼。 複製頁面中顯示的用戶端密碼值,因為它不會再次顯示。

    在下列螢幕擷取畫面中,您可以看到取得用戶端識別碼和用戶端密碼的步驟,以及設定應用程式 (如果您是自行建立應用程式)。

    • 品牌區段中的設定檢視:

    • 檢視驗證區段中的設定:

      注意事項

      您不需要在網站上具有上述指定的重新導向 URI 路由。 只有當您使用 Azure 在網站中傳送的使用者權杖進行驗證時,您才需要有路由。

    • Essentials 區段上檢視用戶端 ID:

    • 憑證 & 密碼 區段上檢視用戶端密碼:

  2. 如果您使用第一個應用程式 (應用程式) 作為網站的身分識別提供者作為資源,而第二個應用程式 (不同的應用程式) 存取網站,則用戶端 ID 是第二個應用程式的應用程式 ID,而用戶端密碼是在第二個應用程式中設定的密碼。 不過,資源識別碼是您第一個應用程式的識別碼。

    注意事項

    如需將用戶端應用程式設定為身分識別提供者的步驟,請參閱快速入門:向 Microsoft 身分識別平台註冊應用程式,以及設定您的 App Service 或 Azure Functions 應用程式以使用 Microsoft Entra 登入

    您不需要在此應用程式中設定用戶端密碼,但您必須在 [應用程式角色 ] 區段中新增應用程式角色,稍後會指派給您的用戶端應用程式。 請參閱影像,瞭解如何新增應用程式角色。

    • 建立新的應用程式角色:

    • 編輯新的應用程式角色:

      設定資源應用程式之後,請建立用戶端應用程式,並在用戶端應用程式的 API 權限中新增上述設定的應用程式角色,以授與其存取資源應用程式的權限。

      注意事項

      若要查看如何將許可權授與用戶端應用程式,請參閱 快速入門:設定用戶端應用程式以存取 Web API

    下列螢幕擷取畫面顯示授與用戶端應用程式許可權的區段。

    • 新增權限:

    • 選取權限:

    • 新增權限:

    指派權限之後,您必須移至 [憑證 & 密碼] 區段,為此應用程式建立新的用戶端密碼。 複製頁面上顯示的用戶端密碼值,因為它不會再次顯示。 使用此應用程式的應用程式識別碼作為用戶端識別碼,使用此應用程式的密碼作為用戶端密碼,並將第一個應用程式的應用程式識別碼作為資源識別碼。

f. Microsoft Entra SAML 2.0

注意事項

此驗證方法為 預覽版。 請提出支援票證,以要求存取此驗證方法。

此驗證方法是表單型驗證的實作。 此方法嚴格假設網站會向使用者挑戰 Microsoft 登入頁面,即 https://login.microsoftonline.com

必要條件:

  1. 下載 Chromium 瀏覽器
  2. 將檔案解壓縮至路徑: C:\Windows\ServiceProfiles\GcaHostService\AppData\Local\Microsoft\GraphConnectorAgent\Tools\CustomPlaywright。 最後,您應該在以下路徑中擁有 chrome.exe 檔案: C:\Windows\ServiceProfiles\GcaHostService\AppData\Local\Microsoft\GraphConnectorAgent\Tools\CustomPlaywright\chromium-1169\chrome-win\chrome.exe
  3. 您可以在解壓縮後刪除 zip 文件

在系統管理中心選取此驗證方法之後,請提供使用者識別碼和密碼,就像您以使用者身分在 Microsoft 登入畫面中輸入一樣。

重要事項

此驗證方法需要關閉使用者帳戶的 MFA。

4. 向有限的受眾推出

如果您想要在 Copilot 和其他搜尋介面中驗證此連線,請先將此連線部署至有限的使用者群,再將推出範圍擴大到更廣泛的物件。 若要進一步瞭解有限推出,請參閱 分階段推出

此時,您已準備好為內部部署網站建立連線。 您可以按一下 建立 以發佈您的連線,並從您的網站索引網頁。

對於其他設置,例如 訪問權限數據包含規則結構描述爬蟲頻率等,我們根據最適合網站的設置設置了默認值。 您可以看到以下預設值:

使用者 描述
存取權限 組織中的每個人都會看到此內容
內容 描述
要排除的網址
管理屬性 若要檢查預設屬性及其結構描述,請參閱 內容
同步處理 描述
增量編目 頻率:每 15 分鐘一次 (僅支援網站地圖抓取)
完整爬蟲 頻率:每天

如果您想編輯這些值中的任何一個,則需要選擇「自訂設定」選項。

自訂設定

自訂設定適用於想要編輯上表所列設定預設值的管理員。 單擊“自定義設置”選項後,您會看到另外三個選項卡 - 用戶、內容和同步。

使用者

顯示 [使用者] 索引標籤的螢幕擷取畫面

存取權限

企業網站內部部署連接器支援僅對 所有人 可見的搜尋權限。 編製索引的資料會顯示在組織中所有使用者的搜尋結果中。

內容

顯示 [內容] 索引標籤的螢幕擷取畫面,您可以在其中設定排除規則和屬性

新增要排除 (的網址選用檢索限制)

有兩種方法可以防止頁面被編目:不允許它們出現在 robots.txt 檔案中,或將它們新增至排除清單。

  1. 支援 robots.txt

    連接器會檢查根網站是否有 robots.txt 檔案。 如果存在,它會遵循並尊重該檔案中找到的指示。 如果您不想讓連接器編目您網站上的特定頁面或目錄,請在 robots.txt 檔案的「不允許」宣告中包含這些頁面或目錄。

  2. 新增要排除的網址

    您可以選擇性地建立 排除清單 ,以排除某些內容敏感或不值得編目時的檢索。 若要建立排除清單,請瀏覽根 URL。 您可以在設定程序期間將排除的 URL 新增至清單。

網站設定

連接器支援兩個選項來自訂編目程式行為。

  1. 索引在其「meta」標籤或 X-Robots-Tag HTTP 回應標頭中包含「noindex」指令的頁面:選取此選項會強制編目器編製這些頁面的索引,並覆寫預設編目器行為。
  2. 忽略 “robots.txt” 檔案中指定的 '允許' 和 '不允許' 指示詞:選取此選項會強制編目器忽略檔案中的編目指示詞 robots.txt。

動態網站設定

如果您的網站包含動態內容,例如位於 Confluence 或 Unily 等內容管理系統中的網頁,您可以啟用動態編目器。 若要開啟它,請選取 [啟用動態網站的編目]。 編目器會等待動態內容轉譯,然後再開始編目。

除了核取方塊之外,還有三個可選欄位可用:

  1. DOM 就緒:輸入爬蟲應使用的 DOM 元素,作為內容已完全渲染且應開始爬蟲的訊號。
  2. 要新增的標頭:指定爬蟲在傳送該特定 Web URL 時應包含哪些 HTTP 標頭。 您可以為不同的網站設置多個標題。 我們建議包含驗證權杖值。
  3. 要略過的標頭:指定應從動態爬蟲請求中排除的任何不必要的標頭。

標頭應以下列語法新增: {"Root-URL":["TKey=TValue"]}

範例:{"https://www.contoso.com":["Token=Value","Type=Value2"]}

管理屬性

在這裡,您可以從網站新增或移除可用的屬性、將結構描述指派給屬性 (定義屬性是否可搜尋、可查詢、可擷取或可精簡) 、變更語意標籤,以及將別名新增至屬性。 下面列出預設選取的內容。

Source 屬性 標籤 描述 Schema
Authors Authors 參與資料來源中項目的人員 查詢、檢索
內容 內容 網頁中的所有文字內容 搜尋
CreatedDateTime (建立日期時間) 建立日期時間 在資料來源中建立項目的資料和時間 查詢、檢索
描述 檢索、搜尋
FileType 副檔名 檢索內容的副檔名 查詢、精煉、檢索
圖示網址 圖示網址 網頁的圖示網址 挽回
最後修改者 上次修改者 上次修改資料來源中項目的人員 查詢、檢索
LastModifiedDateTime 上次修改日期時間 上次在資料來源中修改項目的日期和時間。 查詢、檢索
標題 標題 您想要在 Copilot 和其他搜尋體驗中顯示的專案標題 檢索、搜尋
URL URL 資料來源中項目的目標 URL 挽回

企業網站內部部署 Microsoft 365 Copilot 連接器支援兩種類型的來源屬性:

  1. 元標記

    連接器會擷取根 URL 可能具有的任何中繼標記,並顯示它們。 您可以選取要包含哪些標籤以進行編目。 選取的標籤會針對所有提供的 URL (如果有的話) 編製索引。

    顯示具有中繼標籤面板的內容標籤的螢幕擷取畫面

    選取的中繼標記可用來建立自訂屬性。 此外,在結構描述頁面上,您可以進一步管理它們 (可查詢、可搜尋、可擷取、可精簡) 。

  2. 自訂屬性設定

    您可以為選取的中繼標記或連接器的預設屬性建立自訂屬性,以擴充索引資料。

    螢幕擷取畫面,顯示具有自訂屬性面板的 [內容] 索引標籤

    若要新增自訂屬性:

    1. 輸入屬性名稱。 此名稱會出現在此聯結器的搜尋結果中。
    2. 對於值,請選取 [靜態] 或 [字串/規則運算式對應]。 靜態值會包含在此連接器的所有搜尋結果中。 字串/正則運算式值會根據您新增的規則而有所不同。
    3. 如果您選取了靜態值,請輸入您要顯示的值。
    4. 如果您選取了 String/rRegex 值:
      • 新增運算式 區段的 屬性 清單中,從清單中選取預設屬性或中繼標記。 針對 Sample value (範例值),輸入字串來代表可能出現的值類型。 當您預覽規則時,會使用此範例。 針對 [運算式],輸入規則運算式,以定義應出現在搜尋結果中的屬性值部分。 您最多可以新增三個運算式。
      • [建立公式 ] 區段中,輸入公式以合併從運算式擷取的值。

若要深入瞭解規則運算式,請參閱 .NET 規則運算式, 或在網路上搜尋規則運算式參考指南。

同步處理

螢幕擷取畫面顯示 [同步處理] 索引標籤,您可以在其中設定編目頻率。

重新整理間隔會決定資料在資料來源與 Microsoft Copilot 連接器索引之間同步處理的頻率。 有兩種類型的重新整理間隔 - 完整編目和累加編目。 如需詳細資訊,請參閱 重新整理設定

您可以視需要從這裡變更重新整理間隔的預設值。

注意事項

只有在選取 Sitemap 編目選項時,才支援增量編目。

疑難排解

發佈連線之後,您可以在系統管理中心的[連接器] 區段中檢閱狀態。 若要瞭解如何進行更新和刪除,請參閱 管理您的連接器。 您可以在這裡找到常見問題的疑難排解步驟。

如果您有問題或想要提供意見反應,請連絡 Microsoft Graph |支持