上線至 Azure 數據總管時的常見案例是擷取歷程記錄數據,有時稱為回填。 此程式牽涉到將數據從現有的記憶體系統擷取到數據表,這是範圍集合。
使用 creationTime 擷取屬性 來分析歷史資料,將範圍生成時間設置為資料的生成時間。 使用建立時間做為擷取數據分割準則,可以根據 快取 和 保留 原則來讓數據老化,並讓時間篩選更有效率。
根據預設,範圍的建立時間會設定為您擷取資料的時間,這可能不會產生您預期的行為。 例如,假設您有一個數據表,其快取期間為30天,保留期間為兩年。 在一般流程中,擷取產生的數據會快取 30 天,然後移至冷記憶體。 兩年後,根據其建立時間,舊資料會逐天移除。 不過,如果您擷取兩年的歷史數據,根據預設,數據會標示為擷取數據的時間。 此行為可能不會產生預期的結果,因為:
- 所有數據都會落在快取中,並停留 30 天,使用比您預期更多的快取。
- 一次不會移除一天較舊的數據;因此,數據會保留在叢集中的時間超過必要時間,並在兩年後一次全部移除。
- 先前依來源系統中日期分組的數據,現在可能會 以相同範圍批處理 ,導致查詢效率不佳。
在本文中,您將瞭解如何分割歷程記錄數據:
在
creationTime擷取期間使用擷取屬性 (建議)可能的話,請使用擷取屬性來
creationTime擷取歷程記錄資料,這可讓您從檔案或 Blob 路徑擷取範圍來設定範圍的建立時間。 如果您的資料夾結構未使用建立日期模式,請重組檔案或 Blob 路徑以反映建立時間。 藉由使用此方法,數據會內嵌到具有正確建立時間的數據表中,並正確套用快取和保留期間。注意
根據預設,範圍會依建立時間進行分割(擷取),而且在大多數情況下,不需要設定數據分割原則。
使用擷取后的數據分割原則
如果您無法使用擷取屬性
creationTime,例如,如果您 使用 Azure Cosmos DB 連接器擷取資料 ,而您無法控制建立時間,或無法重組資料夾結構,您可以使用 資料分割原則來重新分割擷取資料表,以達到相同的效果。 不過,此方法可能需要一些嘗試和錯誤來優化原則屬性,而且效率低於使用creationTime擷取屬性。 只有在無法使用creationTime擷取屬性時,才使用此方法。
必要條件
- Microsoft帳戶或Microsoft Entra 使用者身分識別。 您不需要 Azure 訂用帳戶。
- Azure 資料總管叢集和資料庫。 建立叢集和資料庫。
- 記憶體帳戶。
- 如需在擷取期間使用
creationTime擷取屬性的建議方法, 請安裝 LightIngest。
內嵌歷程資料
在資料擷取過程中,使用creationTime 擷取屬性來分割歷史數據。 如果您無法使用此方法,則可以在檢入之後使用分區策略重新分割資料表。
LightIngest 很有助於將歷程記錄資料從現有的儲存體系統載入至 Azure 資料總管。 雖然您可以使用 命令列引數清單來建置自己的命令,但本文會示範如何透過擷取精靈自動產生此命令。 除了建立命令之外,您還可以使用此程序來建立新表格並建立結構描述對應。 此工具會從您的數據集推斷架構對應。
Destination
在 Azure 數據總管 Web UI 的左側功能表中,選取 [ 查詢]。
以滑鼠右鍵按一下您要擷取資料的資料庫,然後選取 LightIngest。
[內嵌數據] 視窗隨即開啟,並已選取 [目的地] 索引卷標。 [叢集] 和 [資料庫] 字段會自動填入。
選取目標資料表。 若要將資料擷取到新資料表中,請選取 [新增資料表],然後輸入資料表名稱。
注意
表格名稱最多可以有 1,024 個字元,包括空格、英數字元、連字號和底線。 但不支援特殊字元。
選取 [下一步:來源]。
來源
在 [選取來源] 下,選取 [新增 URL] 或 [選取容器]。
新增 URL 時,在 [連結至來源] 底下,指定容器的帳戶密鑰或 SAS URL。 您可以手動或自動建立 SAS URL。
從記憶體帳戶選取容器時,請從下拉功能表中選取您的 記憶體訂用帳戶、 記憶體帳戶和 容器 。
注意
擷取最多可支援 6GB 的檔案大小。 建議擷取介於 100 MB 到 1 GB 之間的檔案。
選取 [ 進階設定 ],以使用 LightIngest 定義擷取程式的其他設定。
在 [ 進階設定 ] 窗格中,根據下表定義 LightIngest 設定。
屬性 說明 建立時間模式 指定 以使用模式覆寫所建立範圍的擷取時間屬性,例如,根據容器的資料夾結構套用日期。 另 請參閱建立時間模式。 Blob 名稱模式 指定用來識別要匯入的檔案的模式。 內嵌符合指定容器中 Blob 名稱模式的所有檔案。 支援通配符。 我們建議以雙引弧括住。 標籤 指派給內嵌數據的標記。 標籤可以是任何字串。 限制檔案數量 指定要擷取的檔案數目。 擷取符合 Blob 名稱模式的第一個 n檔案,最多會擷取指定的數位。不要等待擷取完成 如果設定,則會將 Blob 排入佇列以擷取,而不監視擷取程式。 如果未設定,LightIngest 會繼續輪詢擷取狀態,直到擷取完成為止。 只顯示選取的專案 列出容器中的檔案,但不擷取它們。 選取 [ 完成] 以返回 [ 來源] 索引標籤 。
或者,選取 [ 檔案篩選 ] 來篩選數據,以只內嵌特定資料夾路徑或具有特定擴展名的檔案。
根據預設,會隨機選取容器中的其中一個檔案,並用來產生數據表的架構。
或者,在 結構描述定義檔案 下,指定要使用的檔案。
選取 下一步:結構描述 以檢視和編輯資料表資料行設定。
結構描述
架構索引標籤提供數據的預覽。
若要產生 LightIngest 命令,請選取 [下一步:開始擷取]。
或者:
- 從下拉功能表中選取所需的格式,以變更自動推斷 的數據格式 。
- 變更自動推斷的 對應名稱。 您可以使用英數字元及底線。 不支援空格、特殊字元和連字號。
- 使用現有的數據表時,如果數據表架構符合選取的格式,您可以 保留目前的數據表架構 。
- 選取命令檢視器以檢視和複製從輸入產生的自動命令。
- 編輯資料行。 在 [部分數據預覽] 下,選取數據行下拉功能表來改變數據表的各個層面。
您可以在資料表中進行的變更取決於下列參數:
- 資料表類型是新的或現有的
- 對應類型是新的或現有的
| 資料表類型 | 對應類型 | 可用的調整 |
|---|---|---|
| 新增資料表 | 新的對應 | 變更數據類型、重新命名數據行、新增資料行、刪除資料行、更新資料行、升序、排序遞減 |
| 現有的資料表 | 新的對應 | 新的數據行(然後您可以變更數據類型、重新命名和更新), 更新數據行、升序、遞減排序 |
| 現有的對應 | 遞增排序、遞減排序 |
注意
新增資料行或更新資料行時,您可以變更對應轉換。 如需詳細資訊,請參閱 對應轉換
擷取
當表格、對應和 LightIngest 指令顯示綠色核取記號時,請選取 [產生的指令] 方塊右上方的 複製 圖示,以複製產生的 LightIngest 指令。
注意
如有需要,您可以選取 [下載 LightIngest] 來下載 LightIngest 工具。
若要完成擷取程式,您必須 使用複製的命令執行 LightIngest 。