使用 [要求屬性] 窗格設定 [設定檔請求] 頁面中選取的 行模式設定檔請求 選項。 數據行模式配置檔會報告一組涵蓋字串數據行中指定百分比值的正則表達式。 此配置檔可協助您識別數據中的問題,例如無效的字串,也可以建議未來可用來驗證新值的正則表達式。 例如,美國郵遞區編碼欄的模式配置檔可能會產生正則表示式 \d{5}-\d{4}、\d{5} 和 \d{9}。 如果您看到其他正則表示式,您的數據可能包含無效或格式不正確的值。
備註
本主題所述的選項會出現在數據分析工作編輯器的 [配置檔要求] 頁面上。 如需編輯器此頁面的詳細資訊,請參閱數據分析工作編輯器(配置檔要求頁面)。
如需如何使用數據分析工作的詳細資訊,請參閱 設定數據分析工作。 如需如何使用數據配置檔查看器來分析數據分析工作的輸出的詳細資訊,請參閱 數據配置檔查看器。
瞭解分隔符和符號的使用
在計算 數據行模式配置檔要求的模式之前,數據分析工作會將數據標記化。 也就是說,工作會將字串值分成較小的單位,稱為標記。 工作會根據您為 分隔符 和 Symbols 屬性指定的分隔符和符號,將字串分隔成標記:
分隔符 根據預設,分隔符清單包含下列字元:空格、水平製表元(\t)、換行(\n)、以及歸位字元(\r)。 您可以指定其他分隔符,但無法移除預設分隔符。
符號 根據預設, 符號 清單包含下列字元:
,.;:-"'~=&/@!?()<>[]{}|#*^%. For example, if the symbols are "()-'“, 值 ”(425) 123-4567“ 標記為 [”(“, ”425“, ”)“, ”123“, ”-“, ”4567“, ”)“。
字元不能同時是分隔符和符號。
所有分隔符都會標準化為單一空格,做為標記化程式的一部分,同時保留符號。
瞭解標籤表的使用
您可以選擇性地將相關令牌與單一標記分組,方法是將標籤和相關詞彙儲存在 SQL Server 資料庫中建立的特殊數據表中。 標記數據表必須有兩個字串數據行,一個名為 “Tag” ,另一個名為 “Term”。 這些欄位的類型可以是char、nchar、varchar或nvarchar,但不能是text或ntext。 您可以在單一數據表中結合多個標記和對應的詞彙。 欄位模式配置檔要求不可使用超過一個標記表。 您可以使用個別 ADO.NET 連接管理員來連線到標記數據表。 因此,標籤數據表可以位於不同的資料庫或與源數據不同的伺服器上。
例如,您可以使用單一標籤「Direction」,將可能出現在街道地址中的「East」、「West」、「North」和「South」的方向值分組。 下表是這類標記數據表的範例。
| 標記 | 術語 |
|---|---|
| 方向 | 東 |
| 方向 | 西 |
| 方向 | 北 |
| 方向 | 南 |
您可以使用另一個標記來分組不同詞彙,以指稱地址中「街道」的概念:
| 標記 | 術語 |
|---|---|
| 街道 | 街道 |
| 街道 | 大道 |
| 街道 | 地點 |
| 街道 | 方式 |
根據標記的這種組合,街道地址的結果模式可能會類似下列模式:
\d+\ LookupTag=Direction \d+\p{L}+\ LookupTag=Street
備註
使用標記數據表可降低數據分析工作的效能。 請勿使用超過10個標籤或每個標記超過100個字詞。
同一個詞彙可以屬於一個以上的標記。
請求屬性選項
針對 欄模式配置請求,請求屬性 窗格會顯示下列選項群組:
數據,其中包含 TableOrView 和 欄 選項
一般
選項
數據選項
ConnectionManager
選取使用 .NET Data Provider for SQL Server (SqlClient) 的現有 ADO.NET 連接管理員,以連線到包含要分析之數據表或檢視表的 SQL Server 資料庫。
TableOrView
選取包含要分析的欄位的現有的資料表或檢視。
如需詳細資訊,請參閱本主題中的
欄
選取要分析的現有欄位。 選取 (*) 以分析所有欄。
如需詳細資訊,請參閱本主題中的「欄選項」一節。
TableOrView 選項
架構
指定所選取資料表所屬的架構。 此選項是唯讀的。
表
顯示選取資料表的名稱。 此選項是唯讀的。
欄位選項
IsWildCard
指定是否已選取萬用字元(*)。 如果您已選取 (*) 來分析所有欄位,此選項會設定為 True。 如果您已選取要分析的個別數據行,則為 False 。 此選項是唯讀的。
ColumnName
顯示所選取資料行的名稱。 如果您已選取 \ 來分析所有資料行,此選項會是空白的。 此選項是唯讀的。
StringCompareOptions
這個選項不適用於資料行模式設定檔。
一般選項
RequestID
輸入描述性名稱,以識別此設定檔要求。 一般而言,您不需要變更自動產生的值。
選項
MaxNumberOfPatterns
指定您希望設定檔計算的樣式數目上限。 此選項的預設值為10。 最大值為 100。
期望的百分比資料覆蓋率
指定您想要計算模式涵蓋的數據百分比。 此選項的預設值為95(百分比)。
CaseSensitive
請指示這些模式是否應該區分大小寫。 此選項的預設值為 False。
分隔符
列出在標記文本時應視作單字之間空格的字元。 根據預設,分隔符清單包含下列字元:空格、水平製表符(\t)、換行(\n),以及回車(\r)。 您可以指定其他分隔符,但無法移除預設分隔符。
如需詳細資訊,請參閱本主題稍早的「了解分隔符號和符號的使用」。
符號
列出應該保留為模式一部分的符號。 範例可能包括日期的 “/” 、時間的 “:”,以及電子郵件位址的 “@”。 根據預設, 符號 清單包含下列字元: ,.;:-"'~=&/@!?()<>[]{}|#*^%'.
如需詳細資訊,請參閱本主題稍早的“了解分隔符號和符號的使用”。
TagTableConnectionManager
選取使用 .NET Data Provider for SQL Server (SqlClient) 連接到包含標記數據表的 SQL Server 資料庫的現有 ADO.NET 連接管理器。
如需詳細資訊,請參閱本主題稍早的「瞭解標籤表的使用」。
TagTableName
選取現有的標記數據表,其必須有兩個名為Tag和Term的字串數據行。
如需詳細資訊,請參閱本主題稍早的「瞭解標籤表的使用」。