共用方式為


詞彙提取轉換

「詞彙擷取」轉換會從轉換輸入數據行中的文字擷取字詞,然後將字詞寫入轉換輸出數據行。 轉換只適用於英文文字,並且會使用自己的英文字典和英文語言資訊。

您可以使用「詞彙擷取」轉換來探索數據集的內容。 例如,包含電子郵件訊息的文字可能會提供產品的相關實用意見反應,讓您可以使用「詞彙擷取」轉換來擷取訊息中討論的主題,以分析意見反應的方式。

擷取的詞彙和數據類型

詞彙擷取轉換只能擷取名詞、只擷取名詞組,或是名詞和名詞階段。 名詞是單一名詞;名詞片組至少是兩個字,其中一個是名詞,另一個是名詞或形容詞。 例如,如果轉換使用僅名詞選項,它會擷取 自行車風景等字詞;如果轉換使用名詞片語選項,它會擷取 新的藍色自行車自行車頭盔盒裝自行車等字詞。

不會擷取冠詞和代名詞。 例如,「詞彙擷取」轉換會從文字中擷取出「自行車」這個詞彙,例如:自行車我的自行車該自行車

「詞彙擷取」轉換會為其擷取的每個字詞產生分數。 分數可以是TFIDF值或原始頻率,這表示正規化字詞出現在輸入中的次數。 不論是哪一種情況,分數都是以大於0的實際數位表示。 例如,TFIDF 分數的值可能是 0.5,而頻率會是 1.0 或 2.0 之類的值。

詞彙擷取轉換的輸出只包含兩個數據行。 一個數據行包含擷取的字詞,另一個數據行則包含分數。 資料列的預設名稱為 TermScore。 由於輸入中的文字數據行可能包含多個字詞,字詞擷取轉換的輸出通常比輸入的數據列多。

如果擷取的字詞寫入一個數據表,它們可以被其他查詢轉換(例如「詞彙查詢」、「模糊查詢」和「資料查詢」轉換)使用。

「詞彙擷取」轉換只能在具有DT_WSTR或DT_NTEXT數據類型的資料欄位中使用文本。 如果數據行包含文字,但沒有其中一種數據類型,則數據轉換可用來將具有DT_WSTR或DT_NTEXT數據類型的數據行加入數據流,並將數據行值複製到新的數據行。 然後,數據轉換轉換的輸出可以做為詞彙擷取轉換的輸入。 如需詳細資訊,請參閱 Data Conversion Transformation

排除字詞

或者,「詞彙擷取」轉換可以參考包含排除詞彙之數據表中的數據行,這表示當轉換從數據集擷取詞彙時,應該略過該詞彙。 這在特定商業和產業中已識別某組字詞為無關緊要時非常有用,通常是因為這些字詞出現頻率太高,因此成為雜訊字。 例如,從包含特定汽車品牌客戶支援信息的數據集擷取字詞時,可能會排除品牌名稱本身,因為提及太頻繁而沒有意義。 因此,排除清單中的值必須自定義為您正在使用的數據集。

當您將一個字詞新增至排除清單時,包含該字詞的所有詞語或名詞片語也都會被排除。 例如,如果排除清單包含單一單字 數據,則也會排除包含此單字的所有字詞,例如 數據數據採礦數據完整性和數據 驗證 。 如果您想要只排除包含單字 數據的複合,您必須明確地將這些複合字詞新增至排除清單。 例如,如果您想要擷取 數據的發病率,但排除 數據驗證,您會將數據 驗證 新增至排除清單,並確定 數據 已從排除清單中移除。

參考數據表必須是 SQL Server 或 Access 資料庫中的數據表。 「詞彙擷取」轉換會使用個別的 OLE DB 連接來連線到參考資料表。 如需詳細資訊,請參閱 OLE DB 連接管理員

「詞彙擷取」轉換可在完全傳回模式中運作。 在運行時間,「詞彙擷取」轉換會從參考數據表讀取排除字詞,並在處理任何轉換輸入數據列之前將其儲存在其私用記憶體中。

從文字擷取字詞

若要從文字擷取字詞,「詞彙擷取」轉換會執行下列工作。

單字的識別

首先,「詞彙擷取」轉換會藉由執行下列工作來識別字組:

  • 使用英文中的空格、換行符和其他文字終止符,將文字分隔成單字。 例如,標點符號,例如 是斷詞字元。

  • 保留由連字元或底線連接的文字組。 例如,單字 受複製保護唯讀 仍然是單字。

  • 保留包含句號的完整縮略字。 例如,A.B.C公司將分解為ABC公司

  • 對特殊字元進行單字分割。 例如,日期/時間一詞會擷取為日期和時間(bicycle)做為自行車,而 C# 則會視為 C。特殊字元會被捨棄,而且無法以語彙化。

  • 辨識特殊字元,例如單引號不應分開單字。 例如,自行車的詞不會被分成兩個單字,而是會產生單一字詞自行車(名詞)。

  • 將時間表達、貨幣表達、電子郵件地址和郵政位址分開。 例如,日期2004 年 1 月 31 日被分成三個部分:1 月312004

已標識的詞語

其次,「詞彙擷取」轉換會將單字標記為下列其中一個語音部分:

  • 單一形式的名詞。 例如 ,自行車土豆

  • 複數形式的名詞。 例如 ,自行車土豆。 所有未分明的複數名詞都受限於詞幹。

  • 單數形式的專有名詞。 例如, AprilPeter

  • 專有名詞的複數形式。 例如 AprilsPeters。 若要讓專有名詞受到詞幹處理,它必須是內部詞典的一部分,這僅限於標準英文單詞。

  • 形容詞。 例如, 藍色

  • 比較兩個事物的比較形容詞。 例如, 較高更高

  • 一個超級形容詞,可識別質量高於或低於至少兩個以上層級的東西。 例如, 最高最高

  • 數字。 例如 ,622004

不是這些詞性之一的字詞會被捨棄。 例如,會捨棄動詞和代詞。

備註

語音部分的標記是以統計模型為基礎,而且標記可能不完整。

如果「詞彙擷取」轉換設定為只擷取名詞,則只會擷取標示為單數或複數形式的普通名詞和專有名詞。

如果「詞彙擷取」轉換設定為只擷取名詞片語,則標記為名詞、專有名詞、形容詞和數字的單字可以合併成名詞詞組,但詞組至少必須包含一個單字,這個單字必須標記為名詞或專有名詞的單數或複數形式。 例如,名詞片語 最高的山 結合了標記為最高級形容詞(最高)的詞語,以及標記為名詞(mountain)的詞語。

如果字詞擷取設定為擷取名詞和名詞詞片語,則名詞的規則和名詞詞組的規則都適用。 例如,轉換會從文字中擷取自行車美麗的藍色自行車。許多美麗的藍色自行車

備註

擷取的字詞仍受限於轉換所使用的最大字詞長度和頻率臨界值。

詞幹字

「詞彙擷取」轉換也會將名詞詞幹化,只擷取名詞的單數形式。 例如,轉換會擷取單數形式的『man』複數形式的『men』單數形式『mouse』複數形式『mice』,以及單數形式『bicycle』複數形式『bicycles』。 轉換會使用其字典來阻止名詞。 動名詞如果在字典中,則被視為名詞。

「詞彙擷取」轉換會使用詞彙擷取轉換內部的字典,將單字幹幹至其字典形式,如這些範例所示。

  • 從名詞中移除 s 。 例如, 自行車 會變成 自行車

  • 從名詞中移除 es 。 例如, 故事 會變成 故事

  • 從字典擷取不規則名詞的單一形式。 例如, 變成

標準化單字

「詞彙擷取」轉換會正規化只因為句子中的位置而大寫的詞彙,並改用其非大寫形式。 例如,在 狗追貓山路的詞組中, 會正規化為

詞彙擷取轉換會將單字正規化,讓大寫和非資本化版本的單字不會被視為不同的字詞。 例如,在文字 中,您會在西雅圖看到許多自行車而且自行車是藍色的, 自行車自行車 會辨識為相同的詞彙,而轉換只會保留 自行車。 未列在內部字典中的正確名詞和單字不會正規化。

Case-Sensitive 正規化

「詞彙擷取」轉換可以設定為將小寫和大寫單字視為不同的字詞,或視為相同字詞的不同變體。

  • 如果轉換設定為辨識差異, 方法方法 等詞彙會擷取為兩個不同的詞彙。 不是句子中第一個單字的大寫字永遠不會正規化,而且會被標記為專有名詞。

  • 如果轉換設定為不區分大小寫,像 Methodmethod 這類詞彙會被視作同一字詞的變體。 擷取的字詞清單可能包含 Methodmethod,視輸入數據集中第一個出現的單字而定。 如果 Method 僅僅因為它是句子的第一個字而大寫,則會以標準化形式提取。

句子和字界限

「詞彙擷取」轉換會使用下列字元做為句子界限,將文字分隔成句子:

  • ASCII 换行字符 0x0d(回车)和 0x0a(换行)。 若要將此字元當做句子界限使用,數據列中必須有兩個或多個換行符。

  • 連字號 (-) 若要使用此字元做為句子界限,連字元左邊或右邊的字元都不能是字母。

  • 底線 (_)。 若要使用此字元做為句子界限,連字元左邊或右邊的字元都不能是字母。

  • 小於或等於0x19或大於或等於0x7b的所有 Unicode 字元。

  • 數位、標點符號和字母字元的組合。 例如, A23B#99 會傳回 A23B 一詞。

  • 字元、%、@、&、$、#、*、:、;、.、、!、?、<、>、+、=、^、~、|、\、/、(、)、[、]、{、}、“、”和 '。

    備註

    包含一或多個點號的縮略字不會分成多個句子。

「詞彙擷取」轉換接著會使用下列字邊界將句子分隔成單字:

  • 空間

  • Tab鍵

  • ASCII 0x0d (歸位字元)

  • ASCII 0x0a (行摘要)

    備註

    如果單引號位於一個縮排字中,例如 我們,則單字會在單引號處中斷;否則,會修剪單引號後面的字母。 例如, 我們會 分割成 're而自行車的 會修剪為 自行車

詞彙提取轉換的設定

文字擷取轉換會使用內部演算法和統計模型來產生其結果。 您可能必須執行數次「詞彙擷取」轉換,並檢查結果來設定轉換,以產生適用於文字採礦解決方案的結果類型。

詞彙擷取轉換有一個一般輸入、一個輸出和一個錯誤輸出。

您可以透過 SSIS 設計師或以程式設計方式設定屬性。

如需您可以在 [ 詞彙擷取轉換編輯器 ] 對話框中設定之屬性的詳細資訊,請按下列其中一個主題:

如需有關可以在 [進階編輯器] 對話方塊中或以程式設計方式設定之屬性的詳細資訊,請按下列其中一個主題:

如需如何設定屬性的詳細資訊,請參閱 設定數據流元件的屬性