Notitie
Voor toegang tot deze pagina is autorisatie vereist. U kunt proberen u aan te melden of de directory te wijzigen.
Voor toegang tot deze pagina is autorisatie vereist. U kunt proberen de mappen te wijzigen.
van toepassing op:SQL Server
SSIS Integration Runtime in Azure Data Factory
Met de transformatie Termextractie worden termen geëxtraheerd uit tekst in een invoerkolom voor transformatie en worden de termen vervolgens naar een uitvoerkolom voor transformatie geschreven. De transformatie werkt alleen met Engelse tekst en maakt gebruik van een eigen Engelse woordenlijst en taalkundige informatie over Engels.
U kunt de transformatie termextractie gebruiken om de inhoud van een gegevensset te detecteren. Tekst die e-mailberichten bevat, kan bijvoorbeeld nuttige feedback geven over producten, zodat u de transformatie termextractie kunt gebruiken om de discussieonderwerpen in de berichten te extraheren, als een manier om de feedback te analyseren.
Geëxtraheerde termen en gegevenstypen
Met de transformatie termextractie kunnen alleen zelfstandige naamwoorden, zelfstandige naamwoordzinnen of zowel zelfstandige naamwoorden als zelfstandige naamwoordfasen worden geëxtraheerd. Een zelfstandig naamwoord is één zelfstandig naamwoord; een zelfstandig naamwoord is ten minste twee woorden, waarvan het ene een zelfstandig naamwoord is en het andere een zelfstandig naamwoord of een bijvoeglijk naamwoord. Als de transformatie bijvoorbeeld gebruikmaakt van de optie alleen zelfstandige naamwoorden, worden termen als fiets en landschap geëxtraheerd; als de transformatie gebruikmaakt van de woordgroepsoptie voor zelfstandig naamwoorden, worden termen geëxtraheerd zoals nieuwe blauwe fiets, fietshelm en boxed fietsen.
Artikelen en voornaamwoorden worden niet geëxtraheerd. Met de transformatie Termextractie wordt bijvoorbeeld de term fiets geëxtraheerd uit de tekst van de fiets, mijn fiets en die fiets.
Met de transformatie termextractie wordt een score gegenereerd voor elke term die wordt geëxtraheerd. De score kan een TFIDF-waarde of de onbewerkte frequentie zijn, wat betekent dat het aantal keren dat de genormaliseerde term in de invoer wordt weergegeven. In beide gevallen wordt de score vertegenwoordigd door een reëel getal dat groter is dan 0. De TFIDF-score kan bijvoorbeeld de waarde 0,5 hebben en de frequentie is een waarde zoals 1,0 of 2,0.
De uitvoer van de transformatie Termextractie bevat slechts twee kolommen. De ene kolom bevat de geëxtraheerde termen en de andere kolom bevat de score. De standaardnamen van de kolommen zijn Term en Score. Omdat de tekstkolom in de invoer meerdere termen kan bevatten, bevat de uitvoer van de transformatie termextractie meestal meer rijen dan de invoer.
Als de geëxtraheerde termen naar een tabel worden geschreven, kunnen ze door andere opzoektransformaties worden gebruikt, zoals de transformaties Term Lookup, Fuzzy Lookup en Lookup.
De termenextractietransformatie kan alleen werken met tekst in een kolom met het gegevenstype DT_WSTR of DT_NTEXT. Als een kolom tekst bevat maar geen van deze gegevenstypen heeft, kan de transformatie van gegevensconversie worden gebruikt om een kolom met het DT_WSTR of DT_NTEXT gegevenstype toe te voegen aan de gegevensstroom en de kolomwaarden naar de nieuwe kolom te kopiëren. De uitvoer van de gegevensconversietransformatie kan vervolgens worden gebruikt als invoer voor de transformatie van termextractie. Zie Gegevensconversietransformatievoor meer informatie.
Uitsluitingsvoorwaarden
De transformatie termextractie kan eventueel verwijzen naar een kolom in een tabel die uitsluitingsvoorwaarden bevat, wat betekent dat termen die de transformatie moet overslaan wanneer termen uit een gegevensset worden geëxtraheerd. Dit is handig wanneer een reeks termen al als inconsistent is geïdentificeerd in een bepaalde onderneming en branche, meestal omdat de term met een dergelijke hoge frequentie plaatsvindt dat het een ruiswoord wordt. Wanneer u bijvoorbeeld termen ophaalt uit een gegevensset die klantondersteuningsinformatie over een bepaald merk van auto's bevat, kan de merknaam zelf worden uitgesloten omdat deze te vaak significantie heeft. Daarom moeten de waarden in de uitsluitingslijst worden aangepast aan de gegevensset waarmee u werkt.
Wanneer u een term toevoegt aan de uitsluitingslijst, worden ook alle termen-woorden of zelfstandig naamwoordzinnen die de term bevatten uitgesloten. Als de uitsluitingslijst bijvoorbeeld de gegevens van één woord bevat, worden alle termen die dit woord bevatten, zoals gegevens, gegevensanalyse, gegevensintegriteit en gegevensvalidatie, ook uitgesloten. Als u alleen samengestelde woorden wilt uitsluiten die het woord data bevatten, moet u deze samengestelde termen expliciet toevoegen aan de uitsluitingslijst. Als u bijvoorbeeld incidenties van gegevens wilt extraheren, maar gegevensvalidatie wilt uitsluiten, voegt u gegevensvalidatie toe aan de uitsluitingslijst en zorgt u ervoor dat de gegevens uit de uitsluitingslijst worden verwijderd.
De referentietabel moet een tabel in een SQL Server of een Access-database zijn. De transformatie termextractie maakt gebruik van een afzonderlijke OLE DB-verbinding om verbinding te maken met de referentietabel. Zie OLE DB Connection Manager voor meer informatie.
De transformatie voor termextractie werkt in een volledig vooraf gecachte modus. Tijdens de runtime leest de Term Extractie-transformatie de uitsluitingstermen uit de referentietabel en slaat deze op in zijn eigen geheugen voordat het transformatie-invoerrijen verwerkt.
Extractie van termen uit tekst
Als u termen uit tekst wilt extraheren, voert de transformatie Termenextractie de volgende taken uit.
Identificatie van woorden
De termextractietransformatie identificeert eerst woorden door de volgende taken uit te voeren:
Tekst scheiden in woorden door spaties, regeleinden en andere woordeindtekens in de Engelse taal te gebruiken. Leestekens zoals ? en : zijn woordbrekende tekens.
Woorden behouden die zijn verbonden met afbreekstreepjes of onderstrepingstekens. De woorden kopieerbeveiligd en alleen-lezen blijven bijvoorbeeld één woord.
Het bewaren van acroniemen die punten bevatten. De A.B.C Company zou bijvoorbeeld worden getokeniseerd als ABC en Company.
Woorden splitsen op speciale tekens. Het woord datum/tijd wordt bijvoorbeeld geëxtraheerd als datum en tijd, (fiets) als fiets en C# wordt behandeld als C. Speciale tekens worden verwijderd en kunnen niet worden ge lexicaliseerd.
Herkennen wanneer speciale tekens, zoals de apostrof, geen woorden mogen splitsen. Het woord fiets wordt bijvoorbeeld niet gesplitst in twee woorden en levert de enkele term fiets (zelfstandig naamwoord) op.
Het splitsen van tijdsuitdrukkingen, monetaire uitdrukkingen, e-mailadressen en postadressen. De datum 31 januari 2004 wordt bijvoorbeeld gescheiden in de drie tokens januari, 31 en 2004.
Getagde woorden
Ten tweede labelt de Term Extractie transformatie woorden als een van de volgende woordsoorten:
Een zelfstandig naamwoord in de enkelvoudige vorm. Bijvoorbeeld fiets en aardappel.
Een zelfstandig naamwoord in de meervoudvorm. Bijvoorbeeld fietsen en aardappelen. Alle meervoud zelfstandige naamwoorden die niet lemmatiseren zijn onderworpen aan stemming.
Een juist zelfstandig naamwoord in de enkelvoudige vorm. Bijvoorbeeld April en Peter.
Een juist zelfstandig naamwoord in de meervoudsvorm. Bijvoorbeeld Aprils en Peters. Voor een eigennaam om te worden onderworpen aan stemming, moet het deel uitmaken van het interne lexicon, dat beperkt is tot standaard Engelse woorden.
Een bijvoeglijk naamwoord. Bijvoorbeeld blauw.
Een vergelijkend bijvoeglijk naamwoord dat twee dingen vergelijkt. Bijvoorbeeld hoger en langer.
Een superlatief bijvoeglijk naamwoord dat een ding identificeert dat een kwaliteit boven of onder het niveau van ten minste twee anderen heeft. Bijvoorbeeld hoogste en hoogste.
Een getal. Bijvoorbeeld 62 en 2004.
Woorden die geen van deze spraakonderdelen zijn, worden genegeerd. Werkwoorden en voornaamwoorden worden bijvoorbeeld verwijderd.
Opmerking
Het taggen van spraakonderdelen is gebaseerd op een statistisch model en het taggen is mogelijk niet volledig nauwkeurig.
Als de transformatie termextractie is geconfigureerd om alleen zelfstandige naamwoorden te extraheren, worden alleen de woorden die zijn getagd als enkelvoudige of meervoudvormen van zelfstandige naamwoorden en de juiste zelfstandige naamwoorden geëxtraheerd.
Als de transformatie termextractie is geconfigureerd om alleen zelfstandige naamwoordzinnen te extraheren, mogen woorden die zijn getagd als zelfstandige naamwoorden, de juiste zelfstandige naamwoorden, bijvoeglijke naamwoorden en getallen worden gecombineerd om een zelfstandig naamwoord te maken, maar de woordgroep moet ten minste één woord bevatten dat is getagd als een enkelvoud of meervoudsvorm van een zelfstandig naamwoord of een juist zelfstandig naamwoord. Bijvoorbeeld, de woordgroep hoogste berg combineert een woord dat is gelabeld als een superlatief bijvoeglijk naamwoord (hoogste) en een woord dat is gelabeld als zelfstandig naamwoord (berg).
Als de termextractie is geconfigureerd om zowel zelfstandige naamwoorden als zelfstandige naamwoordzinnen te extraheren, zijn zowel de regels voor zelfstandige naamwoorden als de regels voor zelfstandige naamwoordzinnen van toepassing. De transformatie extraheert bijvoorbeeld fiets en mooie blauwe fiets uit de tekst veel mooie blauwe fietsen.
Opmerking
De geëxtraheerde termen blijven onderworpen aan de maximale termijnlengte en frequentiedrempel die door de transformatie wordt gebruikt.
Stemwoorden
De termextractie-transformatie reduceert ook zelfstandige naamwoorden tot alleen de enkelvoudige vorm van een zelfstandig naamwoord. De transformatie extraheert bijvoorbeeld man uit mannen, muis van muizen en fietsen van fietsen. De transformatie gebruikt het woordenboek om zelfstandige naamwoorden te herleiden. Gerundia worden behandeld als zelfstandige naamwoorden als ze in het woordenboek staan.
De transformatie Term Extraction brengt woorden terug naar hun woordenboekvorm, zoals in deze voorbeelden wordt geïllustreerd met behulp van de interne woordenlijst van de transformatie Term Extraction.
S verwijderen uit zelfstandige naamwoorden. Bijvoorbeeld, fietsen worden fiets.
Verwijder es uit zelfstandige naamwoorden. Bijvoorbeeld, verhalen wordt verhaal.
Het ophalen van de enkelvoudige vorm voor onregelmatige zelfstandige naamwoorden uit de woordenlijst. Zo wordt ganzengans.
Genormaliseerde woorden
De transformatie Termextractie normaliseert termen die alleen een hoofdletter hebben vanwege hun positie aan het begin van een zin, en gebruikt in plaats daarvan hun niet-gekapitaliseerde vorm. In de zinnen Honden jagen bijvoorbeeld op katten en bergpaden zijn steil, Honden en berg zouden worden genormaliseerd voor honden en bergen.
Met de transformatie termextractie worden woorden genormaliseerd, zodat de hoofdletter- en niet-gekapitaliseerde versies van woorden niet als verschillende termen worden behandeld. In de tekst Ziet u bijvoorbeeld dat veel fietsen in Seattle en Fietsen blauw zijn, fietsen en Fietsen worden herkend als dezelfde term en de transformatie houdt alleen fiets. De juiste zelfstandige naamwoorden en woorden die niet in de interne woordenlijst worden vermeld, worden niet genormaliseerd.
Case-sensitive normalisatie
De termextractie-transformatie kan worden geconfigureerd om kleine letters en hoofdletters als afzonderlijke termen te beschouwen, of als verschillende varianten van dezelfde term.
Als de transformatie is geconfigureerd voor het herkennen van verschillen in het geval, worden termen als methode en methode geëxtraheerd als twee verschillende termen. Woorden met hoofdletters die niet het eerste woord in een zin zijn, worden nooit genormaliseerd en worden gelabeld als de juiste zelfstandige naamwoorden.
Als de transformatie zodanig is geconfigureerd dat deze niet hoofdlettergevoelig is, worden termen als methode en methode herkend als varianten van één term. De lijst met geëxtraheerde termen kan een methode of methode bevatten, afhankelijk van welk woord het eerst voorkomt in de invoergegevensset. Als de methode alleen hoofdletters heeft omdat het het eerste woord in een zin is, wordt deze geëxtraheerd in genormaliseerde vorm.
Zins- en woordgrenzen
Met de transformatie Termextractie wordt tekst in zinnen gescheiden als zinsbegrenzers met behulp van de volgende tekens:
ASCII-regeleindetekens 0x0d (regelterugloop) en 0x0a (regelinvoer). Als u dit teken wilt gebruiken als een zingrens, moeten er twee of meer regeleindetekens in een rij staan.
Afbreekstreepjes (-). Als u dit teken wilt gebruiken als een zinsgrens, kan het teken aan de linkerkant of aan de rechterkant van het afbreekstreepje geen letter zijn.
Onderstrepingsteken (_). Als u dit teken wilt gebruiken als een zinsgrens, kan het teken aan de linkerkant of aan de rechterkant van het afbreekstreepje geen letter zijn.
Alle Unicode-tekens die kleiner zijn dan of gelijk zijn aan 0x19 of groter dan of gelijk aan 0x7b.
Combinaties van getallen, leestekens en alfabetische tekens. A23B#99 retourneert bijvoorbeeld de term A23B.
De tekens, %, @, &, $, #, *, :, ;, .,
, , !, ?,, , +, =, ^, ~, |, \, /, (, ), [, ], {, }, ", en '. Opmerking
Acroniemen die een of meer punten (.) bevatten, worden niet gescheiden in meerdere afzonderlijke zinnen.
De termextractie-transformatie scheidt de zin vervolgens in afzonderlijke woorden door de volgende woordgrenzen te gebruiken.
Ruimte
Tab
ASCII-0x0d (regelterugloop)
ASCII-0x0a (regelfeed)
Opmerking
Als een apostrof zich in een woord bevindt dat een samentrekking is, zoals wij of het is, wordt het woord gebroken bij de apostrof; anders worden de letters na de apostrof ingekort. Wij zijn bijvoorbeeld gesplitst in we en zijn, en fiets is ingekort tot fiets.
Configuratie van de transformatie van termextractie
De transformatie tekstextractie maakt gebruik van interne algoritmen en statistische modellen om de resultaten te genereren. Mogelijk moet u de transformatie termextractie meerdere keren uitvoeren en de resultaten onderzoeken om de transformatie te configureren om het type resultaten te genereren dat geschikt is voor uw oplossing voor tekstanalyse.
De transformatie Termextractie heeft één reguliere invoer, één uitvoer en één foutuitvoer.
U kunt eigenschappen instellen via SSIS Designer of programmatisch.
Klik op een van de volgende onderwerpen voor meer informatie over de eigenschappen die u kunt instellen in het dialoogvenster Geavanceerde editor of programmatisch:
Zie Eigenschappen van een gegevensstroomonderdeel instellen voor meer informatie over het instellen van eigenschappen.
Transformatieeditor voor termenextractie (tabblad Termextractie)
Gebruik het tabblad Termextractie van het dialoogvenster Transformatieeditor voor termextractie om een tekstkolom op te geven die tekst bevat die moet worden geëxtraheerd.
Options
Beschikbare invoerkolommen
Selecteer met behulp van de selectievakjes één tekstkolom die u wilt gebruiken voor termextractie.
Term
Geef een naam op voor de uitvoerkolom die de geëxtraheerde termen bevat.
Partituur
Geef een naam op voor de uitvoerkolom die de score voor elke geëxtraheerde term bevat.
Foutuitvoer configureren
Gebruik het dialoogvenster Foutuitvoer configureren om foutafhandeling op te geven voor rijen die fouten veroorzaken.
Transformatieeditor voor termenextractie (tabblad Uitsluiting)
Gebruik het tabblad Uitsluiting van het dialoogvenster Transformatieeditor voor termextractie om een verbinding met een uitsluitingstabel in te stellen en de kolommen op te geven die uitsluitingsvoorwaarden bevatten.
Options
Uitsluitingsvoorwaarden gebruiken
Geef aan of specifieke termen moeten worden uitgesloten tijdens het ophalen van termen door een kolom op te geven die uitsluitingsvoorwaarden bevat. U moet de volgende broneigenschappen opgeven als u ervoor kiest om termen uit te sluiten.
OLE DB-verbindingsbeheer
Selecteer een bestaand OLE DB-verbindingsbeheer of maak een nieuwe verbinding door op Nieuw te klikken.
Nieuw
Maak een nieuwe verbinding met een database met behulp van het dialoogvenster OLE DB-verbindingsbeheer configureren .
Tabel of view
Selecteer de tabel of weergave die de uitsluitingsvoorwaarden bevat.
kolom
Selecteer de kolom in de tabel of weergave die de uitsluitingsvoorwaarden bevat.
Foutuitvoer configureren
Gebruik het dialoogvenster Foutuitvoer configureren om foutafhandeling op te geven voor rijen die fouten veroorzaken.
Transformatieeditor voor termenextractie (tabblad Geavanceerd)
Gebruik het tabblad Geavanceerd van het dialoogvenster Transformatieeditor voor termextractie om eigenschappen op te geven voor de extractie, zoals frequentie, lengte en of woorden of woordgroepen moeten worden geëxtraheerd.
Options
Zelfstandig naamwoord
Geef op dat met de transformatie alleen afzonderlijke zelfstandige naamwoorden worden geëxtraheerd.
Zelfstandige naamwoordgroep
Geef op dat met de transformatie alleen zelfstandig naamwoordzinnen worden geëxtraheerd.
Zelfstandig naamwoord en naamwoordgroep
Geef op dat met de transformatie zowel zelfstandige naamwoorden als zelfstandige naamwoordzinnen worden geëxtraheerd.
Frequentie
Geef op dat de score de frequentie van de term is.
TFIDF
Geef op dat de score de TFIDF-waarde van de term is. De TFIDF-score is het product van termfrequentie en inverse documentfrequentie, gedefinieerd als: TFIDF van een term T = (frequentie van T) * log( (#rows in invoer) / (#rows met T) )
Frequentiedrempel
Geef het aantal keren op dat een woord of woordgroep moet plaatsvinden voordat u het ophaalt. De standaardwaarde is 2.
Maximale duur van de termijn
Geef de maximale lengte van een woordgroep in woorden op. Deze optie is alleen van invloed op woordgroepen met zelfstandig naamwoorden. De standaardwaarde is 12.
Gebruik hoofdlettergevoelige termextractie
Bepaal of de extractie hoofdlettergevoelig moet worden gemaakt. De standaardwaarde is False.
Foutuitvoer configureren
Gebruik het dialoogvenster Foutuitvoer configureren om foutafhandeling op te geven voor rijen die fouten veroorzaken.
Zie ook
Referentie voor foutmeldingen en berichten van Integration Services
Termenzoektransformatie