용어 추출 변환은 변환 입력 열의 텍스트에서 용어를 추출한 다음 변환 출력 열에 용어를 씁니다. 변환은 영어 텍스트에서만 작동하며 영어에 대한 자체 영어 사전 및 언어 정보를 사용합니다.
용어 추출 변환을 사용하여 데이터 집합의 콘텐츠를 검색할 수 있습니다. 예를 들어 전자 메일 메시지가 포함된 텍스트는 제품에 대한 유용한 피드백을 제공할 수 있으므로 용어 추출 변환을 사용하여 피드백을 분석하는 방법으로 메시지의 토론 항목을 추출할 수 있습니다.
추출된 용어 및 데이터 형식
용어 추출 변환은 명사만 추출하거나 명사 구만 추출하거나 명사 및 명사 단계를 모두 추출할 수 있습니다. 명사(명사)는 단일 명사입니다. 명사 구는 적어도 두 단어이며, 그 중 하나는 명사이고 다른 하나는 명사 또는 형용사입니다. 예를 들어 변환에서 명사 전용 옵션을 사용하는 경우 자전거 및 풍경과 같은 용어를 추출합니다. 변환에서 명사구 옵션을 사용하면 새 파란색 자전거, 자전거 헬멧 및 박스로 포장된 자전거와 같은 용어를 추출합니다.
아티클 및 대명사는 추출되지 않습니다. 예를 들어 용어 추출 변환은 텍스트 자전거, 내 자전거, 및 저 자전거에서 자전거라는 용어를 추출합니다.
용어 추출 변환은 추출하는 각 용어에 대한 점수를 생성합니다. 점수는 TFIDF 값 또는 원시 빈도일 수 있습니다. 즉, 정규화된 용어가 입력에 나타나는 횟수를 의미합니다. 두 경우 모두 점수는 0보다 큰 실수로 표시됩니다. 예를 들어 TFIDF 점수의 값은 0.5이고 빈도는 1.0 또는 2.0과 같은 값일 수 있습니다.
용어 추출 변환의 출력에는 두 개의 열만 포함됩니다. 한 열에는 추출된 용어가 포함되고 다른 열에는 점수가 포함됩니다. 열의 기본 이름은 Term 및 Score. 입력의 텍스트 열에 여러 용어가 포함될 수 있으므로 용어 추출 변환의 출력에는 일반적으로 입력보다 더 많은 행이 있습니다.
추출된 용어가 테이블에 기록되는 경우 용어 조회, 유사 항목 조회 및 조회 변환과 같은 다른 조회 변환에서 사용할 수 있습니다.
용어 추출 변환은 DT_WSTR 또는 DT_NTEXT 데이터 형식이 있는 열의 텍스트에서만 작동할 수 있습니다. 열에 텍스트가 포함되어 있지만 이러한 데이터 형식 중 하나가 없는 경우 데이터 변환을 사용하여 데이터 흐름에 DT_WSTR 또는 DT_NTEXT 데이터 형식의 열을 추가하고 열 값을 새 열에 복사할 수 있습니다. 그런 다음 데이터 변환의 출력을 용어 추출 변환에 대한 입력으로 사용할 수 있습니다. 자세한 내용은 Data Conversion Transformation을 참조하세요.
제외 조건
필요에 따라 용어 추출 변환은 제외 용어가 포함된 테이블의 열을 참조할 수 있습니다. 즉, 변환이 데이터 집합에서 용어를 추출할 때 건너뛰어야 하는 용어를 의미합니다. 이는 특정 비즈니스 및 업계에서 용어 집합이 이미 중요하지 않은 것으로 식별된 경우에 유용합니다. 일반적으로 용어는 노이즈 단어가 되는 빈도가 높기 때문입니다. 예를 들어 특정 자동차 브랜드에 대한 고객 지원 정보가 포함된 데이터 집합에서 용어를 추출하는 경우 의미가 너무 자주 언급되기 때문에 브랜드 이름 자체가 제외될 수 있습니다. 따라서 제외 목록의 값은 작업 중인 데이터 집합에 맞게 사용자 지정되어야 합니다.
제외 목록에 용어를 추가하면 용어가 포함된 모든 용어-단어 또는 명사 구도 제외됩니다. 예를 들어 제외 목록에 단일 단어 데이터가 포함된 경우 데이터, 데이터 마이닝, 데이터 무결성 및 데이터 유효성 검사 와 같은 이 단어가 포함된 모든 용어도 제외됩니다. 단어 데이터가 포함된 화합물만 제외하려면 제외 목록에 해당 복합 용어를 명시적으로 추가해야 합니다. 예를 들어 데이터의 발생률을 추출하지만 데이터 유효성 검사를 제외하려는 경우 제외 목록에 데이터 유효성 검사를 추가하고 제외 목록에서 데이터가 제거되었는지 확인합니다.
참조 테이블은 SQL Server 또는 Access 데이터베이스의 테이블이어야 합니다. 용어 추출 변환은 별도의 OLE DB 연결을 사용하여 참조 테이블에 연결합니다. 자세한 내용은 OLE DB 연결 관리자를 참조하세요.
용어 추출 변환은 완전히 사전 캐싱된 모드에서 작동합니다. 런타임에 용어 추출 변환은 참조 테이블에서 제외 용어를 읽고 변환 입력 행을 처리하기 전에 프라이빗 메모리에 저장합니다.
텍스트에서 용어 추출
텍스트에서 용어를 추출하기 위해 용어 추출 변환은 다음 작업을 수행합니다.
단어 식별
먼저 용어 추출 변환은 다음 작업을 수행하여 단어를 식별합니다.
영어에서 공백, 줄 바꿈 및 기타 단어 종결자를 사용하여 텍스트를 단어로 구분합니다. 예를 들어 ? 및: 과 같은 문장 부호는 단어 분리 문자입니다.
하이픈 또는 밑줄로 연결된 단어 유지 예를 들어 복사로 보호되고읽기 전용인 단어는 한 단어로 유지됩니다.
마침표가 포함된 약어는 그대로 유지. 예를 들어 A.B.C 회사는 ABC 및 회사로 토큰화됩니다.
특수 문자에서 단어를 분할합니다. 예를 들어 날짜/시간이라는 단어는 날짜 및 시간(자전거)으로 추출되고 C#은 C로 처리됩니다. 특수 문자는 삭제되며 어휘화할 수 없습니다.
아포스트로피와 같은 특수 문자가 단어를 분할해서는 안 되는 경우를 인식합니다. 예를 들어 자전거 라는 단어는 두 단어로 분할되지 않고 단일 용어 자전거 (명사)를 생성합니다.
시간 관련 표현, 금전 관련 표현, 이메일 주소 및 우편 주소를 분리합니다. 예를 들어 2004년 1월 31일 날짜는 2004년 1월 31일 및 2004년 1월 31일의 세 가지 토큰으로 구분됩니다.
태그가 지정된 단어
둘째, 용어 추출 변환은 단어에 다음 음성 부분 중 하나로 태그를 지정합니다.
단수 형식의 명사입니다. 예를 들어 자전거 와 감자입니다.
복수 형식의 명사입니다. 예를 들어 자전거와감자입니다. 원형화되지 않은 모든 복수 명사는 형태소 분석을 거칩니다.
단수 형식의 적절한 명사입니다. 예를 들어, 4월 과 베드로.
복수 형식의 적절한 명사입니다. 예를 들어 4월 과 피터스. 적절한 명사에 형태소 분석이 적용되려면 표준 영어 단어로 제한되는 내부 어휘집의 일부여야 합니다.
형용사입니다. 예를 들어 파란색입니다.
두 가지를 비교하는 비교 형용사입니다. 예를 들어 더 높은 고 키가 더 큽니다.
적어도 두 개 이상의 다른 형용사 수준보다 높거나 낮은 품질을 가진 것을 식별하는 최상급 형용사입니다. 예를 들어 가장 높 고 가장 높은 경우입니다.
숫자입니다. 예를 들어 62 및 2004입니다.
이러한 음성 부분 중 하나가 아닌 단어는 삭제됩니다. 예를 들어 동사와 대명사는 삭제됩니다.
비고
음성 부분의 태그 지정은 통계 모델을 기반으로 하며 태그 지정이 완전히 정확하지 않을 수 있습니다.
용어 추출 변환이 명사만 추출하도록 구성된 경우 명사 및 적절한 명사 중 단수 또는 복수 형식으로 태그가 지정된 단어만 추출됩니다.
용어 추출 변환이 명사 구만 추출하도록 구성된 경우 명사, 적절한 명사, 형용사 및 숫자로 태그가 지정된 단어는 명사 구를 만들기 위해 결합될 수 있지만 이 구에는 명사 또는 적절한 명사라는 단수 또는 복수 형식으로 태그가 지정된 단어가 하나 이상 포함되어야 합니다. 예를 들어 명사 구 가장 높은 산 은 최상급 형용사(가장 높음)로 태그가 지정된 단어와 명사(산)로 태그가 지정된 단어를 결합합니다.
명사 및 명사 구를 모두 추출하도록 용어 추출이 구성된 경우 명사 규칙과 명사 구에 대한 규칙이 모두 적용됩니다. 예를 들어 변환은 많은 아름다운 파란색 자전거라는 텍스트에서 자전거와 아름다운 파란색 자전거를 추출합니다.
비고
추출된 용어는 변환에서 사용하는 최대 용어 길이 및 빈도 임계값의 적용을 받습니다.
형태소 분석된 단어
용어 추출 변환은 명사를 단수형으로 변환하여 추출합니다. 예를 들어, 변환은 남자들에서 남자, 쥐들에서 쥐, 및 자전거들에서 자전거를 추출합니다. 변환 과정은 사전을 사용하여 명사의 어간을 추출합니다. Gerunds는 사전에 있는 경우 명사로 처리됩니다.
용어 추출 변환은 내부 사전을 사용하여 단어를 사전상의 원형으로 어간 추출하는데, 이는 이러한 예에서 볼 수 있습니다.
명사에서 s 를 제거합니다. 예를 들어 자전거들이 자전거가 됩니다.
명사에서 es 를 제거합니다. 예를 들어 스토리 는 스토리가 됩니다.
사전에서 불규칙 명사에 대한 단수 형식을 검색합니다. 예를 들어 거위들은 거위가 됩니다.
정규화된 단어
용어 추출 변환은 문장의 위치 때문에 대문자로만 사용되는 용어를 정규화하고 대신 대문자가 아닌 형식을 사용합니다. 예를 들어 개가 고양이를 쫓다 와 산길이 가파르다 문구에서, 개 와 산 은 개 와 산으로 정규화됩니다.
용어 추출 변환은 대문자 및 비자본화된 단어 버전이 다른 용어로 처리되지 않도록 단어를 정규화합니다. 예를 들어 텍스트에서 시애틀의 많은 자전거 와 자전거가 파란색으로 표시되고자전거 와 자전거 가 동일한 용어로 인식되고 변환 시 자전거만 유지됩니다. 내부 사전에 나열되지 않은 적절한 명사 및 단어는 정규화되지 않습니다.
Case-Sensitive 정규화
용어 추출 변환은 소문자와 대문자를 고유한 용어 또는 동일한 용어의 다른 변형으로 간주하도록 구성할 수 있습니다.
경우에 따라 차이를 인식하도록 변환이 구성된 경우 메서드 및 메서드 와 같은 용어는 두 개의 서로 다른 용어로 추출됩니다. 문장의 첫 번째 단어가 아닌 대문자로 된 단어는 정규화되지 않으며 적절한 명사로 태그가 지정됩니다.
변환이 대/소문자를 구분하지 않는 것으로 구성된 경우 메서드 및 메서드 와 같은 용어는 단일 용어의 변형으로 인식됩니다. 추출된 용어 목록에는 입력 데이터 집합에서 먼저 발생하는 단어에 따라 메서드 또는 메서드가 포함될 수 있습니다. 메서드가 문장의 첫 번째 단어이기 때문에 대문자로만 표시되었을 경우, 이는 정규화된 형태로 추출됩니다.
문장 및 단어 경계
용어 추출 변환은 다음 문자를 문장 경계로 사용하여 텍스트를 문장으로 구분합니다.
ASCII 줄 바꿈 문자 0x0d(캐리지 리턴) 및 0x0a(라인 피드). 이 문자를 문장 경계로 사용하려면 행에 줄 바꿈 문자가 두 개 이상 있어야 합니다.
하이픈(-). 이 문자를 문장 경계로 사용하려면 하이픈의 왼쪽이나 오른쪽 문자가 문자일 수 없습니다.
밑줄(_). 이 문자를 문장 경계로 사용하려면 하이픈의 왼쪽이나 오른쪽 문자가 문자일 수 없습니다.
0x19 작거나 같거나 0x7b 보다 크거나 같은 모든 유니코드 문자입니다.
숫자, 문장 부호 및 알파벳 문자의 조합입니다. 예를 들어 A23B#99 는 A23B라는 용어를 반환합니다.
문자, %, @, &, $, #, *, :, ;, .,
, , !, ?,, , +, =, ^, ~, |, \, /, (, ), [, ], {, }, ", '. 비고
하나 이상의 마침표(.)를 포함하는 약어는 여러 문장으로 구분되지 않습니다.
그런 다음 용어 추출 변환은 다음 단어 경계를 사용하여 문장을 단어로 구분합니다.
우주
탭
ASCII 0x0d(캐리지 리턴)
ASCII 0x0a(줄 바꿈)
비고
아포스트로피가 축약형 단어에 있는 경우(we're 또는 it's와 같은), 해당 단어는 아포스트로피에서 나뉩니다. 그렇지 않으면 아포스트로피 뒤의 문자는 잘려나갑니다. 예를 들어, we're는 we와 're로 나뉘고, bicycle's는 bicycle로 형태가 변경됩니다.
용어 추출 변환 구성
텍스트 추출 변환은 내부 알고리즘 및 통계 모델을 사용하여 결과를 생성합니다. 용어 추출 변환을 여러 번 실행하고 결과를 검사하여 텍스트 마이닝 솔루션에 적합한 결과 형식을 생성하도록 변환을 구성해야 할 수 있습니다.
용어 추출 변환에는 하나의 일반 입력, 하나의 출력 및 하나의 오류 출력이 있습니다.
SSIS 디자이너를 사용하거나 프로그래밍 방식으로 속성을 설정할 수 있습니다.
용어 추출 변환 편집기 대화 상자에서 설정할 수 있는 속성에 대한 자세한 내용은 다음 항목 중 하나를 클릭합니다.
고급 편집기 대화 상자를 사용하거나 프로그래밍 방식으로 설정할 수 있는 속성에 대한 자세한 내용을 보려면 다음 항목 중 하나를 클릭하세요:
속성을 설정하는 방법에 대한 자세한 내용은 데이터 흐름 구성 요소의 속성 설정을 참조하세요.