다음을 통해 공유


유사성 기반 그룹화 변환

유사 항목 그룹화 변환은 중복될 가능성이 있는 데이터 행을 식별하고 데이터를 표준화하는 데 사용할 정식 데이터 행을 선택하여 데이터 정리 작업을 수행합니다.

비고

성능 및 메모리 제한을 포함하여 유사 항목 그룹화 변환에 대한 자세한 내용은 SQL Server Integration Services 2005의 백서, 유사 항목 조회 및 유사 항목 그룹화 항목을 참조하세요.

유사 항목 그룹화 변환을 사용하려면 변환 알고리즘이 작업을 수행하는 데 필요한 임시 SQL Server 테이블을 만들기 위해 SQL Server 인스턴스에 연결해야 합니다. 데이터베이스에서 테이블을 만들 수 있는 권한이 있는 사용자에게 연결이 확인되어야 합니다.

변환을 구성하려면, 중복 항목을 식별할 때 사용할 입력 열을 선택해야 하며, 각 열에 대해 유사 또는 정확한 일치 유형을 선택해야 합니다. 정확히 일치하면 해당 열에 동일한 값을 가진 행만 그룹화됩니다. 정확한 일치는 DT_TEXT, DT_NTEXT 및 DT_IMAGE 제외한 모든 Integration Services 데이터 형식의 열에 적용할 수 있습니다. 비슷한 값의 행을 그룹화하는 유사 일치. 데이터의 대략적인 일치 방법은 사용자가 지정한 유사성 점수를 기반으로 합니다. DT_WSTR 및 DT_STR 데이터 형식이 있는 열만 유사 항목 일치에 사용할 수 있습니다. 자세한 내용은 Integration Services 데이터 형식을 참조하세요.

변환 출력에는 모든 입력 열, 표준화된 데이터가 있는 하나 이상의 열 및 유사성 점수가 포함된 열이 포함됩니다. 점수는 0에서 1 사이의 10진수 값입니다. 정식 행의 점수는 1입니다. 유사 항목 그룹의 다른 행에는 행이 정식 행과 얼마나 잘 일치하는지를 나타내는 점수가 있습니다. 점수가 1에 가까울수록 행이 정식 행과 더 가깝게 일치합니다. 유사 항목 그룹에 정식 행과 정확히 중복되는 행이 포함된 경우 이러한 행의 점수도 1입니다. 변환은 중복 행을 제거하지 않습니다. 정식 행과 유사한 행을 관련시키는 키를 만들어 그룹화합니다.

변환은 다음 추가 열을 사용하여 각 입력 행에 대해 하나의 출력 행을 생성합니다.

  • _key_in 각 행을 고유하게 식별하는 열입니다.

  • _key_out 중복 행 그룹을 식별하는 열입니다. _key_out 열에는 정식 데이터 행의 _key_in 열 값이 있습니다. _key_out 값이 같은 행은 동일한 그룹의 일부입니다. 그룹의 _key_out값은 정식 데이터 행의 _key_in 값에 해당합니다.

  • _score 입력 행과 정식 행의 유사성을 나타내는 0에서 1 사이의 값입니다.

기본 열 이름이며 다른 이름을 사용하도록 유사 항목 그룹화 변환을 구성할 수 있습니다. 또한 출력은 유사 항목 그룹화에 참여하는 각 열에 대한 유사성 점수를 제공합니다.

유사 항목 그룹화 변환에는 수행하는 그룹화 사용자 지정을 위한 두 가지 기능인 토큰 구분 기호 및 유사성 임계값이 포함됩니다. 변환은 데이터를 토큰화하는 데 사용되는 기본 구분 기호 집합을 제공하지만 데이터의 토큰화를 개선하는 새 구분 기호를 추가할 수 있습니다.

유사성 임계값은 변환에서 중복 항목을 엄격하게 식별하는 방법을 나타냅니다. 유사성 임계값은 구성 요소 및 열 수준에서 설정할 수 있습니다. 열 수준의 유사성 임계값은 퍼지 매칭을 수행하는 열에서만 사용할 수 있습니다. 유사성 범위는 0에서 1까지입니다. 임계값이 1에 가까울수록 행과 열이 중복으로 간주되기 위해 더 유사해야 합니다. 구성 요소 및 열 수준에서 MinSimilarity 속성을 설정하여 행과 열 간의 유사성 임계값을 지정합니다. 구성 요소 수준에서 지정된 유사성을 충족하려면 모든 행이 구성 요소 수준에서 지정된 유사성 임계값보다 크거나 같은 모든 열에서 유사성을 가져야 합니다.

유사 항목 그룹화 변환은 내부 유사성 측정값을 계산하며 MinSimilarity에 지정된 값보다 덜 유사한 행은 그룹화되지 않습니다.

데이터에 대해 작동하는 유사성 임계값을 식별하려면 서로 다른 최소 유사성 임계값을 사용하여 유사 항목 그룹화 변환을 여러 번 적용해야 할 수 있습니다. 런타임에 변환 출력의 점수 열에는 그룹의 각 행에 대한 유사성 점수가 포함됩니다. 이러한 값을 사용하여 데이터에 적합한 유사성 임계값을 식별할 수 있습니다. 유사성을 높이려면 MinSimilarity를 점수 열의 값보다 큰 값으로 설정해야 합니다.

유사 항목 그룹화 변환 입력에서 열의 속성을 설정하여 변환이 수행하는 그룹화 작업을 사용자 지정할 수 있습니다. 예를 들어 FuzzyComparisonFlags 속성은 변환이 열의 문자열 데이터를 비교하는 방법을 지정하고 ExactFuzzy 속성은 변환이 유사 항목 일치 또는 정확한 일치를 수행하는지 여부를 지정합니다.

유사 항목 그룹화 변환에서 사용하는 메모리 양은 MaxMemoryUsage 사용자 지정 속성을 설정하여 구성할 수 있습니다. MB(메가바이트) 수를 지정하거나 값 0을 사용하여 변환에서 해당 요구 사항 및 사용 가능한 실제 메모리에 따라 동적 양의 메모리를 사용할 수 있도록 할 수 있습니다. MaxMemoryUsage 사용자 지정 속성은 패키지가 로드될 때 속성 식으로 업데이트할 수 있습니다. 자세한 내용은 Integration Services(SSIS) 표현식, 패키지에서 속성 식 사용, 및 사용자 지정 변환 속성을 참조하세요.

이 변환에는 하나의 입력과 하나의 출력이 있습니다. 오류 출력은 지원하지 않습니다.

행 비교

유사 항목 그룹화 변환을 구성할 때 변환에서 변환 입력의 행을 비교하는 데 사용하는 비교 알고리즘을 지정할 수 있습니다. Exhaustive 속성을 true설정하는 경우 변환은 입력의 모든 행을 입력의 다른 모든 행과 비교합니다. 이 비교 알고리즘은 보다 정확한 결과를 생성할 수 있지만 입력의 행 수가 작지 않으면 변환이 더 느리게 수행될 수 있습니다. 성능 문제를 방지하려면 패키지 개발 중에만 Exhaustive 속성을 true 설정하는 것이 좋습니다.

임시 테이블 및 인덱스

런타임에 유사 항목 그룹화 변환은 변환이 연결되는 SQL Server 데이터베이스에 테이블 및 인덱스와 같은 임시 개체를 만듭니다. 테이블 및 인덱스의 크기는 변환 입력의 행 수와 유사 항목 그룹화 변환에서 만든 토큰 수에 비례합니다.

변환은 임시 테이블도 쿼리합니다. 따라서 특히 프로덕션 서버에 사용 가능한 디스크 공간이 제한된 경우 유사 항목 그룹화 변환을 SQL Server의 비프로덕션 인스턴스에 연결하는 것이 좋습니다.

사용하는 테이블과 인덱스가 로컬 컴퓨터에 있는 경우 이 변환의 성능이 향상될 수 있습니다.

퍼지 그룹화 변환 구성

SSIS 디자이너를 사용하거나 프로그래밍 방식으로 속성을 설정할 수 있습니다.

유사 항목 그룹화 변환 편집기 대화 상자에서 설정할 수 있는 속성에 대한 자세한 내용은 다음 항목 중 하나를 클릭합니다.

고급 편집기 대화 상자를 사용하거나 프로그래밍 방식으로 설정할 수 있는 속성에 대한 자세한 내용을 보려면 다음 항목 중 하나를 클릭하세요:

이 작업의 속성을 설정하는 방법에 대한 자세한 내용은 다음 항목 중 하나를 클릭합니다.

또한 참조하십시오

유사 항목 조회 변환
Integration Services 변환