다음을 통해 공유


Data Lake Storage 데이터 원본에 대한 증분 새로 고침

Azure Data Lake Storage를 기반으로 하는 데이터 원본에 대한 증분 새로 고침은 다음과 같은 이점을 제공합니다.

  • 빠른 새로 고침 - 변경된 데이터만 새로 고침됩니다. 예를 들어 지난 5일 동안의 과거 데이터 집합만 새로 고칠 수 있습니다.
  • 신뢰성 향상 - 새로 고침이 작을수록 휘발성 원본 시스템에 대한 연결을 오랫동안 유지할 필요가 없으므로 연결 문제의 위험이 줄어듭니다.
  • 리소스 소비 감소 - 전체 데이터의 일부만 새로 고치면 컴퓨팅 리소스를 보다 효율적으로 사용하고 환경 공간이 줄어듭니다.

Azure Data Lake Storage 데이터 원본에 대한 증분 새로 고침 구성

Microsoft는 대규모 데이터 세트 작업 시 최상의 성능과 결과를 얻기 위해 Delta Lake 형식을 권장합니다. Customer Insights - Data는 Delta Lake 형식의 데이터에 최적화된 커넥터를 제공합니다. 통합 등 내부 프로세스를 최적화하여 변경된 데이터만 점진적으로 처리하므로 처리 시간이 단축됩니다.

Data Lake 테이블에 대한 증분 수집 및 새로 고침을 사용하려면 Azure Data Lake 데이터 원본을 추가하거나 편집할 때 해당 테이블을 구성합니다. 테이블 데이터 폴더에는 다음 폴더가 포함되어야 합니다.

  • FullData: 초기 레코드를 포함하는 데이터 파일이 있는 폴더
  • IncrementalData: 증분 업데이트를 포함하는 yyyy/mm/dd/hh 형식의 날짜/시간 계층 폴더가 있는 폴더입니다. 연도, 월, 일, 시 폴더는 각각 4자리와 2자리로 예상됩니다. hh는 업데이트의 UTC 시간을 나타내며 UpsertsDeletes 폴더를 포함합니다. Upserts에는 기존 레코드 또는 새 레코드에 대한 업데이트가 포함된 데이터 파일이 포함되어 있습니다. 삭제에는 제거할 레코드가 있는 데이터 파일이 포함됩니다.

증분 데이터 처리 순서

시스템은 지정된 UTC 시간이 끝난 IncrementalData 폴더의 파일을 처리합니다. 예를 들어 시스템이 2023년 1월 21일 오전 8시 15분에 증분 새로 고침 처리를 시작하면 2023/01/21/07 폴더(오전 7시부터 오전 8시까지 저장된 데이터 파일을 나타냄)에 있는 모든 파일이 처리됩니다. 2023/01/21/08 폴더(파일이 아직 생성되고 있는 현재 시간을 나타냄)의 모든 파일은 다음 실행까지 처리되지 않습니다.

기본 키에 대해 upsert 및 삭제라는 두 개의 레코드가 있는 경우 Customer Insights - Data는 수정된 날짜가 가장 최근인 레코드를 사용합니다. 예를 들어 삭제 타임스탬프가 2023-01-21T08:00:00이고 upsert 타임스탬프가 2023-01-21T08:30:00인 경우 upsert 레코드를 사용합니다. upsert 이후 삭제가 발생한 경우 시스템에서는 레코드가 삭제된 것으로 가정합니다.

Azure Data Lake 데이터 원본에 대한 증분 새로 고침 구성

  1. 데이터 원본을 추가하거나 편집할 때 테이블의 특성 창으로 이동합니다.

  2. 특성을 검토합니다. 만든 날짜 또는 마지막으로 업데이트한 날짜 특성이 dateTimeData 형식Calendar.DateSemantic 유형으로 설정되어 있는지 확인하세요. 필요한 경우 특성을 편집하고 완료를 선택합니다.

  3. 테이블 선택 창에서 테이블을 편집합니다. 증분 수집 확인란이 선택되어 있습니다.

    증분 새로 고침을 위해 데이터 원본에서 테이블을 구성합니다.

    1. 전체 데이터, 증분 데이터 upsert 및 증분 데이터 삭제에 대한 .csv 또는 .parquet 파일이 포함된 루트 폴더를 찾습니다.
    2. 전체 데이터와 두 증분 파일(.csv 또는 .parquet)에 대한 확장자를 입력합니다.
    3. .csv 파일의 경우 열 구분 기호를 선택하고 파일의 첫 번째 행을 열 머리글로 사용합니다.
    4. 저장을 선택합니다.
  4. 마지막 업데이트에서 날짜 타임스탬프 특성을 선택합니다.

  5. 기본 키가 선택되지 않은 경우 기본 키를 선택합니다. 기본 키는 테이블에 고유한 특성입니다. 특성이 유효한 기본 키가 되려면 중복 값, 누락 된 값 또는 null 값을 포함하지 않아야 합니다. 문자열, 정수 및 GUID 데이터 유형 특성은 기본 키로 지원됩니다.

  6. 닫기를 선택하여 창을 저장하고 닫습니다.

  7. 계속해서 데이터 원본을 추가하거나 편집합니다.

Azure Data Lake 데이터 원본에 대한 일회성 전체 새로 고침 실행

Azure Data Lake 데이터 원본에 대한 증분 새로 고침을 구성한 후 전체 새로 고침으로 데이터를 처리해야 하는 경우가 있습니다. 증분 새로 고침을 위해 설정된 전체 데이터 폴더에는 전체 데이터의 위치가 포함되어야 합니다.

  1. 데이터 원본를 편집할 때 테이블 선택 창으로 이동하여 새로 고치려는 테이블을 편집합니다.

  2. 테이블 편집 창에서 일회성 전체 새로 고침 실행 확인란으로 스크롤하여 선택합니다.

    일회성 새로 고침을 위해 데이터 원본에 테이블을 구성합니다.

  3. 증분 파일 처리의 경우 증분 파일을 보관할 날짜와 시간을 지정합니다. 전체 데이터와 증분 데이터는 지정된 날짜 및 시간 이후에 처리를 시작합니다. 예를 들어 12월 초부터 오늘(12월 30일)까지 증분 데이터를 유지하면서 11월 말까지 부분 데이터 새로 고침/백필을 수행하려면 12월 1일을 입력합니다. 증분 폴더의 데이터를 모두 무시하고 모든 데이터를 바꾸려면 미래 날짜를 지정합니다.

  4. 닫기를 선택하여 창을 저장하고 닫습니다.

  5. 저장을 선택하여 변경 사항을 적용하고 데이터 원본 페이지로 돌아갑니다. 데이터 원본이 새로 고침 중 상태이며 전체 새로 고침을 수행합니다.