다음을 통해 공유


Aggregator 클래스

조인 키로 식별된 지정된 열에 대한 집계를 정의합니다.

생성자

Aggregator()

설명

집계는 일반적으로 직접 인스턴스화되지 않습니다. 대신 개체와 같은 보강자를 사용할 때 집계의 형식을 HolidayEnricher 지정합니다.

파생된 집계에는 , AggregatorAll, AggregatorAvg, AggregatorMaxAggregatorMin등이 포함AggregatorTop됩니다.

메서드는 process(env, customer_data, public_data, join_keys, debug) 집계를 수행합니다.

메서드

get_log_property

로그 속성 튜플을 가져옵니다. 속성이 없으면 None입니다.

process

왼쪽 조인 customer_data join_keys public_data.

join_keys 모든 열을 삭제하고 나중에 to_be_cleaned_up_column_names 목록에 있는 모든 열을 삭제합니다.

process_public_dataset

지정된 공용 데이터 열에 대한 집계를 수행합니다.

get_log_property

로그 속성 튜플을 가져옵니다. 속성이 없으면 None입니다.

get_log_property()

process

왼쪽 조인 customer_data join_keys public_data.

join_keys 모든 열을 삭제하고 나중에 to_be_cleaned_up_column_names 목록에 있는 모든 열을 삭제합니다.

process(env: SparkEnv | PandasEnv, customer_data: CustomerData, public_data: PublicData, join_keys: list, debug: bool)

매개 변수

Name Description
env
필수

런타임 환경입니다.

customer_data
필수

고객 데이터입니다.

public_data
필수

공용 데이터입니다.

join_keys
필수

조인 키 쌍의 목록입니다.

debug
필수

디버그 정보를 인쇄할지 여부를 나타냅니다.

반환

형식 Description

(CustomerData 클래스의 새 인스턴스, 변경되지 않은 PublicData 인스턴스, CustomerData 클래스의 새 조인 인스턴스, 조인 키(튜플 목록))의 튜플입니다.

process_public_dataset

지정된 공용 데이터 열에 대한 집계를 수행합니다.

process_public_dataset(env: RuntimeEnv, _public_dataset: object, cols: List[str] | None = None, join_keys: List[Tuple[str, str]] = []) -> object

매개 변수

Name Description
env
필수

런타임 환경입니다.

_public_dataset
필수

공용 데이터 세트 데이터 프레임입니다.

cols

검색할 열 이름 목록입니다.

Default value: None
join_keys

사용할 조인 키 목록입니다.

Default value: []

반환

형식 Description

공용 데이터 세트의 새 DataFrame입니다.

특성

should_direct_join

should_direct_join = True