Aggregator 클래스

조인 키로 식별된 지정된 열에 대한 집계를 정의합니다.

생성자

Aggregator()

집계는 일반적으로 직접 인스턴스화되지 않습니다. 대신 개체와 같은 보강자를 사용할 때 집계의 형식을 HolidayEnricher 지정합니다.

메서드는 process(env, customer_data, public_data, join_keys, debug) 집계를 수행합니다.

로그 속성 튜플을 가져옵니다. 속성이 없으면 None입니다.

process

왼쪽 조인 customer_data join_keys public_data.

join_keys 모든 열을 삭제하고 나중에 to_be_cleaned_up_column_names 목록에 있는 모든 열을 삭제합니다.

지정된 공용 데이터 열에 대한 집계를 수행합니다.

로그 속성 튜플을 가져옵니다. 속성이 없으면 None입니다.

get_log_property()

왼쪽 조인 customer_data join_keys public_data.

join_keys 모든 열을 삭제하고 나중에 to_be_cleaned_up_column_names 목록에 있는 모든 열을 삭제합니다.

process(env: SparkEnv | PandasEnv, customer_data: CustomerData, public_data: PublicData, join_keys: list, debug: bool)

형식	Description
tuple[ CustomerData, PublicData, CustomerData, list[tuple([str, str])]	(CustomerData 클래스의 새 인스턴스, 변경되지 않은 PublicData 인스턴스, CustomerData 클래스의 새 조인 인스턴스, 조인 키(튜플 목록))의 튜플입니다.

지정된 공용 데이터 열에 대한 집계를 수행합니다.

process_public_dataset(env: RuntimeEnv, _public_dataset: object, cols: List[str] | None = None, join_keys: List[Tuple[str, str]] = []) -> object

Name	Description
env 필수	RuntimeEnv 런타임 환경입니다.
_public_dataset 필수	DataFrame 공용 데이터 세트 데이터 프레임입니다.
cols	list 검색할 열 이름 목록입니다. Default value: None
join_keys	list 사용할 조인 키 목록입니다. Default value: []

형식	Description
object	공용 데이터 세트의 새 DataFrame입니다.

should_direct_join = True

이 페이지가 도움이 되었나요?