Aggregator クラス
結合キーで識別された指定された列に対する集計を定義します。
コンストラクター
Aggregator()
注釈
通常、アグリゲーターは直接インスタンス化されません。 そのため、HolidayEnricher オブジェクトなどのエンリッチャーを使用して、アグリゲーターの種類を指定します。
派生アグリゲーターには、 AggregatorAll、 AggregatorAvg、 AggregatorMax、 AggregatorMin、 AggregatorTopが含まれます。
process(env, customer_data, public_data, join_keys, debug) メソッドは集計を実行します。
メソッド
| get_log_property |
ログ プロパティタプルを取得し、プロパティがない場合は None を取得します。 |
| process |
join_keysにpublic_dataを持つ左結合customer_data。 join_keysのすべての列と、後でto_be_cleaned_up_column_namesの一覧にあるすべての列を削除します。 |
| process_public_dataset |
指定したパブリック データ列に対して集計を実行します。 |
get_log_property
ログ プロパティタプルを取得し、プロパティがない場合は None を取得します。
get_log_property()
process
join_keysにpublic_dataを持つ左結合customer_data。
join_keysのすべての列と、後でto_be_cleaned_up_column_namesの一覧にあるすべての列を削除します。
process(env: SparkEnv | PandasEnv, customer_data: CustomerData, public_data: PublicData, join_keys: list, debug: bool)
パラメーター
| 名前 | 説明 |
|---|---|
|
env
必須
|
ランタイム環境。 |
|
customer_data
必須
|
顧客データ。 |
|
public_data
必須
|
パブリック データ。 |
|
join_keys
必須
|
結合キー ペアの一覧。 |
|
debug
必須
|
デバッグ情報を出力するかどうかを示します。 |
戻り値
| 型 | 説明 |
|---|---|
|
(CustomerData クラスの新しいインスタンス、PublicData の変更されていないインスタンス、CustomerData クラスの新しい結合されたインスタンス、結合キー (タプルのリスト)) のタプル。 |
process_public_dataset
指定したパブリック データ列に対して集計を実行します。
process_public_dataset(env: RuntimeEnv, _public_dataset: object, cols: List[str] | None = None, join_keys: List[Tuple[str, str]] = []) -> object
パラメーター
| 名前 | 説明 |
|---|---|
|
env
必須
|
ランタイム環境。 |
|
_public_dataset
必須
|
パブリック データセット データフレーム。 |
|
cols
|
取得する列名の一覧。 規定値: None
|
|
join_keys
|
使用する結合キーの一覧。 規定値: []
|
戻り値
| 型 | 説明 |
|---|---|
|
パブリック データセットの新しい DataFrame。 |
属性
should_direct_join
should_direct_join = True