次の方法で共有


Aggregator クラス

結合キーで識別された指定された列に対する集計を定義します。

コンストラクター

Aggregator()

注釈

通常、アグリゲーターは直接インスタンス化されません。 そのため、HolidayEnricher オブジェクトなどのエンリッチャーを使用して、アグリゲーターの種類を指定します。

派生アグリゲーターには、 AggregatorAllAggregatorAvgAggregatorMaxAggregatorMinAggregatorTopが含まれます。

process(env, customer_data, public_data, join_keys, debug) メソッドは集計を実行します。

メソッド

get_log_property

ログ プロパティタプルを取得し、プロパティがない場合は None を取得します。

process

join_keysにpublic_dataを持つ左結合customer_data。

join_keysのすべての列と、後でto_be_cleaned_up_column_namesの一覧にあるすべての列を削除します。

process_public_dataset

指定したパブリック データ列に対して集計を実行します。

get_log_property

ログ プロパティタプルを取得し、プロパティがない場合は None を取得します。

get_log_property()

process

join_keysにpublic_dataを持つ左結合customer_data。

join_keysのすべての列と、後でto_be_cleaned_up_column_namesの一覧にあるすべての列を削除します。

process(env: SparkEnv | PandasEnv, customer_data: CustomerData, public_data: PublicData, join_keys: list, debug: bool)

パラメーター

名前 説明
env
必須

ランタイム環境。

customer_data
必須

顧客データ。

public_data
必須

パブリック データ。

join_keys
必須

結合キー ペアの一覧。

debug
必須

デバッグ情報を出力するかどうかを示します。

戻り値

説明

(CustomerData クラスの新しいインスタンス、PublicData の変更されていないインスタンス、CustomerData クラスの新しい結合されたインスタンス、結合キー (タプルのリスト)) のタプル。

process_public_dataset

指定したパブリック データ列に対して集計を実行します。

process_public_dataset(env: RuntimeEnv, _public_dataset: object, cols: List[str] | None = None, join_keys: List[Tuple[str, str]] = []) -> object

パラメーター

名前 説明
env
必須

ランタイム環境。

_public_dataset
必須

パブリック データセット データフレーム。

cols

取得する列名の一覧。

規定値: None
join_keys

使用する結合キーの一覧。

規定値: []

戻り値

説明

パブリック データセットの新しい DataFrame。

属性

should_direct_join

should_direct_join = True