DatasetDefinition クラス

データセット内のデータを読み取って変換する方法を指定する一連の手順を定義します。

注

このクラスは非推奨です。詳細については、https://aka.ms/dataset-deprecationを参照してください。

Azure Machine Learning ワークスペースに登録されたデータセットには複数の定義を含めることができます。各定義は、 update_definitionを呼び出すことによって作成されます。各定義には一意の識別子があります。現在の定義は、作成された最新の定義です。

未登録のデータセットの場合、定義は 1 つだけ存在します。

データセット定義では、 <xref:azureml.dataprep.Dataflow> クラスに一覧表示されているすべての変換がサポートされています。 http://aka.ms/azureml/howto/transformdataを参照してください。データセット定義の詳細については、「 https://aka.ms/azureml/howto/versiondata」を参照してください。

データセット定義オブジェクトを初期化します。

コンストラクター

DatasetDefinition(workspace=None, dataset_id=None, version_id=None, dataflow=None, dataflow_json=None, notes=None, etag=None, created_time=None, modified_time=None, state=None, deprecated_by_dataset_id=None, deprecated_by_definition_version=None, data_path=None, dataset=None, file_type='Unknown')

パラメーター

名前	説明
workspace 必須	str データセットが登録されているワークスペース。
dataset_id 必須	str データセット識別子。
version_id 必須	str 定義のバージョン。
dataflow 必須	str データフローオブジェクト。
dataflow_json 必須	データフロー json。
notes 必須	str 定義に関する省略可能な情報。
etag 必須	str Etag。
created_time 必須	datetime 定義の作成時刻。
modified_time 必須	datetime 定義の最終変更時刻。
deprecated_by_dataset_id 必須	str この定義を非推奨とするデータセットの ID。
deprecated_by_definition_version 必須	str この定義を非推奨にする定義のバージョン。
data_path 必須	DataPath データパス。
dataset 必須	Dataset 親 Dataset オブジェクト。

メソッド

archive	データセット定義をアーカイブします。
create_snapshot	登録済みのデータセットのスナップショットを作成します。
deprecate	新しいデータセットへのポインターを使用して、データセットを非推奨にしてください。
reactivate	データセット定義を再アクティブ化します。非推奨またはアーカイブされたデータセット定義で動作します。
to_pandas_dataframe	このデータセット定義で定義された変換パイプラインを実行して、Pandas データフレームを作成します。
to_spark_dataframe	このデータフローによって定義された変換パイプラインを実行できる Spark DataFrame を作成します。

create_snapshot

登録済みのデータセットのスナップショットを作成します。

create_snapshot(snapshot_name, compute_target=None, create_data_snapshot=False, target_datastore=None)

パラメーター

名前	説明
snapshot_name 必須	str スナップショット名。スナップショット名は、データセット内で一意である必要があります。
compute_target	ComputeTarget または str スナップショットプロファイルの作成を実行するコンピューティング先。省略すると、ローカルコンピューティングが使用されます。規定値: None
create_data_snapshot	bool True の場合、データの具体化されたコピーが作成されます。規定値: False
target_datastore	Union[AbstractAzureStorageDatastore, str] スナップショットを保存するターゲットデータストア。省略すると、ワークスペースの既定のストレージにスナップショットが作成されます。規定値: None

戻り値

型	説明
DatasetSnapshot	DatasetSnapshot オブジェクト。

注釈

スナップショットは、基になるデータのポイントインタイムサマリー統計と、データ自体のオプションのコピーをキャプチャします。スナップショットの作成の詳細については、「 https://aka.ms/azureml/howto/createsnapshots」を参照してください。

deprecate

新しいデータセットへのポインターを使用して、データセットを非推奨にしてください。

deprecate(deprecate_by_dataset_id, deprecated_by_definition_version=None)

パラメーター

名前	説明
deprecate_by_dataset_id 必須	uuid 現在のデータセットの廃止を担当するデータセット ID。
deprecated_by_definition_version	str 現在のデータセット定義の廃止を担当するデータセット定義バージョン。規定値: None

戻り値

型	説明
None	なし。

注釈

非推奨のデータセット定義では、警告が使用されるとログに記録されます。データセット定義の使用を完全にブロックするには、それをアーカイブします。

データセット定義が誤って非推奨になった場合は、 reactivate を使用してアクティブ化します。

reactivate

データセット定義を再アクティブ化します。

非推奨またはアーカイブされたデータセット定義で動作します。

reactivate()

戻り値

型	説明
None	なし。

to_pandas_dataframe

このデータセット定義で定義された変換パイプラインを実行して、Pandas データフレームを作成します。

to_pandas_dataframe()

戻り値

型	説明
DataFrame	Pandas DataFrame。

注釈

メモリ内で完全に具体化された Pandas DataFrame を返します。

to_spark_dataframe

このデータフローによって定義された変換パイプラインを実行できる Spark DataFrame を作成します。

to_spark_dataframe()

戻り値

型	説明
DataFrame	Spark DataFrame。

注釈

返される Spark データフレームは実行プランに過ぎず、Spark データフレームは遅延評価されるため、実際にはデータは含まれません。

フィードバック

このページはお役に立ちましたか?

次の方法で共有

DatasetDefinition クラス

コンストラクター

パラメーター

メソッド

archive

戻り値

注釈

create_snapshot

パラメーター

戻り値

注釈

deprecate

パラメーター

戻り値

注釈

reactivate

戻り値

to_pandas_dataframe

戻り値

注釈

to_spark_dataframe

戻り値

注釈

フィードバック