DatasetDefinition クラス
データセット内のデータを読み取って変換する方法を指定する一連の手順を定義します。
注
このクラスは非推奨です。 詳細については、https://aka.ms/dataset-deprecationを参照してください。
Azure Machine Learning ワークスペースに登録されたデータセットには複数の定義を含めることができます。各定義は、 update_definitionを呼び出すことによって作成されます。 各定義には一意の識別子があります。 現在の定義は、作成された最新の定義です。
未登録のデータセットの場合、定義は 1 つだけ存在します。
データセット定義では、 <xref:azureml.dataprep.Dataflow> クラスに一覧表示されているすべての変換がサポートされています。 http://aka.ms/azureml/howto/transformdataを参照してください。 データセット定義の詳細については、「 https://aka.ms/azureml/howto/versiondata」を参照してください。
データセット定義オブジェクトを初期化します。
コンストラクター
DatasetDefinition(workspace=None, dataset_id=None, version_id=None, dataflow=None, dataflow_json=None, notes=None, etag=None, created_time=None, modified_time=None, state=None, deprecated_by_dataset_id=None, deprecated_by_definition_version=None, data_path=None, dataset=None, file_type='Unknown')
パラメーター
| 名前 | 説明 |
|---|---|
|
workspace
必須
|
データセットが登録されているワークスペース。 |
|
dataset_id
必須
|
データセット識別子。 |
|
version_id
必須
|
定義のバージョン。 |
|
dataflow
必須
|
データフロー オブジェクト。 |
|
dataflow_json
必須
|
データフロー json。 |
|
notes
必須
|
定義に関する省略可能な情報。 |
|
etag
必須
|
Etag。 |
|
created_time
必須
|
定義の作成時刻。 |
|
modified_time
必須
|
定義の最終変更時刻。 |
|
deprecated_by_dataset_id
必須
|
この定義を非推奨とするデータセットの ID。 |
|
deprecated_by_definition_version
必須
|
この定義を非推奨にする定義のバージョン。 |
|
data_path
必須
|
データ パス。 |
|
dataset
必須
|
親 Dataset オブジェクト。 |
メソッド
| archive |
データセット定義をアーカイブします。 |
| create_snapshot |
登録済みのデータセットのスナップショットを作成します。 |
| deprecate |
新しいデータセットへのポインターを使用して、データセットを非推奨にしてください。 |
| reactivate |
データセット定義を再アクティブ化します。 非推奨またはアーカイブされたデータセット定義で動作します。 |
| to_pandas_dataframe |
このデータセット定義で定義された変換パイプラインを実行して、Pandas データフレームを作成します。 |
| to_spark_dataframe |
このデータフローによって定義された変換パイプラインを実行できる Spark DataFrame を作成します。 |
archive
データセット定義をアーカイブします。
archive()
戻り値
| 型 | 説明 |
|---|---|
|
なし。 |
注釈
アーカイブ後、データセットを取得しようとするとエラーが発生します。 誤ってアーカイブされた場合は、 reactivate を使用してアクティブ化します。
create_snapshot
登録済みのデータセットのスナップショットを作成します。
create_snapshot(snapshot_name, compute_target=None, create_data_snapshot=False, target_datastore=None)
パラメーター
| 名前 | 説明 |
|---|---|
|
snapshot_name
必須
|
スナップショット名。 スナップショット名は、データセット内で一意である必要があります。 |
|
compute_target
|
ComputeTarget または
str
スナップショット プロファイルの作成を実行するコンピューティング 先。 省略すると、ローカル コンピューティングが使用されます。 規定値: None
|
|
create_data_snapshot
|
True の場合、データの具体化されたコピーが作成されます。 規定値: False
|
|
target_datastore
|
スナップショットを保存するターゲット データストア。 省略すると、ワークスペースの既定のストレージにスナップショットが作成されます。 規定値: None
|
戻り値
| 型 | 説明 |
|---|---|
|
DatasetSnapshot オブジェクト。 |
注釈
スナップショットは、基になるデータのポイントインタイム サマリー統計と、データ自体のオプションのコピーをキャプチャします。 スナップショットの作成の詳細については、「 https://aka.ms/azureml/howto/createsnapshots」を参照してください。
deprecate
新しいデータセットへのポインターを使用して、データセットを非推奨にしてください。
deprecate(deprecate_by_dataset_id, deprecated_by_definition_version=None)
パラメーター
| 名前 | 説明 |
|---|---|
|
deprecate_by_dataset_id
必須
|
現在のデータセットの廃止を担当するデータセット ID。 |
|
deprecated_by_definition_version
|
現在のデータセット定義の廃止を担当するデータセット定義バージョン。 規定値: None
|
戻り値
| 型 | 説明 |
|---|---|
|
なし。 |
注釈
非推奨のデータセット定義では、警告が使用されるとログに記録されます。 データセット定義の使用を完全にブロックするには、それをアーカイブします。
データセット定義が誤って非推奨になった場合は、 reactivate を使用してアクティブ化します。
reactivate
to_pandas_dataframe
このデータセット定義で定義された変換パイプラインを実行して、Pandas データフレームを作成します。
to_pandas_dataframe()
戻り値
| 型 | 説明 |
|---|---|
|
Pandas DataFrame。 |
注釈
メモリ内で完全に具体化された Pandas DataFrame を返します。
to_spark_dataframe
このデータフローによって定義された変換パイプラインを実行できる Spark DataFrame を作成します。
to_spark_dataframe()
戻り値
| 型 | 説明 |
|---|---|
|
Spark DataFrame。 |
注釈
返される Spark データフレームは実行プランに過ぎず、Spark データフレームは遅延評価されるため、実際にはデータは含まれません。