AbstractDataset クラス

Azure Machine Learning のデータセットの基本クラス。

TabularDatasetFactoryクラスとFileDatasetFactoryクラスを参照して、データセットのインスタンスを作成してください。

Class AbstractDataset コンストラクター。

このコンストラクターは、直接呼び出すことはできません。データセットは、 TabularDatasetFactory クラスと FileDatasetFactory クラスを使用して作成することを目的としています。

コンストラクター

AbstractDataset()

メソッド

add_tags	このデータセットのタグディクショナリにキー値ペアを追加します。
as_named_input	実行で具体化されたデータセットを取得するために使用する、このデータセットの名前を指定します。
get_all	ワークスペースに登録されているすべてのデータセットを取得します。
get_by_id	ワークスペースに保存されているデータセットを取得します。
get_by_name	登録名でワークスペースから登録済みデータセットを取得します。
get_partition_key_values	partition_keysの一意のキー値を返します。 partition_keysがパーティションキーの完全なセットの有効なサブセットであるかどうかを検証し、partition_keysの一意のキー値を返します。既定では、partition_keysが None の場合、このデータセットのパーティションキーの完全なセットを取得して一意のキーの組み合わせを返します `# get all partition key value pairs partitions = ds.get_partition_key_values() # Return [{'country': 'US', 'state': 'WA', 'partition_date': datetime('2020-1-1')}] partitions = ds.get_partition_key_values(['country']) # Return [{'country': 'US'}]`
register	データセットを指定されたワークスペースに登録します。
remove_tags	このデータセットのタグディクショナリから指定したキーを削除します。
unregister_all_versions	ワークスペースから、このデータセットの登録名に基づくすべてのバージョンの登録を解除します。
update	データセットのインプレース更新を実行します。

add_tags

このデータセットのタグディクショナリにキー値ペアを追加します。

add_tags(tags=None)

パラメーター

名前	説明
tags 必須	dict[str, str] 追加するタグのディクショナリ。

戻り値

型	説明
Union[TabularDataset, FileDataset]	更新されたデータセットオブジェクト。

as_named_input

実行で具体化されたデータセットを取得するために使用する、このデータセットの名前を指定します。

as_named_input(name)

パラメーター

名前	説明
name 必須	str 実行のデータセットの名前。

戻り値

型	説明
DatasetConsumptionConfig	実行でデータセットを具体化する方法を記述する構成オブジェクト。

注釈

ここでの名前は、Azure Machine Learning の実行内でのみ適用されます。環境変数として使用できるように、名前には英数字とアンダースコアの文字のみを含める必要があります。この名前を使用すると、次の 2 つの方法を使用して、実行のコンテキストでデータセットを取得できます。

環境変数:

名前は環境変数名になり、具体化されたデータセットは環境変数の値として使用できるようになります。データセットがダウンロードまたはマウントされている場合、値はダウンロード/マウントされたパスになります。例えば次が挙げられます。


   # in your job submission notebook/script:
   dataset.as_named_input('foo').as_download('/tmp/dataset')

   # in the script that will be executed in the run
   import os
   path = os.environ['foo'] # path will be /tmp/dataset

注

データセットがダイレクトモードに設定されている場合、値はデータセット ID になります。次に、次の手順を実行します。

Dataset.get_by_id(os.environ['foo']) を実行してデータセットオブジェクトを取得する

Run.input_datasets:

これはディクショナリで、キーはこのメソッドで指定したデータセット名になり、値は具体化されたデータセットになります。ダウンロードおよびマウントされたデータセットの場合、値はダウンロード/マウントされたパスになります。ダイレクトモードの場合、値はジョブ送信スクリプトで指定したのと同じデータセットオブジェクトになります。


   # in your job submission notebook/script:
   dataset.as_named_input('foo') # direct mode

   # in the script that will be executed in the run
   run = Run.get_context()
   run.input_datasets['foo'] # this returns the dataset object from above.

get_all

ワークスペースに登録されているすべてのデータセットを取得します。

static get_all(workspace)

パラメーター

名前	説明
workspace 必須	Workspace データセットが登録された既存の AzureML ワークスペース。

戻り値

型	説明
dict[str, Union[TabularDataset, FileDataset]]	登録名でキー指定された TabularDataset オブジェクトと FileDataset オブジェクトのディクショナリ。

get_by_id

ワークスペースに保存されているデータセットを取得します。

static get_by_id(workspace, id, **kwargs)

パラメーター

名前	説明
workspace 必須	Workspace データセットが保存されている既存の AzureML ワークスペース。
id 必須	str データセットの ID。

戻り値

型	説明
Union[TabularDataset, FileDataset]	データセットオブジェクト。データセットが登録されている場合、その登録名とバージョンも返されます。

get_by_name

登録名でワークスペースから登録済みデータセットを取得します。

static get_by_name(workspace, name, version='latest', **kwargs)

パラメーター

名前	説明
workspace 必須	Workspace データセットが登録された既存の AzureML ワークスペース。
name 必須	str 登録名。
version 必須	int 登録バージョン。既定値は 'latest' です。

戻り値

型	説明
Union[TabularDataset, FileDataset]	登録済みのデータセットオブジェクト。

get_partition_key_values

partition_keysの一意のキー値を返します。

partition_keysがパーティションキーの完全なセットの有効なサブセットであるかどうかを検証し、partition_keysの一意のキー値を返します。既定では、partition_keysが None の場合、このデータセットのパーティションキーの完全なセットを取得して一意のキーの組み合わせを返します


   # get all partition key value pairs
   partitions = ds.get_partition_key_values()
   # Return [{'country': 'US', 'state': 'WA', 'partition_date': datetime('2020-1-1')}]

   partitions = ds.get_partition_key_values(['country'])
   # Return [{'country': 'US'}]

get_partition_key_values(partition_keys=None)

パラメーター

名前	説明
partition_keys 必須	list[str] パーティションキー

register

データセットを指定されたワークスペースに登録します。

register(workspace, name, description=None, tags=None, create_new_version=False)

パラメーター

名前	説明
workspace 必須	Workspace データセットを登録するワークスペース。
name 必須	str データセットを登録する名前。
description 必須	str データセットのテキストの説明。デフォルトは「なし」です。
tags 必須	dict[str, str] データセットを提供するキー値タグのディクショナリ。デフォルトは「なし」です。
create_new_version 必須	bool 指定した名前でデータセットを新しいバージョンとして登録するブール値。

戻り値

型	説明
Union[TabularDataset, FileDataset]	登録済みのデータセットオブジェクト。

remove_tags

このデータセットのタグディクショナリから指定したキーを削除します。

remove_tags(tags=None)

パラメーター

名前	説明
tags 必須	list[str] 削除するキーの一覧。

戻り値

型	説明
Union[TabularDataset, FileDataset]	更新されたデータセットオブジェクト。

unregister_all_versions

ワークスペースから、このデータセットの登録名に基づくすべてのバージョンの登録を解除します。

unregister_all_versions()

注釈

この操作では、ソースデータは変更されません。

update

データセットのインプレース更新を実行します。

update(description=None, tags=None)

パラメーター

名前	説明
description 必須	str データセットに使用する新しい説明。この説明は、既存の説明を置き換えます。既定値は既存の説明です。説明をクリアするには、空の文字列を入力します。
tags 必須	dict[str, str] データセットを更新するタグのディクショナリ。これらのタグは、データセットの既存のタグを置き換えます。既定では、既存のタグが使用されます。タグをクリアするには、空の辞書を入力します。

戻り値

型	説明
Union[TabularDataset, FileDataset]	更新されたデータセットオブジェクト。

属性

data_changed_time

ソースデータの変更時刻を返します。

戻り値

型	説明
datetime	ソースデータに対して最新の変更が発生した時刻。

注釈

データの変更時刻は、ファイルベースのデータソースで使用できます。変更が発生した場合のチェックでデータソースがサポートされていない場合は、なしが返されます。

description

登録の説明を返します。

戻り値

型	説明
str	データセットの説明。

id

データセットの識別子を返します。

戻り値

型	説明
str	データセット ID。データセットがワークスペースに保存されていない場合、ID は None になります。

name

登録名を返します。

戻り値

型	説明
str	データセットの名前。

partition_keys

パーティションキーを返します。

戻り値

型	説明
list[str]	パーティションキー

型	説明
str	データセットタグ。

version

登録バージョンを返します。

戻り値

型	説明
int	データセットのバージョン。

フィードバック

このページはお役に立ちましたか?

次の方法で共有

AbstractDataset クラス

コンストラクター

メソッド

add_tags

パラメーター

戻り値

as_named_input

パラメーター

戻り値

注釈

get_all

パラメーター

戻り値

get_by_id

パラメーター

戻り値

get_by_name

パラメーター

戻り値

get_partition_key_values

パラメーター

register

パラメーター

戻り値

remove_tags

パラメーター

戻り値

unregister_all_versions

注釈

update

パラメーター

戻り値

属性

data_changed_time

戻り値

注釈

description

戻り値

id

戻り値

name

戻り値

partition_keys

戻り値

tags

戻り値

version

戻り値

フィードバック