FileDatasetFactory クラス

Azure Machine Learning 用のファイルデータセットを作成するメソッドが含まれています。

FileDatasetは、このクラスで定義されているfrom_files メソッドから作成されます。

ファイルデータセットの操作の詳細については、ノートブックの https://aka.ms/filedataset-samplenotebookを参照してください。

コンストラクター

FileDatasetFactory()

メソッド

from_files	ファイルストリームを表す FileDataset を作成します。
upload_directory	ソースディレクトリからデータセットを作成します。

from_files

ファイルストリームを表す FileDataset を作成します。

static from_files(path, validate=True, partition_format=None, is_file=False)

パラメーター

名前	説明
path 必須	Union[str, list[str], DataPath, list[DataPath], (Datastore, str), list[(Datastore, str)]] ソースファイルへのパス。単一値または URL 文字列のリスト (http[s]\|abfs[s]\|wasb[s])、 DataPath オブジェクト、または Datastore と相対パスのタプルを指定できます。パスの一覧には、URL とデータストアの両方を一緒に含めることはできません。
validate 必須	bool 返されたデータセットからデータを読み込むことができるかどうかを検証するかどうかを示します。既定値は True です。検証では、データソースに現在のコンピューティングからアクセスできる必要があります。
partition_format 必須	str パスのパーティション形式を指定します。デフォルトは「なし」です。各パスのパーティション情報は、指定された形式に基づいて列に抽出されます。書式パーツ '{column_name}' は文字列列を作成し、'{column_name:yyyy/MM/dd/HH/mm/ss}' は datetime 列を作成します。ここで、datetime 型の年、月、日、時、分、秒を抽出するために 'yyyy'、'MM'、'dd'、'hh'、'mm'、'ss' が使用されます。形式は、最初のパーティションキーの位置からファイルパスの末尾まで開始する必要があります。たとえば、パス '../Accounts/2019/01/01/data.jsonl' では、パーティションは部門名と時刻によって、partition_format='/{Department}/{PartitionDate:yyyy/MM/dd}/data.jsonl' は値 'Accounts' を持つ文字列列 'Department' を作成し、値 '2019-01-01' を持つ datetime 列 'PartitionDate' を作成します。
is_file 必須	bool すべての入力パスがファイルを指しているかどうかを示します。データセットエンジンは、既定で、入力パスがファイルを指しているかどうかを確認しようとします。データセットの作成を高速化するためにすべての入力パスが File の場合は、このフラグを True に設定します。

戻り値

型	説明
FileDataset	FileDataset オブジェクト。

注釈

from_files は、指定されたパスからファイルストリームを読み込む操作を定義する、 FileDataset クラスのオブジェクトを作成します。

Azure Machine Learning でデータにアクセスできるようにするには、 path で指定されたファイルが Datastore に配置されているか、BLOB、ADLS Gen1、ADLS Gen2 のパブリック Web URL または URL でアクセスできる必要があります。

ユーザーの AAD トークンは、次のいずれかの関数を直接呼び出す場合、ノートブックまたはローカル Python プログラムで使用されます。FileDataset.mount FileDataset.download FileDataset.to_path TabularDataset.to_pandas_dataframe TabularDataset.to_dask_dataframe TabularDataset.to_spark_dataframe TabularDataset.to_parquet_files TabularDataset.to_csv_filesコンピューティングターゲットの ID は、Experiment.submit によって送信されたジョブでデータアクセス認証に使用されます。詳細情報: https://aka.ms/data-access


   from azureml.core import Dataset, Datastore

   # create file dataset from a single file in datastore
   datastore = Datastore.get(workspace, 'workspaceblobstore')
   file_dataset_1 = Dataset.File.from_files(path=(datastore,'image/dog.jpg'))

   # create file dataset from a single directory in datastore
   file_dataset_2 = Dataset.File.from_files(path=(datastore, 'image/'))

   # create file dataset from all jpeg files in the directory
   file_dataset_3 = Dataset.File.from_files(path=(datastore,'image/**/*.jpg'))

   # create filedataset from multiple paths
   data_paths = [(datastore, 'image/dog.jpg'), (datastore, 'image/cat.jpg')]
   file_dataset_4 = Dataset.File.from_files(path=data_paths)

   # create file dataset from url
   file_dataset_5 = Dataset.File.from_files(path='https://url/image/cat.jpg')

upload_directory

ソースディレクトリからデータセットを作成します。

static upload_directory(src_dir, target, pattern=None, overwrite=False, show_progress=True)

パラメーター

名前	説明
src_dir 必須	str アップロードするローカルディレクトリ。
target 必須	Union[DataPath, Datastore, tuple(Datastore, str)] 必須。ファイルのアップロード先となるデータストアパス。
pattern 必須	str 省略可能。指定した場合、指定されたパターンに一致するすべてのパス名がフィルター処理されます。これは、Python glob パッケージと同様に、'*'、'?' をサポートし、文字範囲は [] で表されます。
show_progress 必須	bool オプション。アップロードの進行状況をコンソールに表示するかどうかを示します。既定値は True です。

戻り値

型	説明
FileDataset	登録されたデータセット。

フィードバック

このページはお役に立ちましたか?

次の方法で共有

FileDatasetFactory クラス

コンストラクター

メソッド

from_files

パラメーター

戻り値

注釈

upload_directory

パラメーター

戻り値

フィードバック