FileDatasetFactory 類別
包含建立 Azure Machine Learning 檔案數據集的方法。
FileDataset從from_files這個類別中定義的 方法建立 。
如需使用檔案資料集的詳細資訊,請參閱筆記本 https://aka.ms/filedataset-samplenotebook。
建構函式
FileDatasetFactory()
方法
| from_files |
建立 FileDataset 來代表檔案數據流。 |
| upload_directory |
從來源目錄建立數據集。 |
from_files
建立 FileDataset 來代表檔案數據流。
static from_files(path, validate=True, partition_format=None, is_file=False)
參數
| 名稱 | Description |
|---|---|
|
path
必要
|
|
|
validate
必要
|
指出是否要驗證是否可以從傳回的數據集載入數據。 預設值為 True。 驗證需要從目前的計算存取數據來源。 |
|
partition_format
必要
|
指定路徑的數據分割格式。 預設為 None。 每個路徑的數據分割信息都會根據指定的格式擷取到數據行中。 格式元件 '{column_name}' 會建立字符串數據行,而 '{column_name:yy/MM/dd/HH/mm/ss}' 會建立 datetime 數據行,其中 'yyyy'、'MM'、'dd'、'HH'、'mm' 和 'ss' 用來擷取日期時間類型的年、月、日、小時、分和秒。 格式應該從第一個數據分割索引鍵的位置開始,直到檔案路徑結尾為止。 例如,假設路徑為 『.。/Accounts/2019/01/01/data.jsonl',其中分割區是依部門名稱和時間, partition_format='/{Department}/{PartitionDate:yyyy/MM/dd}/data.jsonl' 會建立字符串數據行 'Department',其值為 'Accounts',而 datetime 數據行 'PartitionDate' 的值為 '2019-01-01'。 |
|
is_file
必要
|
指出所有輸入路徑是否指向檔案。 數據集引擎預設會嘗試檢查輸入路徑是否指向檔案。 當所有輸入路徑都是 [檔案] 以加速建立數據集時,將此旗標設定為 True。 |
傳回
| 類型 | Description |
|---|---|
|
FileDataset 物件。 |
備註
from_files 會建立 類別的對象 FileDataset ,這個物件會定義從提供路徑載入檔案數據流的作業。
若要讓 Azure Machine Learning 存取數據,所 path 指定的檔案必須位於 Datastore 或 可透過 Blob、ADLS Gen1 和 ADLS Gen2 的公用 Web URL 或 URL 存取。
如果使用者的 AAD 令牌會直接呼叫下列其中一個函式,則會在筆記本或本機 Python 程式中使用:FileDataset.mount FileDataset.download FileDataset.to_path TabularDataset.to_pandas_dataframe TabularDataset.to_dask_dataframe TabularDataset.to_spark_dataframe TabularDataset.to_parquet_files TabularDataset.to_csv_files Experiment.submit 所提交的作業中將會使用計算目標的身分識別以進行數據存取驗證。 深入了解:https://aka.ms/data-access
from azureml.core import Dataset, Datastore
# create file dataset from a single file in datastore
datastore = Datastore.get(workspace, 'workspaceblobstore')
file_dataset_1 = Dataset.File.from_files(path=(datastore,'image/dog.jpg'))
# create file dataset from a single directory in datastore
file_dataset_2 = Dataset.File.from_files(path=(datastore, 'image/'))
# create file dataset from all jpeg files in the directory
file_dataset_3 = Dataset.File.from_files(path=(datastore,'image/**/*.jpg'))
# create filedataset from multiple paths
data_paths = [(datastore, 'image/dog.jpg'), (datastore, 'image/cat.jpg')]
file_dataset_4 = Dataset.File.from_files(path=data_paths)
# create file dataset from url
file_dataset_5 = Dataset.File.from_files(path='https://url/image/cat.jpg')
upload_directory
從來源目錄建立數據集。
static upload_directory(src_dir, target, pattern=None, overwrite=False, show_progress=True)
參數
| 名稱 | Description |
|---|---|
|
src_dir
必要
|
要上傳的本機目錄。 |
|
target
必要
|
必要,將上傳檔案的數據存放區路徑。 |
|
pattern
必要
|
選擇性的 ,如果提供,將會篩選符合指定模式的所有路徑名稱,類似於 Python glob 套件,支援 『*』、『?』 和以 [表示的字元範圍]。 |
|
show_progress
必要
|
選擇性,指出是否要在控制台中顯示上傳的進度。 預設值為 True。 |
傳回
| 類型 | Description |
|---|---|
|
已註冊的數據集。 |