다음을 통해 공유


FileDatasetFactory 클래스

Azure Machine Learning용 파일 데이터 세트를 만드는 메서드를 포함합니다.

A FileDataset 는 이 클래스에 from_files 정의된 메서드에서 만들어집니다.

파일 데이터 세트 작업에 대한 자세한 내용은 Notebook https://aka.ms/filedataset-samplenotebook을 참조하세요.

생성자

FileDatasetFactory()

메서드

from_files

파일 스트림을 나타내는 FileDataset을 만듭니다.

upload_directory

원본 디렉터리에서 데이터 세트를 만듭니다.

from_files

파일 스트림을 나타내는 FileDataset을 만듭니다.

static from_files(path, validate=True, partition_format=None, is_file=False)

매개 변수

Name Description
path
필수

단일 값 또는 URL 문자열 목록(http[s]|abfs[s]|wasb[s]), DataPath 개체 또는 상대 경로의 튜플일 수 있는 원본 파일의 Datastore 경로입니다. 경로 목록에는 URL과 데이터 저장소를 함께 포함할 수 없습니다.

validate
필수

반환된 데이터 세트에서 데이터를 로드할 수 있는지 여부를 나타냅니다. 기본값은 True입니다. 유효성 검사를 수행하려면 현재 컴퓨팅에서 데이터 원본에 액세스할 수 있어야 합니다.

partition_format
필수
str

경로의 파티션 형식을 지정합니다. 기본값은 없음입니다. 각 경로의 파티션 정보는 지정된 형식에 따라 열로 추출됩니다. 형식 파트 '{column_name}'은 문자열 열을 만들고 , '{column_name:yyyy/MM/dd/HH/mm/ss}'는 날짜/시간 열을 만듭니다. 여기서 'yyyy', 'MM', 'dd', 'HH', 'mm' 및 'ss'는 날짜/시간 형식의 연도, 월, 일, 시간, 분 및 초를 추출하는 데 사용됩니다. 형식은 첫 번째 파티션 키의 위치에서 파일 경로의 끝까지 시작해야 합니다. 예를 들어 경로 '.를 지정합니다. /Accounts/2019/01/01/data.jsonl' 여기서 파티션은 부서 이름 및 시간, partition_format='/{Department}/{PartitionDate:yyyy/MM/dd}/data.jsonl'은 'Accounts' 값이 있는 문자열 열 'Department'와 '2019-01-01' 값이 있는 datetime 열 'PartitionDate'를 만듭니다.

is_file
필수

모든 입력 경로가 파일을 가리키는지 여부를 나타냅니다. 기본적으로 데이터 세트 엔진은 입력 경로가 파일을 가리키는지 여부를 확인하려고 시도합니다. 데이터 세트 만들기 속도를 높이기 위해 모든 입력 경로가 File인 경우 이 플래그를 True로 설정합니다.

반환

형식 Description

FileDataset 개체입니다.

설명

from_files 제공된 경로에서 파일 스트림을 로드하는 작업을 정의하는 클래스 개체 FileDataset 를 만듭니다.

Azure Machine Learning에서 데이터에 액세스할 수 있도록 하려면 지정된 path 파일이 Blob, ADLS Gen1 및 ADLS Gen2의 공용 웹 URL 또는 URL에 있거나 Datastore 액세스할 수 있어야 합니다.

사용자의 AAD 토큰은 Notebook 또는 로컬 Python 프로그램에서 FileDataset.mount FileDataset.download 함수 중 하나를 직접 호출하는 경우 사용됩니다. FileDataset.to_path TabularDataset.to_pandas_dataframe TabularDataset.to_dask_dataframe TabularDataset.to_spark_dataframe TabularDataset.to_parquet_files TabularDataset.to_csv_files 컴퓨팅 대상의 ID는 데이터 액세스 인증을 위해 Experiment.submit에서 제출한 작업에 사용됩니다. 자세한 정보: https://aka.ms/data-access


   from azureml.core import Dataset, Datastore

   # create file dataset from a single file in datastore
   datastore = Datastore.get(workspace, 'workspaceblobstore')
   file_dataset_1 = Dataset.File.from_files(path=(datastore,'image/dog.jpg'))

   # create file dataset from a single directory in datastore
   file_dataset_2 = Dataset.File.from_files(path=(datastore, 'image/'))

   # create file dataset from all jpeg files in the directory
   file_dataset_3 = Dataset.File.from_files(path=(datastore,'image/**/*.jpg'))

   # create filedataset from multiple paths
   data_paths = [(datastore, 'image/dog.jpg'), (datastore, 'image/cat.jpg')]
   file_dataset_4 = Dataset.File.from_files(path=data_paths)

   # create file dataset from url
   file_dataset_5 = Dataset.File.from_files(path='https://url/image/cat.jpg')

upload_directory

원본 디렉터리에서 데이터 세트를 만듭니다.

static upload_directory(src_dir, target, pattern=None, overwrite=False, show_progress=True)

매개 변수

Name Description
src_dir
필수
str

업로드할 로컬 디렉터리입니다.

target
필수

필수, 파일이 업로드될 데이터 저장소 경로입니다.

pattern
필수
str

선택 사항인 경우 지정된 패턴과 일치하는 모든 경로 이름을 필터링하며, '*', '?', []로 표현된 문자 범위를 지원하는 Python glob 패키지와 유사합니다.

show_progress
필수

선택 사항으로, 콘솔에서 업로드 진행률을 표시할지 여부를 나타냅니다. 기본값은 True입니다.

반환

형식 Description

등록된 데이터 세트입니다.