รูปแบบ Parquet ใน Data Factory ใน Microsoft Fabric

บทความนี้สรุปวิธีการกําหนดค่ารูปแบบ Parquet ในไปป์ไลน์ของ Data Factory ใน Microsoft Fabric

ความสามารถที่รองรับ

รูปแบบ Parquet ได้รับการสนับสนุนสําหรับกิจกรรมและตัวเชื่อมต่อต่อไปนี้เป็นต้นทางและปลายทาง

หมวดหมู่	ตัวเชื่อมต่อ/กิจกรรม
ตัวเชื่อมต่อที่สนับสนุน	อเมซอน S3
	เข้ากันได้กับ Amazon S3
	ที่เก็บข้อมูล Azure Blob
	Azure Data Lake Storage Gen1
	Azure Data Lake Storage รุ่น2
	ไฟล์ Azure
	ระบบไฟล์
	FTP
	พื้นที่เก็บข้อมูล Google Cloud
	HTTP
	ไฟล์ของเลคเฮ้าส์
	ที่เก็บข้อมูล Oracle Cloud
	SFTP
กิจกรรมที่ได้รับการสนับสนุน	คัดลอกกิจกรรม (ต้นทาง/ปลายทาง)
	ค้นหากิจกรรม
	กิจกรรม GetMetadata
	ลบกิจกรรม

รูปแบบ Parquet ในกิจกรรมคัดลอก

เมื่อต้องการกําหนดค่ารูปแบบ Parquet ให้เลือกการเชื่อมต่อของคุณในต้นทางหรือปลายทางของกิจกรรมการคัดลอกไปป์ไลน์ แล้วเลือก Parquet ในรายการดรอปดาวน์ของ รูปแบบไฟล์ เลือก การตั้งค่า สําหรับการกําหนดค่าเพิ่มเติมของรูปแบบนี้

สกรีนช็อตที่แสดงการตั้งค่ารูปแบบไฟล์

รูปแบบ Parquet เป็นแหล่งข้อมูล

หลังจากที่คุณเลือก การตั้งค่า ในส่วน รูปแบบไฟล์ คุณสมบัติต่อไปนี้จะแสดงในกล่องโต้ตอบการตั้งค่ารูปแบบไฟล์แบบป็อปอัพ

สกรีนช็อตที่แสดงแหล่งที่มาของรูปแบบไฟล์ parquet

ชนิดการบีบอัด: เลือกตัวแปลงสัญญาณการบีบอัดที่ใช้ในการอ่านไฟล์ Parquet ในรายการดรอปดาวน์ คุณสามารถเลือกจาก ไม่มี, gzip (.gz), snappy, lzo, Brotli (.br), Zstandard, lz4, lz4frame, bzip2 (.bz2) หรือ lz4hadoop

รูปแบบ Parquet เป็นปลายทาง

หลังจากที่คุณเลือก การตั้งค่า คุณสมบัติต่อไปนี้จะแสดงในกล่องโต้ตอบการตั้งค่ารูปแบบไฟล์แบบป็อปอัพ

สกรีนช็อตที่แสดงปลายทางรูปแบบไฟล์ parquet

ชนิดการบีบอัด: เลือกตัวแปลงสัญญาณการบีบอัดที่ใช้ในการเขียนไฟล์ Parquet ในรายการดรอปดาวน์ คุณสามารถเลือกจาก ไม่มี, gzip (.gz), snappy, lzo, Brotli (.br), Zstandard, lz4, lz4frame, bzip2 (.bz2) หรือ lz4hadoop
ใช้ V-Order: เปิดใช้งานการปรับเวลาการเขียนให้เหมาะสมกับรูปแบบไฟล์ parquet สําหรับข้อมูลเพิ่มเติม ดูการปรับตาราง Delta Lake ให้เหมาะสมและ V-Order ซึ่งจะเปิดใช้งานตามค่าเริ่มต้น

ภายใต้ การตั้งค่าขั้นสูง ใน แท็บ ปลายทาง คุณสมบัติที่เกี่ยวข้องกับรูปแบบ Parquet ต่อไปนี้จะปรากฏขึ้น

แถวสูงสุดต่อไฟล์: เมื่อเขียนข้อมูลลงในโฟลเดอร์ คุณสามารถเลือกที่จะเขียนไปยังหลายไฟล์และระบุแถวสูงสุดต่อไฟล์ได้ ระบุแถวสูงสุดที่คุณต้องการเขียนต่อไฟล์
คํานําหน้าชื่อไฟล์: ใช้ได้เมื่อมีการกําหนดค่าแถวสูงสุดต่อไฟล์ ระบุคํานําหน้าชื่อไฟล์เมื่อเขียนข้อมูลไปยังหลายไฟล์ ส่งผลให้เป็นรูปแบบนี้: <fileNamePrefix>_00000.<fileExtension> ถ้าไม่ได้ระบุ คํานําหน้าชื่อไฟล์จะถูกสร้างขึ้นโดยอัตโนมัติ คุณสมบัตินี้ใช้ไม่ได้เมื่อแหล่งข้อมูลเป็นที่เก็บตามไฟล์หรือตัวเลือกพาร์ติชันที่เปิดใช้งานที่เก็บข้อมูล

การแมป

สําหรับการกําหนดค่าแท็บ การแม็ป ถ้าคุณไม่ได้ใช้รูปแบบ Parquet เป็นที่เก็บข้อมูลปลายทางของคุณ ให้ไปที่ การแม็ป

แก้ไขชนิดข้อมูลปลายทาง

เมื่อคัดลอกข้อมูลไปยังตัวเชื่อมต่อปลายทางในรูปแบบ Parquet ยกเว้นการกําหนดค่าใน การแมป คุณสามารถระบุประเภทคอลัมน์ปลายทางบางประเภทได้หลังจากเปิดใช้งานการตั้งค่าประเภท Parquet ขั้นสูง คุณยังสามารถกําหนดค่าตัวเลือก IsNullable เพื่อระบุว่าคอลัมน์ปลายทาง Parquet แต่ละคอลัมน์อนุญาตให้ใช้ค่า Null หรือไม่ ค่าเริ่มต้นสําหรับ IsNullable คือ true.

การแม็ปต่อไปนี้ใช้จากชนิดข้อมูลชั่วคราวที่รองรับการแก้ไขโดยบริการภายในไปยังชนิดข้อมูล Parquet

ชนิดข้อมูลบริการชั่วคราว	ชนิดตรรกะของ Parquet	ประเภททางกายภาพของไม้ปาร์เก้
วันที่เวลา	ตัวเลือกที่ 1: null ตัวเลือกที่ 2: การประทับเวลา	ตัวเลือกที่ 1: INT96 (ค่าเริ่มต้น) ตัวเลือกที่ 2: INT64 (หน่วย: MILLIS, MICROS, NANOS (ค่าเริ่มต้น))
วันที่เวลาออฟเซ็ต	ตัวเลือกที่ 1: null ตัวเลือกที่ 2: การประทับเวลา	ตัวเลือกที่ 1: INT96 (ค่าเริ่มต้น) ตัวเลือกที่ 2: INT64 (หน่วย: MILLIS, MICROS, NANOS (ค่าเริ่มต้น))
ช่วงเวลา	เวลา	INT32 (หน่วย: MILLIS) INT64 (หน่วย: MICROS, NANOS (ค่าเริ่มต้น))
ทศนิยม	ทศนิยม	INT32 (1 <= ความแม่นยํา <= 9) INT64 (ความแม่นยํา <9 < = 18) FIXED_LEN_BYTE_ARRAY (ความแม่นยํา > 18) (ค่าเริ่มต้น)
GUID	ตัวเลือกที่ 1: STRING ตัวเลือกที่ 2: UUID	ตัวเลือกที่ 1: BYTE_ARRAY (ค่าเริ่มต้น) ตัวเลือกที่ 2: FIXED_LEN_BYTE_ARRAY
อาร์เรย์ไบต์	null	BYTE_ARRAY (ค่าเริ่มต้น) หรือ FIXED_LEN_BYTE_ARRAY

ตัวอย่างเช่น คอลัมน์ชนิดสําหรับ ข้อมูลทศนิยม ในแหล่งข้อมูลจะถูกแปลงเป็นชนิดบริการชั่วคราว: ทศนิยม ตามตารางการแมปด้านบน ประเภทที่แมปสําหรับคอลัมน์ปลายทางจะถูกกําหนดโดยอัตโนมัติตามความแม่นยําที่ระบุ หากความแม่นยํา 9 หรือน้อยกว่า จะถูกแมปกับ INT32 สําหรับค่าความแม่นยําที่สูงกว่า 9 และสูงสุด 18 จะถูกแมปกับ INT64 หากความแม่นยําเกิน 18 จะถูกแมปกับ FIXED_LEN_BYTE_ARRAY

สกรีนช็อตของชนิดคอลัมน์ปลายทางการแมป

การแมปชนิดข้อมูลสําหรับ Parquet

เมื่อคัดลอกข้อมูลจากตัวเชื่อมต่อต้นทางในรูปแบบ Parquet การแม็ปต่อไปนี้จะใช้จากชนิดข้อมูล Parquet ไปยังชนิดข้อมูลชั่วคราวที่ใช้โดยบริการภายใน

ชนิดตรรกะของ Parquet	ประเภททางกายภาพของไม้ปาร์เก้	ชนิดข้อมูลบริการชั่วคราว
null	บูลีน	แบบบูลีน
INT(8, จริง)	อินที 32	เอสไบต์
INT(8, เท็จ)	อินที 32	ไบต์
INT(16, จริง)	อินที 32	อินเตอร์เนชั่นแนล 16
INT(16, เท็จ)	อินที 32	ยูเอ็นที 16
INT(32, จริง)	อินที 32	อินเตอร์เนชั่นแนล 32
INT(32, เท็จ)	อินที 32	ยูเอ็นต์ 32
INT(64, จริง)	อินที 64	อินเตอร์เนชั่นแนล 64
INT(64, เท็จ)	อินที 64	ยูเอ็นต์ 64
null	ลอย	โสด
null	คู่	คู่
ทศนิยม	INT32, INT64, FIXED_LEN_BYTE_ARRAY หรือ BYTE_ARRAY	ทศนิยม
วันที่	อินที 32	Date
เวลา	INT32 หรือ INT64	วันที่เวลา
การประทับเวลา	อินที 64	วันที่เวลา
ENUM	BYTE_ARRAY	เชือก
ยูอี	FIXED_LEN_BYTE_ARRAY	GUID
null	BYTE_ARRAY	อาร์เรย์ไบต์
เชือก	BYTE_ARRAY	เชือก

เมื่อคัดลอกข้อมูลไปยังตัวเชื่อมต่อปลายทางในรูปแบบ Parquet การแม็ปต่อไปนี้จะถูกใช้จากชนิดข้อมูลชั่วคราวที่ใช้โดยบริการภายในไปยังชนิดข้อมูล Parquet

ชนิดข้อมูลบริการชั่วคราว	ชนิดตรรกะของ Parquet	ประเภททางกายภาพของไม้ปาร์เก้
แบบบูลีน	null	บูลีน
เอสไบต์	อินที	อินที 32
ไบต์	อินที	อินที 32
อินเตอร์เนชั่นแนล 16	อินที	อินที 32
ยูเอ็นที 16	อินที	อินที 32
อินเตอร์เนชั่นแนล 32	อินที	อินที 32
ยูเอ็นต์ 32	อินที	อินที 32
อินเตอร์เนชั่นแนล 64	อินที	อินที 64
ยูเอ็นต์ 64	อินที	อินที 64
โสด	null	ลอย
คู่	null	คู่
วันที่เวลา	null	รุ่น 96
วันที่เวลาออฟเซ็ต	null	รุ่น 96
Date	วันที่	อินที 32
ช่วงเวลา	เวลา	อินที 64
ทศนิยม	ทศนิยม	INT32, INT64 หรือ FIXED_LEN_BYTE_ARRAY
GUID	เชือก	BYTE_ARRAY
เชือก	เชือก	BYTE_ARRAY
อาร์เรย์ไบต์	null	BYTE_ARRAY

ข้อมูลสรุปของตาราง

Parquet เป็นแหล่งข้อมูล

คุณสมบัติต่อไปนี้ได้รับการสนับสนุนในส่วนแหล่งกิจกรรมการคัดลอกเมื่อใช้รูปแบบ Parquet

ชื่อ	รายละเอียด	ค่า	ต้องมี	คุณสมบัติสคริปต์ JSON
รูปแบบไฟล์	รูปแบบไฟล์ที่คุณต้องการใช้	Parquet	ใช่	type (ภายใต้ `datasetSettings`): Parquet
ชนิดการบีบอัด	ตัวแปลงสัญญาณการบีบอัดที่ใช้ในการอ่านไฟล์ Parquet	เลือกจาก: ไม่มี จีซิป (.gz) snappy lzo โบรตลี (.br) Zstandard lz4 lz4frame บีซิป 2 (.bz2) lz4hadoop	ไม่	compressionCodec: gzip snappy lzo brotli zstd lz4 lz4frame bz2 lz4hadoop

Parquet เป็นปลายทาง

คุณสมบัติต่อไปนี้ได้รับการสนับสนุนในส่วนคัดลอกปลายทางกิจกรรมเมื่อใช้รูปแบบ Parquet

ชื่อ	รายละเอียด	ค่า	ต้องมี	คุณสมบัติสคริปต์ JSON
รูปแบบไฟล์	รูปแบบไฟล์ที่คุณต้องการใช้	Parquet	ใช่	type (ภายใต้ `datasetSettings`): Parquet
ใช้การสั่งซื้อ V	การปรับเวลาการเขียนให้เหมาะสมกับรูปแบบไฟล์ parquet	เลือกหรือไม่เลือก	ไม่	เปิดใช้งาน VertiParquet
ชนิดการบีบอัด	ตัวแปลงสัญญาณการบีบอัดที่ใช้ในการเขียนไฟล์ Parquet	เลือกจาก: ไม่มี จีซิป (.gz) snappy lzo โบรตลี (.br) Zstandard lz4 lz4frame บีซิป 2 (.bz2) lz4hadoop	ไม่	compressionCodec: gzip snappy lzo brotli zstd lz4 lz4frame bz2 lz4hadoop
แถวสูงสุดต่อไฟล์	เมื่อเขียนข้อมูลลงในโฟลเดอร์ คุณสามารถเลือกที่จะเขียนไปยังหลายไฟล์และระบุแถวสูงสุดต่อไฟล์ได้ ระบุแถวสูงสุดที่คุณต้องการเขียนต่อไฟล์	<แถวสูงสุดของคุณต่อไฟล์>	ไม่	maxRowsPerFile
คํานําหน้าชื่อไฟล์	ใช้ได้เมื่อมีการกําหนดค่าแถวสูงสุดต่อไฟล์ ระบุคํานําหน้าชื่อไฟล์เมื่อเขียนข้อมูลไปยังหลายไฟล์ ส่งผลให้เป็นรูปแบบนี้: `<fileNamePrefix>_00000.<fileExtension>` ถ้าไม่ได้ระบุ คํานําหน้าชื่อไฟล์จะถูกสร้างขึ้นโดยอัตโนมัติ คุณสมบัตินี้ใช้ไม่ได้เมื่อแหล่งข้อมูลเป็นที่เก็บตามไฟล์หรือตัวเลือกพาร์ติชันที่เปิดใช้งานที่เก็บข้อมูล	<คํานําหน้าชื่อไฟล์ของคุณ>	ไม่	fileNamePrefix

คำติชม

หน้านี้มีประโยชน์หรือไม่

Last updated on 2025-10-13