แชร์ผ่าน


รูปแบบ Parquet ใน Data Factory ใน Microsoft Fabric

บทความนี้สรุปวิธีการกําหนดค่ารูปแบบ Parquet ในไปป์ไลน์ของ Data Factory ใน Microsoft Fabric

ความสามารถที่รองรับ

รูปแบบ Parquet ได้รับการสนับสนุนสําหรับกิจกรรมและตัวเชื่อมต่อต่อไปนี้เป็นต้นทางและปลายทาง

หมวดหมู่ ตัวเชื่อมต่อ/กิจกรรม
ตัวเชื่อมต่อที่สนับสนุน อเมซอน S3
เข้ากันได้กับ Amazon S3
ที่เก็บข้อมูล Azure Blob
Azure Data Lake Storage Gen1
Azure Data Lake Storage รุ่น2
ไฟล์ Azure
ระบบไฟล์
FTP
พื้นที่เก็บข้อมูล Google Cloud
HTTP
ไฟล์ของเลคเฮ้าส์
ที่เก็บข้อมูล Oracle Cloud
SFTP
กิจกรรมที่ได้รับการสนับสนุน คัดลอกกิจกรรม (ต้นทาง/ปลายทาง)
ค้นหากิจกรรม
กิจกรรม GetMetadata
ลบกิจกรรม

รูปแบบ Parquet ในกิจกรรมคัดลอก

เมื่อต้องการกําหนดค่ารูปแบบ Parquet ให้เลือกการเชื่อมต่อของคุณในต้นทางหรือปลายทางของกิจกรรมการคัดลอกไปป์ไลน์ แล้วเลือก Parquet ในรายการดรอปดาวน์ของ รูปแบบไฟล์ เลือก การตั้งค่า สําหรับการกําหนดค่าเพิ่มเติมของรูปแบบนี้

สกรีนช็อตที่แสดงการตั้งค่ารูปแบบไฟล์

รูปแบบ Parquet เป็นแหล่งข้อมูล

หลังจากที่คุณเลือก การตั้งค่า ในส่วน รูปแบบไฟล์ คุณสมบัติต่อไปนี้จะแสดงในกล่องโต้ตอบการตั้งค่ารูปแบบไฟล์แบบป็อปอัพ

สกรีนช็อตที่แสดงแหล่งที่มาของรูปแบบไฟล์ parquet

  • ชนิดการบีบอัด: เลือกตัวแปลงสัญญาณการบีบอัดที่ใช้ในการอ่านไฟล์ Parquet ในรายการดรอปดาวน์ คุณสามารถเลือกจาก ไม่มี, gzip (.gz), snappy, lzo, Brotli (.br), Zstandard, lz4, lz4frame, bzip2 (.bz2) หรือ lz4hadoop

รูปแบบ Parquet เป็นปลายทาง

หลังจากที่คุณเลือก การตั้งค่า คุณสมบัติต่อไปนี้จะแสดงในกล่องโต้ตอบการตั้งค่ารูปแบบไฟล์แบบป็อปอัพ

สกรีนช็อตที่แสดงปลายทางรูปแบบไฟล์ parquet

  • ชนิดการบีบอัด: เลือกตัวแปลงสัญญาณการบีบอัดที่ใช้ในการเขียนไฟล์ Parquet ในรายการดรอปดาวน์ คุณสามารถเลือกจาก ไม่มี, gzip (.gz), snappy, lzo, Brotli (.br), Zstandard, lz4, lz4frame, bzip2 (.bz2) หรือ lz4hadoop

  • ใช้ V-Order: เปิดใช้งานการปรับเวลาการเขียนให้เหมาะสมกับรูปแบบไฟล์ parquet สําหรับข้อมูลเพิ่มเติม ดูการปรับตาราง Delta Lake ให้เหมาะสมและ V-Order ซึ่งจะเปิดใช้งานตามค่าเริ่มต้น

ภายใต้ การตั้งค่าขั้นสูง ใน แท็บ ปลายทาง คุณสมบัติที่เกี่ยวข้องกับรูปแบบ Parquet ต่อไปนี้จะปรากฏขึ้น

  • แถวสูงสุดต่อไฟล์: เมื่อเขียนข้อมูลลงในโฟลเดอร์ คุณสามารถเลือกที่จะเขียนไปยังหลายไฟล์และระบุแถวสูงสุดต่อไฟล์ได้ ระบุแถวสูงสุดที่คุณต้องการเขียนต่อไฟล์
  • คํานําหน้าชื่อไฟล์: ใช้ได้เมื่อมีการกําหนดค่าแถวสูงสุดต่อไฟล์ ระบุคํานําหน้าชื่อไฟล์เมื่อเขียนข้อมูลไปยังหลายไฟล์ ส่งผลให้เป็นรูปแบบนี้: <fileNamePrefix>_00000.<fileExtension> ถ้าไม่ได้ระบุ คํานําหน้าชื่อไฟล์จะถูกสร้างขึ้นโดยอัตโนมัติ คุณสมบัตินี้ใช้ไม่ได้เมื่อแหล่งข้อมูลเป็นที่เก็บตามไฟล์หรือตัวเลือกพาร์ติชันที่เปิดใช้งานที่เก็บข้อมูล

การแมป

สําหรับการกําหนดค่าแท็บ การแม็ป ถ้าคุณไม่ได้ใช้รูปแบบ Parquet เป็นที่เก็บข้อมูลปลายทางของคุณ ให้ไปที่ การแม็ป

แก้ไขชนิดข้อมูลปลายทาง

เมื่อคัดลอกข้อมูลไปยังตัวเชื่อมต่อปลายทางในรูปแบบ Parquet ยกเว้นการกําหนดค่าใน การแมป คุณสามารถระบุประเภทคอลัมน์ปลายทางบางประเภทได้หลังจากเปิดใช้งานการตั้งค่าประเภท Parquet ขั้นสูง คุณยังสามารถกําหนดค่าตัวเลือก IsNullable เพื่อระบุว่าคอลัมน์ปลายทาง Parquet แต่ละคอลัมน์อนุญาตให้ใช้ค่า Null หรือไม่ ค่าเริ่มต้นสําหรับ IsNullable คือ true.

การแม็ปต่อไปนี้ใช้จากชนิดข้อมูลชั่วคราวที่รองรับการแก้ไขโดยบริการภายในไปยังชนิดข้อมูล Parquet

ชนิดข้อมูลบริการชั่วคราว ชนิดตรรกะของ Parquet ประเภททางกายภาพของไม้ปาร์เก้
วันที่เวลา ตัวเลือกที่ 1: null
ตัวเลือกที่ 2: การประทับเวลา
ตัวเลือกที่ 1: INT96 (ค่าเริ่มต้น)
ตัวเลือกที่ 2: INT64 (หน่วย: MILLIS, MICROS, NANOS (ค่าเริ่มต้น))
วันที่เวลาออฟเซ็ต ตัวเลือกที่ 1: null
ตัวเลือกที่ 2: การประทับเวลา
ตัวเลือกที่ 1: INT96 (ค่าเริ่มต้น)
ตัวเลือกที่ 2: INT64 (หน่วย: MILLIS, MICROS, NANOS (ค่าเริ่มต้น))
ช่วงเวลา เวลา INT32 (หน่วย: MILLIS)
INT64 (หน่วย: MICROS, NANOS (ค่าเริ่มต้น))
ทศนิยม ทศนิยม INT32 (1 <= ความแม่นยํา <= 9)
INT64 (ความแม่นยํา <9 < = 18)
FIXED_LEN_BYTE_ARRAY (ความแม่นยํา > 18) (ค่าเริ่มต้น)
GUID ตัวเลือกที่ 1: STRING
ตัวเลือกที่ 2: UUID
ตัวเลือกที่ 1: BYTE_ARRAY (ค่าเริ่มต้น)
ตัวเลือกที่ 2: FIXED_LEN_BYTE_ARRAY
อาร์เรย์ไบต์ null BYTE_ARRAY (ค่าเริ่มต้น) หรือ FIXED_LEN_BYTE_ARRAY

ตัวอย่างเช่น คอลัมน์ชนิดสําหรับ ข้อมูลทศนิยม ในแหล่งข้อมูลจะถูกแปลงเป็นชนิดบริการชั่วคราว: ทศนิยม ตามตารางการแมปด้านบน ประเภทที่แมปสําหรับคอลัมน์ปลายทางจะถูกกําหนดโดยอัตโนมัติตามความแม่นยําที่ระบุ หากความแม่นยํา 9 หรือน้อยกว่า จะถูกแมปกับ INT32 สําหรับค่าความแม่นยําที่สูงกว่า 9 และสูงสุด 18 จะถูกแมปกับ INT64 หากความแม่นยําเกิน 18 จะถูกแมปกับ FIXED_LEN_BYTE_ARRAY

สกรีนช็อตของชนิดคอลัมน์ปลายทางการแมป

การแมปชนิดข้อมูลสําหรับ Parquet

เมื่อคัดลอกข้อมูลจากตัวเชื่อมต่อต้นทางในรูปแบบ Parquet การแม็ปต่อไปนี้จะใช้จากชนิดข้อมูล Parquet ไปยังชนิดข้อมูลชั่วคราวที่ใช้โดยบริการภายใน

ชนิดตรรกะของ Parquet ประเภททางกายภาพของไม้ปาร์เก้ ชนิดข้อมูลบริการชั่วคราว
null บูลีน แบบบูลีน
INT(8, จริง) อินที 32 เอสไบต์
INT(8, เท็จ) อินที 32 ไบต์
INT(16, จริง) อินที 32 อินเตอร์เนชั่นแนล 16
INT(16, เท็จ) อินที 32 ยูเอ็นที 16
INT(32, จริง) อินที 32 อินเตอร์เนชั่นแนล 32
INT(32, เท็จ) อินที 32 ยูเอ็นต์ 32
INT(64, จริง) อินที 64 อินเตอร์เนชั่นแนล 64
INT(64, เท็จ) อินที 64 ยูเอ็นต์ 64
null ลอย โสด
null คู่ คู่
ทศนิยม INT32, INT64, FIXED_LEN_BYTE_ARRAY หรือ BYTE_ARRAY ทศนิยม
วันที่ อินที 32 Date
เวลา INT32 หรือ INT64 วันที่เวลา
การประทับเวลา อินที 64 วันที่เวลา
ENUM BYTE_ARRAY เชือก
ยูอี FIXED_LEN_BYTE_ARRAY GUID
null BYTE_ARRAY อาร์เรย์ไบต์
เชือก BYTE_ARRAY เชือก

เมื่อคัดลอกข้อมูลไปยังตัวเชื่อมต่อปลายทางในรูปแบบ Parquet การแม็ปต่อไปนี้จะถูกใช้จากชนิดข้อมูลชั่วคราวที่ใช้โดยบริการภายในไปยังชนิดข้อมูล Parquet

ชนิดข้อมูลบริการชั่วคราว ชนิดตรรกะของ Parquet ประเภททางกายภาพของไม้ปาร์เก้
แบบบูลีน null บูลีน
เอสไบต์ อินที อินที 32
ไบต์ อินที อินที 32
อินเตอร์เนชั่นแนล 16 อินที อินที 32
ยูเอ็นที 16 อินที อินที 32
อินเตอร์เนชั่นแนล 32 อินที อินที 32
ยูเอ็นต์ 32 อินที อินที 32
อินเตอร์เนชั่นแนล 64 อินที อินที 64
ยูเอ็นต์ 64 อินที อินที 64
โสด null ลอย
คู่ null คู่
วันที่เวลา null รุ่น 96
วันที่เวลาออฟเซ็ต null รุ่น 96
Date วันที่ อินที 32
ช่วงเวลา เวลา อินที 64
ทศนิยม ทศนิยม INT32, INT64 หรือ FIXED_LEN_BYTE_ARRAY
GUID เชือก BYTE_ARRAY
เชือก เชือก BYTE_ARRAY
อาร์เรย์ไบต์ null BYTE_ARRAY

ข้อมูลสรุปของตาราง

Parquet เป็นแหล่งข้อมูล

คุณสมบัติต่อไปนี้ได้รับการสนับสนุนในส่วนแหล่งกิจกรรมการคัดลอกเมื่อใช้รูปแบบ Parquet

ชื่อ รายละเอียด ค่า ต้องมี คุณสมบัติสคริปต์ JSON
รูปแบบไฟล์ รูปแบบไฟล์ที่คุณต้องการใช้ Parquet ใช่ type (ภายใต้ datasetSettings):
Parquet
ชนิดการบีบอัด ตัวแปลงสัญญาณการบีบอัดที่ใช้ในการอ่านไฟล์ Parquet เลือกจาก:
ไม่มี
จีซิป (.gz)
snappy
lzo
โบรตลี (.br)
Zstandard
lz4
lz4frame
บีซิป 2 (.bz2)
lz4hadoop
ไม่ compressionCodec:

gzip
snappy
lzo
brotli
zstd
lz4
lz4frame
bz2
lz4hadoop

Parquet เป็นปลายทาง

คุณสมบัติต่อไปนี้ได้รับการสนับสนุนในส่วนคัดลอกปลายทางกิจกรรมเมื่อใช้รูปแบบ Parquet

ชื่อ รายละเอียด ค่า ต้องมี คุณสมบัติสคริปต์ JSON
รูปแบบไฟล์ รูปแบบไฟล์ที่คุณต้องการใช้ Parquet ใช่ type (ภายใต้ datasetSettings):
Parquet
ใช้การสั่งซื้อ V การปรับเวลาการเขียนให้เหมาะสมกับรูปแบบไฟล์ parquet เลือกหรือไม่เลือก ไม่ เปิดใช้งาน VertiParquet
ชนิดการบีบอัด ตัวแปลงสัญญาณการบีบอัดที่ใช้ในการเขียนไฟล์ Parquet เลือกจาก:
ไม่มี
จีซิป (.gz)
snappy
lzo
โบรตลี (.br)
Zstandard
lz4
lz4frame
บีซิป 2 (.bz2)
lz4hadoop
ไม่ compressionCodec:

gzip
snappy
lzo
brotli
zstd
lz4
lz4frame
bz2
lz4hadoop
แถวสูงสุดต่อไฟล์ เมื่อเขียนข้อมูลลงในโฟลเดอร์ คุณสามารถเลือกที่จะเขียนไปยังหลายไฟล์และระบุแถวสูงสุดต่อไฟล์ได้ ระบุแถวสูงสุดที่คุณต้องการเขียนต่อไฟล์ <แถวสูงสุดของคุณต่อไฟล์> ไม่ maxRowsPerFile
คํานําหน้าชื่อไฟล์ ใช้ได้เมื่อมีการกําหนดค่าแถวสูงสุดต่อไฟล์ ระบุคํานําหน้าชื่อไฟล์เมื่อเขียนข้อมูลไปยังหลายไฟล์ ส่งผลให้เป็นรูปแบบนี้: <fileNamePrefix>_00000.<fileExtension> ถ้าไม่ได้ระบุ คํานําหน้าชื่อไฟล์จะถูกสร้างขึ้นโดยอัตโนมัติ คุณสมบัตินี้ใช้ไม่ได้เมื่อแหล่งข้อมูลเป็นที่เก็บตามไฟล์หรือตัวเลือกพาร์ติชันที่เปิดใช้งานที่เก็บข้อมูล <คํานําหน้าชื่อไฟล์ของคุณ> ไม่ fileNamePrefix