หมายเหตุ
การเข้าถึงหน้านี้ต้องได้รับการอนุญาต คุณสามารถลอง ลงชื่อเข้าใช้หรือเปลี่ยนไดเรกทอรีได้
การเข้าถึงหน้านี้ต้องได้รับการอนุญาต คุณสามารถลองเปลี่ยนไดเรกทอรีได้
บทความนี้สรุปวิธีการกําหนดค่ารูปแบบ Parquet ในไปป์ไลน์ของ Data Factory ใน Microsoft Fabric
ความสามารถที่รองรับ
รูปแบบ Parquet ได้รับการสนับสนุนสําหรับกิจกรรมและตัวเชื่อมต่อต่อไปนี้เป็นต้นทางและปลายทาง
| หมวดหมู่ | ตัวเชื่อมต่อ/กิจกรรม |
|---|---|
| ตัวเชื่อมต่อที่สนับสนุน | อเมซอน S3 |
| เข้ากันได้กับ Amazon S3 | |
| ที่เก็บข้อมูล Azure Blob | |
| Azure Data Lake Storage Gen1 | |
| Azure Data Lake Storage รุ่น2 | |
| ไฟล์ Azure | |
| ระบบไฟล์ | |
| FTP | |
| พื้นที่เก็บข้อมูล Google Cloud | |
| HTTP | |
| ไฟล์ของเลคเฮ้าส์ | |
| ที่เก็บข้อมูล Oracle Cloud | |
| SFTP | |
| กิจกรรมที่ได้รับการสนับสนุน | คัดลอกกิจกรรม (ต้นทาง/ปลายทาง) |
| ค้นหากิจกรรม | |
| กิจกรรม GetMetadata | |
| ลบกิจกรรม |
รูปแบบ Parquet ในกิจกรรมคัดลอก
เมื่อต้องการกําหนดค่ารูปแบบ Parquet ให้เลือกการเชื่อมต่อของคุณในต้นทางหรือปลายทางของกิจกรรมการคัดลอกไปป์ไลน์ แล้วเลือก Parquet ในรายการดรอปดาวน์ของ รูปแบบไฟล์ เลือก การตั้งค่า สําหรับการกําหนดค่าเพิ่มเติมของรูปแบบนี้
รูปแบบ Parquet เป็นแหล่งข้อมูล
หลังจากที่คุณเลือก การตั้งค่า ในส่วน รูปแบบไฟล์ คุณสมบัติต่อไปนี้จะแสดงในกล่องโต้ตอบการตั้งค่ารูปแบบไฟล์แบบป็อปอัพ
- ชนิดการบีบอัด: เลือกตัวแปลงสัญญาณการบีบอัดที่ใช้ในการอ่านไฟล์ Parquet ในรายการดรอปดาวน์ คุณสามารถเลือกจาก ไม่มี, gzip (.gz), snappy, lzo, Brotli (.br), Zstandard, lz4, lz4frame, bzip2 (.bz2) หรือ lz4hadoop
รูปแบบ Parquet เป็นปลายทาง
หลังจากที่คุณเลือก การตั้งค่า คุณสมบัติต่อไปนี้จะแสดงในกล่องโต้ตอบการตั้งค่ารูปแบบไฟล์แบบป็อปอัพ
ชนิดการบีบอัด: เลือกตัวแปลงสัญญาณการบีบอัดที่ใช้ในการเขียนไฟล์ Parquet ในรายการดรอปดาวน์ คุณสามารถเลือกจาก ไม่มี, gzip (.gz), snappy, lzo, Brotli (.br), Zstandard, lz4, lz4frame, bzip2 (.bz2) หรือ lz4hadoop
ใช้ V-Order: เปิดใช้งานการปรับเวลาการเขียนให้เหมาะสมกับรูปแบบไฟล์ parquet สําหรับข้อมูลเพิ่มเติม ดูการปรับตาราง Delta Lake ให้เหมาะสมและ V-Order ซึ่งจะเปิดใช้งานตามค่าเริ่มต้น
ภายใต้ การตั้งค่าขั้นสูง ใน แท็บ ปลายทาง คุณสมบัติที่เกี่ยวข้องกับรูปแบบ Parquet ต่อไปนี้จะปรากฏขึ้น
- แถวสูงสุดต่อไฟล์: เมื่อเขียนข้อมูลลงในโฟลเดอร์ คุณสามารถเลือกที่จะเขียนไปยังหลายไฟล์และระบุแถวสูงสุดต่อไฟล์ได้ ระบุแถวสูงสุดที่คุณต้องการเขียนต่อไฟล์
-
คํานําหน้าชื่อไฟล์: ใช้ได้เมื่อมีการกําหนดค่าแถวสูงสุดต่อไฟล์ ระบุคํานําหน้าชื่อไฟล์เมื่อเขียนข้อมูลไปยังหลายไฟล์ ส่งผลให้เป็นรูปแบบนี้:
<fileNamePrefix>_00000.<fileExtension>ถ้าไม่ได้ระบุ คํานําหน้าชื่อไฟล์จะถูกสร้างขึ้นโดยอัตโนมัติ คุณสมบัตินี้ใช้ไม่ได้เมื่อแหล่งข้อมูลเป็นที่เก็บตามไฟล์หรือตัวเลือกพาร์ติชันที่เปิดใช้งานที่เก็บข้อมูล
การแมป
สําหรับการกําหนดค่าแท็บ การแม็ป ถ้าคุณไม่ได้ใช้รูปแบบ Parquet เป็นที่เก็บข้อมูลปลายทางของคุณ ให้ไปที่ การแม็ป
แก้ไขชนิดข้อมูลปลายทาง
เมื่อคัดลอกข้อมูลไปยังตัวเชื่อมต่อปลายทางในรูปแบบ Parquet ยกเว้นการกําหนดค่าใน การแมป คุณสามารถระบุประเภทคอลัมน์ปลายทางบางประเภทได้หลังจากเปิดใช้งานการตั้งค่าประเภท Parquet ขั้นสูง คุณยังสามารถกําหนดค่าตัวเลือก IsNullable เพื่อระบุว่าคอลัมน์ปลายทาง Parquet แต่ละคอลัมน์อนุญาตให้ใช้ค่า Null หรือไม่ ค่าเริ่มต้นสําหรับ IsNullable คือ true.
การแม็ปต่อไปนี้ใช้จากชนิดข้อมูลชั่วคราวที่รองรับการแก้ไขโดยบริการภายในไปยังชนิดข้อมูล Parquet
| ชนิดข้อมูลบริการชั่วคราว | ชนิดตรรกะของ Parquet | ประเภททางกายภาพของไม้ปาร์เก้ |
|---|---|---|
| วันที่เวลา | ตัวเลือกที่ 1: null ตัวเลือกที่ 2: การประทับเวลา |
ตัวเลือกที่ 1: INT96 (ค่าเริ่มต้น) ตัวเลือกที่ 2: INT64 (หน่วย: MILLIS, MICROS, NANOS (ค่าเริ่มต้น)) |
| วันที่เวลาออฟเซ็ต | ตัวเลือกที่ 1: null ตัวเลือกที่ 2: การประทับเวลา |
ตัวเลือกที่ 1: INT96 (ค่าเริ่มต้น) ตัวเลือกที่ 2: INT64 (หน่วย: MILLIS, MICROS, NANOS (ค่าเริ่มต้น)) |
| ช่วงเวลา | เวลา | INT32 (หน่วย: MILLIS) INT64 (หน่วย: MICROS, NANOS (ค่าเริ่มต้น)) |
| ทศนิยม | ทศนิยม | INT32 (1 <= ความแม่นยํา <= 9) INT64 (ความแม่นยํา <9 < = 18) FIXED_LEN_BYTE_ARRAY (ความแม่นยํา > 18) (ค่าเริ่มต้น) |
| GUID | ตัวเลือกที่ 1: STRING ตัวเลือกที่ 2: UUID |
ตัวเลือกที่ 1: BYTE_ARRAY (ค่าเริ่มต้น) ตัวเลือกที่ 2: FIXED_LEN_BYTE_ARRAY |
| อาร์เรย์ไบต์ | null | BYTE_ARRAY (ค่าเริ่มต้น) หรือ FIXED_LEN_BYTE_ARRAY |
ตัวอย่างเช่น คอลัมน์ชนิดสําหรับ ข้อมูลทศนิยม ในแหล่งข้อมูลจะถูกแปลงเป็นชนิดบริการชั่วคราว: ทศนิยม ตามตารางการแมปด้านบน ประเภทที่แมปสําหรับคอลัมน์ปลายทางจะถูกกําหนดโดยอัตโนมัติตามความแม่นยําที่ระบุ หากความแม่นยํา 9 หรือน้อยกว่า จะถูกแมปกับ INT32 สําหรับค่าความแม่นยําที่สูงกว่า 9 และสูงสุด 18 จะถูกแมปกับ INT64 หากความแม่นยําเกิน 18 จะถูกแมปกับ FIXED_LEN_BYTE_ARRAY
การแมปชนิดข้อมูลสําหรับ Parquet
เมื่อคัดลอกข้อมูลจากตัวเชื่อมต่อต้นทางในรูปแบบ Parquet การแม็ปต่อไปนี้จะใช้จากชนิดข้อมูล Parquet ไปยังชนิดข้อมูลชั่วคราวที่ใช้โดยบริการภายใน
| ชนิดตรรกะของ Parquet | ประเภททางกายภาพของไม้ปาร์เก้ | ชนิดข้อมูลบริการชั่วคราว |
|---|---|---|
| null | บูลีน | แบบบูลีน |
| INT(8, จริง) | อินที 32 | เอสไบต์ |
| INT(8, เท็จ) | อินที 32 | ไบต์ |
| INT(16, จริง) | อินที 32 | อินเตอร์เนชั่นแนล 16 |
| INT(16, เท็จ) | อินที 32 | ยูเอ็นที 16 |
| INT(32, จริง) | อินที 32 | อินเตอร์เนชั่นแนล 32 |
| INT(32, เท็จ) | อินที 32 | ยูเอ็นต์ 32 |
| INT(64, จริง) | อินที 64 | อินเตอร์เนชั่นแนล 64 |
| INT(64, เท็จ) | อินที 64 | ยูเอ็นต์ 64 |
| null | ลอย | โสด |
| null | คู่ | คู่ |
| ทศนิยม | INT32, INT64, FIXED_LEN_BYTE_ARRAY หรือ BYTE_ARRAY | ทศนิยม |
| วันที่ | อินที 32 | Date |
| เวลา | INT32 หรือ INT64 | วันที่เวลา |
| การประทับเวลา | อินที 64 | วันที่เวลา |
| ENUM | BYTE_ARRAY | เชือก |
| ยูอี | FIXED_LEN_BYTE_ARRAY | GUID |
| null | BYTE_ARRAY | อาร์เรย์ไบต์ |
| เชือก | BYTE_ARRAY | เชือก |
เมื่อคัดลอกข้อมูลไปยังตัวเชื่อมต่อปลายทางในรูปแบบ Parquet การแม็ปต่อไปนี้จะถูกใช้จากชนิดข้อมูลชั่วคราวที่ใช้โดยบริการภายในไปยังชนิดข้อมูล Parquet
| ชนิดข้อมูลบริการชั่วคราว | ชนิดตรรกะของ Parquet | ประเภททางกายภาพของไม้ปาร์เก้ |
|---|---|---|
| แบบบูลีน | null | บูลีน |
| เอสไบต์ | อินที | อินที 32 |
| ไบต์ | อินที | อินที 32 |
| อินเตอร์เนชั่นแนล 16 | อินที | อินที 32 |
| ยูเอ็นที 16 | อินที | อินที 32 |
| อินเตอร์เนชั่นแนล 32 | อินที | อินที 32 |
| ยูเอ็นต์ 32 | อินที | อินที 32 |
| อินเตอร์เนชั่นแนล 64 | อินที | อินที 64 |
| ยูเอ็นต์ 64 | อินที | อินที 64 |
| โสด | null | ลอย |
| คู่ | null | คู่ |
| วันที่เวลา | null | รุ่น 96 |
| วันที่เวลาออฟเซ็ต | null | รุ่น 96 |
| Date | วันที่ | อินที 32 |
| ช่วงเวลา | เวลา | อินที 64 |
| ทศนิยม | ทศนิยม | INT32, INT64 หรือ FIXED_LEN_BYTE_ARRAY |
| GUID | เชือก | BYTE_ARRAY |
| เชือก | เชือก | BYTE_ARRAY |
| อาร์เรย์ไบต์ | null | BYTE_ARRAY |
ข้อมูลสรุปของตาราง
Parquet เป็นแหล่งข้อมูล
คุณสมบัติต่อไปนี้ได้รับการสนับสนุนในส่วนแหล่งกิจกรรมการคัดลอกเมื่อใช้รูปแบบ Parquet
| ชื่อ | รายละเอียด | ค่า | ต้องมี | คุณสมบัติสคริปต์ JSON |
|---|---|---|---|---|
| รูปแบบไฟล์ | รูปแบบไฟล์ที่คุณต้องการใช้ | Parquet | ใช่ | type (ภายใต้ datasetSettings):Parquet |
| ชนิดการบีบอัด | ตัวแปลงสัญญาณการบีบอัดที่ใช้ในการอ่านไฟล์ Parquet | เลือกจาก: ไม่มี จีซิป (.gz) snappy lzo โบรตลี (.br) Zstandard lz4 lz4frame บีซิป 2 (.bz2) lz4hadoop |
ไม่ | compressionCodec: gzip snappy lzo brotli zstd lz4 lz4frame bz2 lz4hadoop |
Parquet เป็นปลายทาง
คุณสมบัติต่อไปนี้ได้รับการสนับสนุนในส่วนคัดลอกปลายทางกิจกรรมเมื่อใช้รูปแบบ Parquet
| ชื่อ | รายละเอียด | ค่า | ต้องมี | คุณสมบัติสคริปต์ JSON |
|---|---|---|---|---|
| รูปแบบไฟล์ | รูปแบบไฟล์ที่คุณต้องการใช้ | Parquet | ใช่ | type (ภายใต้ datasetSettings):Parquet |
| ใช้การสั่งซื้อ V | การปรับเวลาการเขียนให้เหมาะสมกับรูปแบบไฟล์ parquet | เลือกหรือไม่เลือก | ไม่ | เปิดใช้งาน VertiParquet |
| ชนิดการบีบอัด | ตัวแปลงสัญญาณการบีบอัดที่ใช้ในการเขียนไฟล์ Parquet | เลือกจาก: ไม่มี จีซิป (.gz) snappy lzo โบรตลี (.br) Zstandard lz4 lz4frame บีซิป 2 (.bz2) lz4hadoop |
ไม่ | compressionCodec: gzip snappy lzo brotli zstd lz4 lz4frame bz2 lz4hadoop |
| แถวสูงสุดต่อไฟล์ | เมื่อเขียนข้อมูลลงในโฟลเดอร์ คุณสามารถเลือกที่จะเขียนไปยังหลายไฟล์และระบุแถวสูงสุดต่อไฟล์ได้ ระบุแถวสูงสุดที่คุณต้องการเขียนต่อไฟล์ | <แถวสูงสุดของคุณต่อไฟล์> | ไม่ | maxRowsPerFile |
| คํานําหน้าชื่อไฟล์ | ใช้ได้เมื่อมีการกําหนดค่าแถวสูงสุดต่อไฟล์ ระบุคํานําหน้าชื่อไฟล์เมื่อเขียนข้อมูลไปยังหลายไฟล์ ส่งผลให้เป็นรูปแบบนี้: <fileNamePrefix>_00000.<fileExtension> ถ้าไม่ได้ระบุ คํานําหน้าชื่อไฟล์จะถูกสร้างขึ้นโดยอัตโนมัติ คุณสมบัตินี้ใช้ไม่ได้เมื่อแหล่งข้อมูลเป็นที่เก็บตามไฟล์หรือตัวเลือกพาร์ติชันที่เปิดใช้งานที่เก็บข้อมูล |
<คํานําหน้าชื่อไฟล์ของคุณ> | ไม่ | fileNamePrefix |