แชร์ผ่าน


ใช้การคํานวณแบบแบ่งพาร์ติชันในกระแสข้อมูล Gen2 (พรีวิว)

Note

การประมวลผลแบบแบ่งพาร์ติชันอยู่ในการแสดงตัวอย่างและพร้อมใช้งานเฉพาะใน Dataflow Gen2 ที่มี CI/CD

การประมวลผลแบบแบ่งพาร์ติชันเป็นความสามารถของกลไกจัดการกระแสข้อมูล Gen2 ที่ช่วยให้ส่วนต่างๆ ของตรรกะกระแสข้อมูลของคุณทํางานแบบขนาน ซึ่งช่วยลดเวลาในการประเมินให้เสร็จสมบูรณ์

การคํานวณแบบแบ่งพาร์ติชันกําหนดเป้าหมายสถานการณ์ที่กลไกจัดการกระแสข้อมูลสามารถพับการดําเนินการที่สามารถแบ่งพาร์ติชันแหล่งข้อมูลและประมวลผลแต่ละพาร์ติชันแบบขนานได้อย่างมีประสิทธิภาพ ตัวอย่างเช่น ในสถานการณ์ที่คุณกําลังเชื่อมต่อกับไฟล์หลายไฟล์ที่จัดเก็บไว้ใน Azure Data Lake Storage Gen2 คุณสามารถแบ่งพาร์ติชันรายการไฟล์จากแหล่งที่มาของคุณ

Note

เฉพาะตัวเชื่อมต่อสําหรับ Azure Data Lake Storage Gen2, Fabric Lakehouse, Folder และ Azure Blob Storage เท่านั้นที่ปล่อยสคริปต์ที่ถูกต้องเพื่อใช้การคํานวณแบบแบ่งพาร์ติชัน ตัวเชื่อมต่อสําหรับ SharePoint ไม่รองรับในวันนี้

วิธีตั้งค่าการประมวลผลแบบแบ่งพาร์ติชัน

ในการใช้ความสามารถนี้ คุณต้อง:

เปิดใช้งานการตั้งค่ากระแสข้อมูล

ภายในแท็บ หน้าแรก ของ Ribbon ให้เลือกปุ่ม ตัวเลือก เพื่อแสดงกล่องโต้ตอบ ไปที่ส่วนมาตราส่วนและเปิดใช้งานการตั้งค่าที่อ่านว่าอนุญาตให้ใช้การประมวลผลแบบแบ่งพาร์ติชัน

สกรีนช็อตของการตั้งค่าการประมวลผลแบบแบ่งพาร์ติชันภายในส่วนมาตราส่วนของกล่องโต้ตอบตัวเลือก

การเปิดใช้งานตัวเลือกนี้มีวัตถุประสงค์สองประการ:

  • อนุญาตให้กระแสข้อมูลของคุณใช้การประมวลผลแบบแบ่งพาร์ติชันหากค้นพบผ่านสคริปต์คิวรีของคุณ

  • ประสบการณ์เช่นไฟล์รวมจะสร้างคีย์พาร์ติชันโดยอัตโนมัติที่สามารถใช้สําหรับการคํานวณแบบแบ่งพาร์ติชัน

นอกจากนี้ คุณยังต้องเปิดใช้การตั้งค่าในส่วนความเป็นส่วนตัวเพื่ออนุญาตการรวมข้อมูลจากหลายแหล่ง

คิวรีด้วยคีย์พาร์ติชัน

Note

หากต้องการใช้การคํานวณแบบแบ่งพาร์ติชัน ให้ตรวจสอบให้แน่ใจว่าคิวรีของคุณถูกตั้งค่าให้เป็นแบบลําดับขั้น

หลังจากเปิดใช้งานการตั้งค่า คุณสามารถใช้ประสบการณ์การรวมไฟล์สําหรับแหล่งข้อมูลที่ใช้มุมมองระบบไฟล์ เช่น Azure Data Lake Storage Gen2 เมื่อประสบการณ์การรวมไฟล์สิ้นสุดลง คุณจะสังเกตเห็นว่าคิวรีของคุณมีขั้นตอน ที่กําหนดเองเพิ่ม ซึ่งมีสคริปต์ที่คล้ายกับสิ่งนี้:

let
    rootPath = Text.TrimEnd(Value.Metadata(Value.Type(#"Filtered hidden files"))[FileSystemTable.RootPath]?, "\"),
    combinePaths = (path1, path2) => Text.Combine({Text.TrimEnd(path1, "\"), path2}, "\"),
    getRelativePath = (path, relativeTo) => Text.Middle(path, Text.Length(relativeTo) + 1),
    withRelativePath = Table.AddColumn(#"Filtered hidden files", "Relative Path", each getRelativePath(combinePaths([Folder Path], [Name]), rootPath), type text),
    withPartitionKey = Table.ReplacePartitionKey(withRelativePath, {"Relative Path"})
in
    withPartitionKey

สคริปต์นี้ และโดยเฉพาะอย่างยิ่ง withPartitionKey คอมโพเนนต์ ขับเคลื่อนตรรกะเกี่ยวกับวิธีที่กระแสข้อมูลของคุณพยายามแบ่งพาร์ติชันข้อมูลของคุณ และวิธีที่กระแสข้อมูลพยายามประเมินสิ่งต่าง ๆ แบบขนาน

คุณสามารถใช้ฟังก์ชัน Table.PartitionKey กับขั้นตอน ที่กําหนดเองที่เพิ่ม เข้ามา ฟังก์ชันนี้ส่งคืนคีย์พาร์ติชันของตารางที่ระบุ สําหรับกรณีข้างต้น เป็นคอลัมน์ RelativePath คุณสามารถรับรายการที่แตกต่างกันของค่าในคอลัมน์นั้นเพื่อทําความเข้าใจพาร์ติชันทั้งหมดที่จะใช้ระหว่างการเรียกใช้กระแสข้อมูล

สําคัญ

สิ่งสําคัญคือคอลัมน์คีย์พาร์ติชันยังคงอยู่ในคิวรีเพื่อใช้การคํานวณแบบแบ่งพาร์ติชัน

ข้อควรพิจารณาและคําแนะนํา

  • สําหรับสถานการณ์ที่แหล่งข้อมูลของคุณไม่รองรับการพับการแปลงสําหรับไฟล์ของคุณ ขอแนะนําให้คุณเลือกการประมวลผลแบบแบ่งพาร์ติชันมากกว่าการคัดลอกแบบเร็ว

  • เพื่อประสิทธิภาพที่ดีที่สุด ให้ใช้วิธีนี้เพื่อโหลดข้อมูลโดยตรงไปยังการจัดเตรียมเป็นปลายทางของคุณหรือไปยังคลังสินค้า Fabric

  • ใช้ ไฟล์การแปลงตัวอย่าง จากประสบการณ์การ รวมไฟล์ เพื่อแนะนําการแปลงที่ควรเกิดขึ้นในทุกไฟล์

  • การคํานวณแบบแบ่งพาร์ติชันรองรับเฉพาะชุดย่อยของการแปลงเท่านั้น ประสิทธิภาพอาจแตกต่างกันไปขึ้นอยู่กับแหล่งที่มาและชุดการแปลงที่ใช้

  • การเรียกเก็บเงินสําหรับการเรียกใช้กระแสข้อมูลจะขึ้นอยู่กับปริมาณการใช้หน่วยความจุ (CU)