แชร์ผ่าน


Dataflow Gen2 ที่มีการรวม CI/CD และ Git

กระแสข้อมูล Gen2 รองรับการรวมอย่างต่อเนื่อง/การปรับใช้อย่างต่อเนื่อง (CI/CD) และการรวม Git คุณสามารถสร้าง แก้ไข และจัดการกระแสข้อมูลในที่เก็บ Git ที่เชื่อมต่อกับพื้นที่ทํางาน Fabric ของคุณ ใช้ไปป์ไลน์การปรับใช้เพื่อย้ายกระแสข้อมูลระหว่างพื้นที่ทํางานโดยอัตโนมัติ บทความนี้อธิบายวิธีการใช้คุณลักษณะเหล่านี้ใน Fabric Data Factory

คุณลักษณะ

Dataflow Gen2 พร้อมการรวม CI/CD และ Git นําเสนอความสามารถที่หลากหลายเพื่อปรับปรุงเวิร์กโฟลว์ของคุณ นี่คือสิ่งที่คุณสามารถทําได้ด้วยคุณสมบัติเหล่านี้:

  • รวม Git กับ Dataflow Gen2
  • ปรับใช้กระแสข้อมูลระหว่างพื้นที่ทํางานโดยอัตโนมัติโดยใช้ไปป์ไลน์การปรับใช้
  • รีเฟรชและแก้ไขการตั้งค่ากระแสข้อมูล Gen2 ด้วยเครื่องมือ Fabric
  • สร้างกระแสข้อมูล Gen2 โดยตรงในโฟลเดอร์พื้นที่ทํางาน
  • ใช้ API สาธารณะ (พรีวิว) เพื่อจัดการกระแสข้อมูล Gen2 ด้วยการรวม CI/CD และ Git

Prerequisites

ก่อนที่คุณจะเริ่ม โปรดตรวจสอบให้แน่ใจว่าคุณ:

สร้างกระแสข้อมูล Gen2 ด้วยการรวม CI/CD และ Git

การสร้างกระแสข้อมูล Gen2 ด้วยการรวม CI/CD และ Git ช่วยให้คุณสามารถจัดการกระแสข้อมูลของคุณได้อย่างมีประสิทธิภาพภายในที่เก็บ Git ที่เชื่อมต่อ ทําตามขั้นตอนเหล่านี้เพื่อเริ่มต้นใช้งาน

  1. ในพื้นที่ทํางาน Fabric ให้เลือก สร้างรายการใหม่ จากนั้นเลือก Dataflow Gen2

    สกรีนช็อตของหน้าต่างรายการใหม่ที่เน้นรายการ Dataflow Gen2

  2. ตั้งชื่อกระแสข้อมูลของคุณ เปิดใช้งานการรวม Git และเลือก สร้าง

    สกรีนช็อตของหน้าต่างกระแสข้อมูลใหม่ Gen2 ที่มีชื่อกระแสข้อมูลที่ตั้งค่าและการรวม Git ที่ถูกเน้นและเลือก

    กระแสข้อมูลจะเปิดขึ้นในพื้นที่ทํางานการเขียน ซึ่งคุณสามารถเริ่มสร้างกระแสข้อมูลของคุณได้

  3. เมื่อเสร็จแล้ว ให้เลือก บันทึกและเรียกใช้

  4. หลังจากเผยแพร่ กระแสข้อมูลจะแสดงสถานะ "ยังไม่ได้คอมมิต"

    สกรีนช็อตของกระแสข้อมูลที่บันทึกไว้ Gen2 ที่มีสถานะที่แสดงเป็นไม่ได้ผูกมัด

  5. เมื่อต้องการยอมรับกระแสข้อมูลไปยัง Git ให้เลือกไอคอนตัวควบคุมแหล่งที่มาที่มุมบนขวา

    สกรีนช็อตของปุ่มตัวควบคุมแหล่งข้อมูล

  6. เลือกการเปลี่ยนแปลงที่จะยอมรับ จากนั้นเลือก ยอมรับ

    สกรีนช็อตของหน้าต่างตัวควบคุมแหล่งข้อมูลที่มีกระแสข้อมูลที่เลือกไว้และปุ่มยอมรับถูกเน้น

กระแสข้อมูล Gen2 ของคุณที่มีการรวม CI/CD และ Git พร้อมแล้ว สําหรับแนวทางปฏิบัติที่ดีที่สุด โปรดดู สถานการณ์สมมติที่ 2 - พัฒนาโดยใช้บทช่วยสอนพื้นที่ทํางานอื่น

รีเฟรชกระแสข้อมูล Gen2

การรีเฟรชกระแสข้อมูล Gen2 ช่วยให้แน่ใจว่าข้อมูลของคุณเป็นวันที่ up-to คุณสามารถ รีเฟรชด้วยตนเอง หรือ ตั้งค่ากําหนดการ เพื่อทําให้กระบวนการเป็นแบบอัตโนมัติ

รีเฟรชเดี๋ยวนี้

  1. ในพื้นที่ทํางาน Fabric ให้เลือกจุดไข่ปลาถัดจากกระแสข้อมูล

  2. เลือก รีเฟรชเดี๋ยวนี้

    สกรีนช็อตของเมนูดรอปดาวน์ตัวเลือกเพิ่มเติมที่เน้นตัวเลือกรีเฟรชเดี๋ยวนี้

กําหนดตารางเวลาการรีเฟรช

  1. ในพื้นที่ทํางาน Fabric ให้เลือกจุดไข่ปลาถัดจากกระแสข้อมูล

  2. เลือกกําหนดการ

    สกรีนช็อตของเมนูดรอปดาวน์ตัวเลือกเพิ่มเติมที่เน้นตัวเลือกกําหนดการ

  3. บนหน้ากําหนดการ ให้ตั้งค่าความถี่ในการรีเฟรช เวลาเริ่มต้น และเวลาสิ้นสุด ใช้การเปลี่ยนแปลง

    สกรีนช็อตของหน้าจอการตั้งค่าของกระแสข้อมูลที่มีแท็บกําหนดการที่เลือกไว้และปุ่มรีเฟรชจะถูกเน้น

  4. เมื่อต้องการรีเฟรชทันที ให้เลือก รีเฟรช

ดูประวัติการรีเฟรชและการตั้งค่า

การทําความเข้าใจประวัติการรีเฟรชและการจัดการการตั้งค่าช่วยให้คุณตรวจสอบและควบคุมกระแสข้อมูล Gen2 ของคุณ ต่อไปนี้คือวิธีที่คุณสามารถเข้าถึงตัวเลือกเหล่านี้

เมื่อต้องการดูประวัติการรีเฟรช ให้เลือกแท็บ การเรียกใช้ล่าสุด ในเมนูแบบหล่นลง หรือไปที่ฮับการตรวจสอบ และเลือกกระแสข้อมูล

เข้าถึงการตั้งค่ากระแสข้อมูลโดยเลือกจุดไข่ปลาถัดจากกระแสข้อมูล และเลือก การตั้งค่า

บันทึกแทนที่การเผยแพร่

การดําเนินการบันทึกใน Dataflow Gen2 ที่มีการรวม CI/CD และ Git จะเผยแพร่การเปลี่ยนแปลงโดยอัตโนมัติ ทําให้เวิร์กโฟลว์ง่ายขึ้น

การบันทึกกระแสข้อมูล Gen2 จะเผยแพร่การเปลี่ยนแปลงโดยอัตโนมัติ หากคุณต้องการละทิ้งการเปลี่ยนแปลง ให้เลือก ละทิ้งการเปลี่ยนแปลง เมื่อปิดตัวแก้ไข

Validation

เมื่อบันทึก ระบบจะตรวจสอบว่ากระแสข้อมูลถูกต้องหรือไม่ ถ้าไม่เป็นเช่นนั้น ข้อผิดพลาดจะปรากฏขึ้นในมุมมองพื้นที่ทํางาน การตรวจสอบความถูกต้องจะเรียกใช้การประเมิน "แถวศูนย์" ซึ่งจะตรวจสอบ Schema แบบสอบถามโดยไม่ส่งกลับแถว หากไม่สามารถกําหนด Schema ของคิวรีได้ภายใน 10 นาที การประเมินจะล้มเหลว หากการตรวจสอบล้มเหลว ระบบจะใช้เวอร์ชันที่บันทึกไว้ล่าสุดสําหรับการรีเฟรช

การเผยแพร่แบบทันเวลา

การเผยแพร่แบบทันเวลาช่วยให้มั่นใจได้ว่าการเปลี่ยนแปลงของคุณจะพร้อมใช้งานเมื่อจําเป็น ส่วนนี้อธิบายวิธีที่ระบบจัดการกับการเผยแพร่ระหว่างการรีเฟรชและการดําเนินการอื่นๆ

กระแสข้อมูล Gen2 ใช้รูปแบบการเผยแพร่ "ทันเวลา" อัตโนมัติ เมื่อคุณบันทึกกระแสข้อมูล การเปลี่ยนแปลงจะพร้อมใช้งานทันทีสําหรับการรีเฟรชหรือการดําเนินการครั้งต่อไป การซิงค์การเปลี่ยนแปลงจาก Git หรือการใช้ไปป์ไลน์การปรับใช้จะบันทึกกระแสข้อมูลที่อัปเดตในพื้นที่ทํางานของคุณ การรีเฟรชครั้งต่อไปจะพยายามเผยแพร่เวอร์ชันที่บันทึกไว้ล่าสุด หากการเผยแพร่ล้มเหลว ข้อผิดพลาดจะปรากฏในประวัติการรีเฟรช

เมื่อคุณรีเฟรชกระแสข้อมูล จะมีตัวเลือก (Run On Demand Execute ใน REST API ของงานเบื้องหลัง) ที่ควบคุมว่าจะพยายามเผยแพร่หรือไม่ ค่าเริ่มต้นสําหรับตัวเลือก ApplyChangesIfNeeded นี้เป็น true ซึ่งจะทริกเกอร์การเผยแพร่ก็ต่อเมื่อแหล่งที่มามีการเปลี่ยนแปลงตั้งแต่การเผยแพร่ครั้งล่าสุด ซึ่งจะกล่าวถึงสถานการณ์ที่ผู้ใช้จําเป็นต้องทริกเกอร์การเผยแพร่ด้วยตนเองเมื่อทําการเปลี่ยนแปลงผ่าน CI/CD หรือ API

ในบางกรณี แบ็กเอนด์จะเผยแพร่กระแสข้อมูลใหม่โดยอัตโนมัติในระหว่างการรีเฟรชเพื่อให้แน่ใจว่าเข้ากันได้กับการอัปเดต

ก่อนหน้านี้ถ้าการเผยแพร่ล้มเหลว การรีเฟรชจะทํางานโดยใช้กระแสข้อมูลเวอร์ชันที่เผยแพร่สําเร็จล่าสุด เมื่อใช้การเผยแพร่แบบทันเวลา การรีเฟรชจะล้มเหลวในกรณีต่อไปนี้

  • กระแสข้อมูลถูกบันทึกครั้งล่าสุดหลังจากวันที่ 1 กุมภาพันธ์ 2026 และ
  • การเผยแพร่ล้มเหลว (แม้ว่าจะมีการเผยแพร่สําเร็จในอดีตก็ตาม)

สิ่งนี้จะป้องกันสถานการณ์ที่ลูกค้าเรียกใช้กระแสข้อมูลเวอร์ชันที่ล้าสมัยโดยไม่รู้ตัว ช่วยให้มั่นใจได้ว่าสิ่งที่แสดงในตัวแก้ไขตรงกับสิ่งที่ดําเนินการ

นอกจากนี้ API ยังพร้อมใช้งานเพื่อรีเฟรชกระแสข้อมูลโดยไม่ต้องเผยแพร่หรือทริกเกอร์การเผยแพร่ด้วยตนเอง

ข้อจำกัดและปัญหาที่ทราบ

แม้ว่า Dataflow Gen2 ที่มีการรวม CI/CD และ Git จะมีประสิทธิภาพ แต่ก็มีข้อจํากัดและปัญหาที่ทราบบางประการที่ต้องระวัง นี่คือสิ่งที่คุณต้องรู้

  • เมื่อคุณลบกระแสข้อมูล Gen2 ล่าสุดที่มีการสนับสนุน CI/CD และ Git รายการการจัดเตรียมจะมองเห็นได้ในพื้นที่ทํางาน และปลอดภัยที่จะลบโดยผู้ใช้
  • มุมมองพื้นที่ทํางานจะไม่แสดงดังต่อไปนี้: ตัวบ่งชี้การรีเฟรชอย่างต่อเนื่อง การรีเฟรชครั้งล่าสุด การรีเฟรชครั้งถัดไป และตัวบ่งชี้ความล้มเหลวในการรีเฟรช
  • เมื่อกระแสข้อมูลของคุณล้มเหลวในการรีเฟรช เราไม่สนับสนุนการส่งการแจ้งเตือนความล้มเหลวให้คุณโดยอัตโนมัติ วิธีแก้ปัญหาชั่วคราว คุณสามารถใช้ประโยชน์จากความสามารถในการประสานรวมของไปป์ไลน์ได้
  • เมื่อแยกสาขาออกจากพื้นที่ทํางานอื่น การรีเฟรชกระแสข้อมูล Gen2 อาจล้มเหลวด้วยข้อความว่าไม่สามารถค้นหา staging lakehouse ได้ เมื่อเกิดกรณีนี้ขึ้น ให้สร้างกระแสข้อมูลรุ่น Gen2 ใหม่โดยรองรับ CI/CD และ Git ในพื้นที่ทํางานเพื่อกระตุ้นการสร้างเลคเฮ้าส์สเตจ หลังจากนี้ กระแสข้อมูลอื่น ๆ ทั้งหมดในพื้นที่ทํางานควรเริ่มทํางานอีกครั้ง
  • เมื่อคุณซิงค์การเปลี่ยนแปลงจาก GIT ลงในพื้นที่ทํางานหรือใช้ไปป์ไลน์การปรับใช้ คุณจําเป็นต้องเปิดกระแสข้อมูลใหม่หรือที่อัปเดตแล้ว และบันทึกการเปลี่ยนแปลงด้วยตนเองด้วยตัวแก้ไข การดําเนินการนี้จะทริกเกอร์การดําเนินการเผยแพร่ในพื้นหลังเพื่ออนุญาตให้มีการใช้การเปลี่ยนแปลงในระหว่างการรีเฟรชกระแสข้อมูลของคุณ คุณยังสามารถใช้การ เรียกใช้ API งานการเผยแพร่กระแสข้อมูลตามความต้องการ เพื่อดําเนินการเผยแพร่โดยอัตโนมัติได้อีกด้วย
  • ตัวเชื่อมต่อ Power Automate สําหรับกระแสข้อมูลไม่ทํางานด้วย Dataflow Gen2 ใหม่ที่รองรับ CI/CD และ Git