แชร์ผ่าน


การรีเฟรชแบบเพิ่มหน่วยใน Dataflow Gen2

บทความนี้กล่าวถึงการรีเฟรชข้อมูลแบบเพิ่มหน่วยใน Dataflow Gen2 สําหรับ Data Factory ของ Microsoft Fabric เมื่อคุณใช้กระแสข้อมูลสําหรับการนําเข้าและการแปลงข้อมูล บางครั้ง คุณจําเป็นต้องรีเฟรชเฉพาะข้อมูลใหม่หรือข้อมูลที่อัปเดต โดยเฉพาะอย่างยิ่งเมื่อข้อมูลของคุณมีขนาดใหญ่ขึ้น

การรีเฟรชแบบเพิ่มหน่วยช่วยให้คุณ:

  • ลดเวลารีเฟรช
  • ทําให้การดําเนินงานมีความน่าเชื่อถือมากขึ้นโดยหลีกเลี่ยงกระบวนการที่ทํางานเป็นเวลานาน
  • ใช้ทรัพยากรน้อยลง

Prerequisites

หากต้องการใช้การรีเฟรชแบบเพิ่มหน่วยใน Dataflow Gen2 คุณต้องมีสิ่งต่อไปนี้

  • ความจุผ้า
  • แหล่งข้อมูลที่รองรับ การพับ (แนะนํา) และมีคอลัมน์ Date/DateTime สําหรับการกรองข้อมูล
  • ปลายทางข้อมูลที่รองรับการรีเฟรชแบบเพิ่มหน่วย (ดู การสนับสนุนปลายทาง)
  • ตรวจสอบ ข้อจํากัด ก่อนที่คุณจะเริ่ม

การสนับสนุนปลายทาง

ปลายทางข้อมูลเหล่านี้รองรับการรีเฟรชแบบเพิ่มหน่วย:

  • ผ้าเลคเฮาส์
  • คลังสินค้าผ้า
  • ฐานข้อมูล Azure SQL

คุณสามารถใช้ปลายทางอื่นๆ ที่มีการรีเฟรชแบบเพิ่มหน่วยได้เช่นกัน สร้างคิวรีที่สองที่อ้างอิงข้อมูลที่จัดเตรียมไว้เพื่ออัปเดตปลายทางของคุณ วิธีการนี้ยังคงช่วยให้คุณสามารถใช้การรีเฟรชแบบเพิ่มหน่วยเพื่อลดข้อมูลที่ต้องประมวลผลจากระบบต้นทาง อย่างไรก็ตาม คุณจะต้องทําการรีเฟรชทั้งหมดจากข้อมูลที่จัดเตรียมไว้ไปยังปลายทางสุดท้ายของคุณ

นอกจากนี้ การกําหนดค่าปลายทางเริ่มต้นไม่ได้รับการสนับสนุนสําหรับการรีเฟรชแบบเพิ่มหน่วย คุณต้องกําหนดปลายทางอย่างชัดเจนในการตั้งค่าคิวรีของคุณ

วิธีการใช้การรีเฟรชแบบเพิ่มหน่วย

  1. สร้าง Dataflow Gen2 ใหม่หรือเปิด Dataflow ที่มีอยู่

  2. ในตัวแก้ไขกระแสข้อมูล ให้สร้างคิวรีใหม่ที่รับข้อมูลที่คุณต้องการรีเฟรชแบบเพิ่มหน่วย

  3. ตรวจสอบตัวอย่างข้อมูลเพื่อให้แน่ใจว่าคิวรีของคุณส่งคืนข้อมูลด้วยคอลัมน์ DateTime, Date หรือ DateTimeZone สําหรับการกรอง

  4. ตรวจสอบให้แน่ใจว่าคิวรีของคุณพับจนสุด ซึ่งหมายความว่าคิวรีจะถูกผลักดันไปยังระบบต้นทาง หากไม่พับจนสุด ให้แก้ไขแบบสอบถามของคุณเพื่อให้เป็นเช่นนั้น คุณสามารถตรวจสอบว่าคิวรีของคุณพับเต็มที่หรือไม่โดยดูที่ขั้นตอนคิวรีในตัวแก้ไขคิวรี

    สกรีนช็อตของตัวแก้ไขคิวรีใน Dataflow Gen2

  5. คลิกขวาที่คิวรีและเลือก การรีเฟรชแบบเพิ่มหน่วย

    สกรีนช็อตของเมนูดรอปดาวน์ในกระแสข้อมูล Gen2

  6. กําหนดการตั้งค่าที่จําเป็นสําหรับการรีเฟรชแบบเพิ่มหน่วย

    สกรีนช็อตของการตั้งค่าการรีเฟรชแบบเพิ่มหน่วย

    1. เลือกคอลัมน์ DateTime เพื่อกรองตาม
    2. แยกข้อมูลจากอดีต
    3. ขนาดถัง
    4. แยกข้อมูลใหม่เมื่อค่าสูงสุดในคอลัมน์นี้เปลี่ยนแปลงเท่านั้น
  7. กําหนดค่าการตั้งค่าขั้นสูงถ้าจําเป็น

    1. จําเป็นต้องมีคิวรีการรีเฟรชแบบเพิ่มหน่วยเพื่อพับทั้งหมด
  8. เลือก ตกลง เพื่อบันทึกการตั้งค่าของคุณ

  9. หากต้องการ ให้ตั้งค่าปลายทางข้อมูลสําหรับแบบสอบถาม ทําเช่นนี้ก่อนการรีเฟรชแบบเพิ่มหน่วยครั้งแรก มิฉะนั้นปลายทางของคุณจะมีเฉพาะข้อมูลที่เปลี่ยนแปลงที่เพิ่มขึ้นนับตั้งแต่การรีเฟรชครั้งล่าสุดเท่านั้น

  10. เผยแพร่กระแสข้อมูล Gen2

หลังจากที่คุณกําหนดค่าการรีเฟรชแบบเพิ่มหน่วย กระแสข้อมูลจะรีเฟรชข้อมูลทีละน้อยโดยอัตโนมัติตามการตั้งค่าของคุณ กระแสข้อมูลจะได้รับเฉพาะข้อมูลที่เปลี่ยนแปลงตั้งแต่การรีเฟรชครั้งล่าสุด ดังนั้นจึงทํางานได้เร็วขึ้นและใช้ทรัพยากรน้อยลง

วิธีการทํางานของการรีเฟรชแบบเพิ่มหน่วยในเบื้องหลัง

การรีเฟรชแบบเพิ่มหน่วยจะแบ่งข้อมูลของคุณออกเป็นบัคเก็ตตามคอลัมน์ DateTime แต่ละบัคเก็ตมีข้อมูลที่เปลี่ยนแปลงตั้งแต่การรีเฟรชครั้งล่าสุด กระแสข้อมูลรู้ว่ามีอะไรเปลี่ยนแปลงโดยการตรวจสอบค่าสูงสุดในคอลัมน์ที่คุณระบุ

หากค่าสูงสุดสําหรับบัคเก็ตนั้นเปลี่ยนไป dataflow จะได้รับบัคเก็ตทั้งหมดและแทนที่ข้อมูลในปลายทาง ถ้าค่าสูงสุดไม่เปลี่ยนแปลง กระแสข้อมูลจะไม่ได้รับข้อมูลใดๆ นี่คือวิธีการทํางานทีละขั้นตอน

ขั้นตอนแรก: ประเมินการเปลี่ยนแปลง

เมื่อกระแสข้อมูลของคุณทํางาน จะตรวจสอบสิ่งที่มีการเปลี่ยนแปลงในแหล่งข้อมูลของคุณก่อน โดยจะดูค่าสูงสุดในคอลัมน์ DateTime ของคุณและเปรียบเทียบกับค่าสูงสุดจากการรีเฟรชครั้งล่าสุด

หากค่าสูงสุดเปลี่ยนแปลง (หรือหากนี่เป็นการรีเฟรชครั้งแรกของคุณ) กระแสข้อมูลจะทําเครื่องหมายบัคเก็ตนั้นว่า "เปลี่ยนแปลง" และจะประมวลผล หากค่าสูงสุดเท่ากัน กระแสข้อมูลจะข้ามบัคเก็ตนั้นทั้งหมด

ขั้นตอนที่สอง: รับข้อมูล

ตอนนี้กระแสข้อมูลได้รับข้อมูลสําหรับแต่ละบัคเก็ตที่มีการเปลี่ยนแปลง ประมวลผลหลายบัคเก็ตพร้อมกันเพื่อเพิ่มความเร็ว

กระแสข้อมูลจะโหลดข้อมูลนี้ลงในพื้นที่จัดเตรียม รับเฉพาะข้อมูลที่อยู่ในช่วงเวลาของบัคเก็ต ซึ่งหมายความว่าเฉพาะข้อมูลที่เปลี่ยนแปลงจริงตั้งแต่การรีเฟรชครั้งล่าสุดของคุณ

ขั้นตอนสุดท้าย: แทนที่ข้อมูลในปลายทาง

กระแสข้อมูลจะอัปเดตปลายทางของคุณด้วยข้อมูลใหม่ ใช้วิธีการ "แทนที่": ขั้นแรกจะลบข้อมูลเก่าสําหรับบัคเก็ตเฉพาะนั้น จากนั้นจึงแทรกข้อมูลใหม่

กระบวนการนี้จะมีผลกับข้อมูลภายในช่วงเวลาของบัคเก็ตเท่านั้น ข้อมูลใดๆ ที่อยู่นอกช่วงนั้น (เช่น ข้อมูลย้อนหลังเก่า) จะไม่ถูกแตะต้อง

อธิบายการตั้งค่าการรีเฟรชแบบเพิ่มหน่วย

ในการกําหนดค่าการรีเฟรชแบบเพิ่มหน่วย คุณต้องระบุการตั้งค่าเหล่านี้

สกรีนช็อตของการตั้งค่าการรีเฟรชแบบเพิ่มหน่วย

การตั้งค่าทั่วไป

การตั้งค่าเหล่านี้เป็นสิ่งจําเป็นและระบุการกําหนดค่าพื้นฐานสําหรับการรีเฟรชแบบเพิ่มหน่วย

เลือกคอลัมน์ DateTime เพื่อกรองตาม

การตั้งค่าที่จําเป็นนี้ระบุคอลัมน์ที่กระแสข้อมูลใช้เพื่อกรองข้อมูล คอลัมน์นี้ควรเป็นคอลัมน์ DateTime, Date หรือ DateTimeZone กระแสข้อมูลใช้คอลัมน์นี้เพื่อกรองข้อมูลและรับเฉพาะข้อมูลที่เปลี่ยนแปลงตั้งแต่การรีเฟรชครั้งล่าสุดเท่านั้น

แยกข้อมูลจากอดีต

การตั้งค่าที่จําเป็นนี้ระบุว่ากระแสข้อมูลควรแยกข้อมูลย้อนเวลากลับไปนานแค่ไหน การตั้งค่านี้ได้รับการโหลดข้อมูลเริ่มต้น กระแสข้อมูลรับข้อมูลทั้งหมดจากระบบต้นทางภายในช่วงเวลาที่ระบุ ค่าที่เป็นไปได้คือ:

  • x วัน
  • x สัปดาห์
  • x เดือน
  • x ไตรมาส
  • x ปี

ตัวอย่างเช่น หากคุณระบุ 1 เดือน กระแสข้อมูลจะได้รับข้อมูลใหม่ทั้งหมดจากระบบต้นทางภายในเดือนที่แล้ว

ขนาดถัง

การตั้งค่าที่จําเป็นนี้จะระบุขนาดของบัคเก็ตที่กระแสข้อมูลใช้เพื่อกรองข้อมูล กระแสข้อมูลแบ่งข้อมูลออกเป็นบัคเก็ตตามคอลัมน์ DateTime แต่ละบัคเก็ตมีข้อมูลที่เปลี่ยนแปลงตั้งแต่การรีเฟรชครั้งล่าสุด ขนาดบัคเก็ตจะกําหนดปริมาณข้อมูลที่ได้รับการประมวลผลในการทําซ้ําแต่ละครั้ง:

  • ขนาดบัคเก็ตที่เล็กลง หมายความว่ากระแสข้อมูลประมวลผลข้อมูลน้อยลงในการวนซ้ําแต่ละครั้ง แต่ต้องมีการวนซ้ํามากขึ้นเพื่อประมวลผลข้อมูลทั้งหมด
  • ขนาดบัคเก็ตที่ใหญ่ขึ้น หมายความว่ากระแสข้อมูลประมวลผลข้อมูลมากขึ้นในการวนซ้ําแต่ละครั้ง แต่ต้องการการทําซ้ําน้อยลงเพื่อประมวลผลข้อมูลทั้งหมด

แยกข้อมูลใหม่เมื่อค่าสูงสุดในคอลัมน์นี้เปลี่ยนแปลงเท่านั้น

การตั้งค่าที่จําเป็นนี้จะระบุคอลัมน์ที่กระแสข้อมูลใช้เพื่อตรวจสอบว่าข้อมูลมีการเปลี่ยนแปลงหรือไม่ กระแสข้อมูลจะเปรียบเทียบค่าสูงสุดในคอลัมน์นี้กับค่าสูงสุดจากการรีเฟรชก่อนหน้านี้ หากค่าสูงสุดเปลี่ยนแปลง กระแสข้อมูลจะได้รับข้อมูลที่เปลี่ยนแปลงตั้งแต่การรีเฟรชครั้งล่าสุด ถ้าค่าสูงสุดไม่เปลี่ยนแปลง กระแสข้อมูลจะไม่ได้รับข้อมูลใดๆ

แยกข้อมูลสําหรับรอบระยะเวลาที่สรุปเท่านั้น

การตั้งค่าทางเลือกนี้ระบุว่ากระแสข้อมูลควรแยกข้อมูลสําหรับช่วงเวลาที่สรุปไว้เท่านั้น ถ้าคุณเปิดใช้งานการตั้งค่านี้ กระแสข้อมูลจะแยกข้อมูลสําหรับรอบระยะเวลาที่สรุปเท่านั้น กระแสข้อมูลจะแยกข้อมูลสําหรับช่วงเวลาที่สมบูรณ์และไม่มีข้อมูลในอนาคตเท่านั้น หากคุณปิดใช้งานการตั้งค่านี้ กระแสข้อมูลจะแยกข้อมูลสําหรับทุกช่วงเวลา รวมถึงช่วงเวลาที่ไม่สมบูรณ์และมีข้อมูลในอนาคต

ตัวอย่างเช่น หากคุณมีคอลัมน์ DateTime ที่มีวันที่ของธุรกรรม และคุณต้องการรีเฟรชเฉพาะเดือนที่สมบูรณ์ คุณสามารถเปิดใช้งานการตั้งค่านี้ด้วยขนาดบัคเก็ตเป็น month. กระแสข้อมูลจะดึงข้อมูลสําหรับเดือนที่สมบูรณ์เท่านั้น และจะไม่ดึงข้อมูลสําหรับเดือนที่ไม่สมบูรณ์

การตั้งค่าขั้นสูง

การตั้งค่าบางอย่างถือว่าเป็นขั้นสูงและไม่จําเป็นสําหรับสถานการณ์ส่วนใหญ่

ต้องใช้คิวรีการรีเฟรชแบบเพิ่มหน่วยเพื่อพับทั้งหมด

การตั้งค่านี้ควบคุมว่าคิวรีการรีเฟรชแบบเพิ่มหน่วยของคุณต้อง "พับจนสุด" หรือไม่ เมื่อคิวรีพับจนสุด คิวรีจะถูกผลักดันลงทั้งหมดไปยังระบบต้นทางของคุณเพื่อประมวลผล

หากคุณเปิดใช้งานการตั้งค่านี้ แบบสอบถามของคุณจะต้องพับจนสุด หากคุณปิดใช้งาน กระแสข้อมูลสามารถประมวลผลแบบสอบถามได้บางส่วนแทนระบบต้นทางของคุณ

เราขอแนะนําอย่างยิ่งให้เปิดใช้การตั้งค่านี้ไว้ ช่วยให้มั่นใจได้ว่าหลังจากบันทึกกระแสข้อมูลแล้ว เราจะตรวจสอบว่าการพับคิวรีไปยังแหล่งที่มาเป็นไปได้หรือไม่ หากการตรวจสอบความถูกต้องนี้ล้มเหลว กระแสข้อมูลของคุณอาจประสบปัญหาประสิทธิภาพการทํางานที่ลดลง และอาจจบลงด้วยการดึงข้อมูลที่ไม่จําเป็นและไม่ผ่านการกรอง

ในบางกรณี คุณอาจเห็นตัวบ่งชี้การพับสีเขียวระหว่างการเขียน อย่างไรก็ตาม เมื่อเราตรวจสอบความถูกต้องของคําจํากัดความกระแสข้อมูลขั้นสุดท้าย การพับอาจไม่สามารถทําได้อีกต่อไป ตัวอย่างเช่น ถ้าขั้นตอนเช่น Table.SelectRows แบ่งการพับ ซึ่งอาจนําไปสู่ข้อผิดพลาดในการตรวจสอบความถูกต้อง

Limitations

การสนับสนุนเลคเฮาส์มาพร้อมกับข้อแม้เพิ่มเติม

เมื่อทํางานกับเลคเฮาส์เป็นปลายทางข้อมูล โปรดระวังข้อจํากัดเหล่านี้:

  • จํานวนสูงสุดของการประเมินพร้อมกันคือ 10 ซึ่งหมายความว่ากระแสข้อมูลสามารถประเมินได้เพียง 10 บัคเก็ตในเวลาเดียวกัน ถ้าคุณมีมากกว่า 10 บักเก็ต คุณจําเป็นต้องจํากัดจํานวนของบักเก็ต หรือจํากัดจํานวนของการประเมินพร้อมกัน สกรีนช็อตของการตั้งค่าการควบคุมการเกิดพร้อมกันของกระแสข้อมูล

  • เมื่อคุณเขียนไปยัง เลคเฮาส์ กระแสข้อมูลจะติดตามว่าไฟล์ใดที่เขียน สิ่งนี้เป็นไปตามแนวทางปฏิบัติของเลคเฮาส์มาตรฐาน

    แต่นี่คือสิ่งที่จับได้: หากเครื่องมืออื่น ๆ (เช่น Spark) หรือกระบวนการเขียนลงในตารางเดียวกันด้วยอาจรบกวนการรีเฟรชที่เพิ่มขึ้น เราขอแนะนําให้หลีกเลี่ยงผู้เขียนรายอื่นในขณะที่ใช้การรีเฟรชแบบเพิ่มหน่วย

    หากคุณต้องใช้ผู้เขียนอื่น ตรวจสอบให้แน่ใจว่าไม่ได้ขัดแย้งกับกระบวนการรีเฟรชแบบเพิ่มหน่วย นอกจากนี้ การบํารุงรักษาตาราง เช่น การดําเนินการ OPTIMIZE หรือ REORG TABLE ไม่ได้รับการสนับสนุนสําหรับตารางที่ใช้การรีเฟรชแบบเพิ่มหน่วย

  • หากคุณใช้ประโยชน์จากเกตเวย์ข้อมูลเพื่อเชื่อมต่อกับแหล่งข้อมูล ให้ตรวจสอบว่าเกตเวย์ได้รับการอัปเดตเป็นการอัปเดตอย่างน้อยในเดือนพฤษภาคม 2025 (3000.270) หรือใหม่กว่า นี่เป็นสิ่งสําคัญสําหรับการรักษาความเข้ากันได้และทําให้แน่ใจว่าการรีเฟรชที่เพิ่มขึ้นจะทํางานได้อย่างถูกต้องกับจุดหมายปลายทางของเลคเฮาส์

  • ไม่รองรับการสลับจากการรีเฟรชแบบไม่เพิ่มหน่วยเป็นการรีเฟรชแบบเพิ่มหน่วยด้วยข้อมูลที่ทับซ้อนกันที่มีอยู่ในปลายทาง หากปลายทางเลคเฮาส์มีข้อมูลสําหรับบัคเก็ตที่ทับซ้อนกับบัคเก็ตส่วนเพิ่มที่กําหนดไว้ในการตั้งค่าอยู่แล้ว ระบบจะไม่สามารถแปลงเป็นการรีเฟรชแบบเพิ่มหน่วยได้อย่างปลอดภัยโดยไม่ต้องเขียนตารางเดลต้าทั้งหมดใหม่ เราขอแนะนําให้กรองการนําเข้าเริ่มต้นเพื่อรวมเฉพาะข้อมูลก่อนที่เก็บข้อมูลที่เพิ่มขึ้นแรกสุดเพื่อหลีกเลี่ยงการทับซ้อนกันและให้แน่ใจว่าพฤติกรรมการรีเฟรชถูกต้อง

ปลายทางข้อมูลต้องได้รับการตั้งค่าเป็นเค้าร่างแบบคงที่

ปลายทางของข้อมูลต้องถูกตั้งค่าเป็น Schema แบบตายตัว ซึ่งหมายความว่า Schema ของตารางในปลายทางของข้อมูลต้องได้รับการแก้ไขและไม่สามารถเปลี่ยนแปลงได้ ถ้าสคีมาของตารางในปลายทางข้อมูลถูกตั้งค่าเป็นสคีมาแบบไดนามิก คุณจําเป็นต้องเปลี่ยนสคีมาแบบคงที่ก่อนที่คุณจะกําหนดค่าการรีเฟรชแบบเพิ่มหน่วย

วิธีการอัปเดตเดียวที่ได้รับการสนับสนุนในปลายทางข้อมูลคือ replace

วิธีการอัปเดตที่รองรับเพียงอย่างเดียวในปลายทางข้อมูลคือ replaceซึ่งหมายความว่ากระแสข้อมูลจะแทนที่ข้อมูลสําหรับแต่ละบัคเก็ตในปลายทางข้อมูลด้วยข้อมูลใหม่ อย่างไรก็ตาม ข้อมูลที่อยู่นอกช่วงบัคเก็ตจะไม่ได้รับผลกระทบ หากคุณมีข้อมูลในปลายทางข้อมูลที่เก่ากว่าบัคเก็ตแรก การรีเฟรชแบบเพิ่มหน่วยจะไม่ส่งผลต่อข้อมูลนี้

จํานวนสูงสุดของบักเก็ตคือ 50 สําหรับคิวรีเดียวและ 150 สําหรับกระแสข้อมูลทั้งหมด

การสืบค้นแต่ละรายการสามารถจัดการบัคเก็ตได้สูงสุด 50 บัคเก็ต หากคุณมีถังมากกว่า 50 ถัง คุณจะต้องปรับขนาดถังให้ใหญ่ขึ้นหรือลดช่วงเวลาเพื่อลดการนับถอยหลัง

สําหรับกระแสข้อมูลทั้งหมดของคุณ ขีดจํากัดคือทั้งหมด 150 บัคเก็ต หากคุณถึงขีดจํากัดนี้ คุณสามารถลดจํานวนการสืบค้นโดยใช้การรีเฟรชแบบเพิ่มหน่วยหรือเพิ่มขนาดบัคเก็ตในการค้นหาของคุณได้

ความแตกต่างระหว่างการรีเฟรชแบบเพิ่มหน่วยใน Dataflow Gen1 และ Dataflow Gen2

มีความแตกต่างบางประการในวิธีการทํางานของการรีเฟรชแบบเพิ่มหน่วยระหว่าง Dataflow Gen1 และ Dataflow Gen2 นี่คือความแตกต่างที่สําคัญ:

  • คุณลักษณะระดับเฟิร์สคลาส: การรีเฟรชแบบเพิ่มหน่วยเป็นฟีเจอร์ระดับเฟิร์สคลาสใน Dataflow Gen2 ใน Dataflow Gen1 คุณกําหนดค่าการรีเฟรชแบบเพิ่มหน่วยหลังจากที่คุณเผยแพร่กระแสข้อมูล ใน Dataflow Gen2 คุณสามารถกําหนดค่าได้โดยตรงในตัวแก้ไขกระแสข้อมูล สิ่งนี้ทําให้การกําหนดค่าง่ายขึ้นและลดความเสี่ยงของข้อผิดพลาด

  • ไม่มีช่วงข้อมูลในอดีต: ใน Dataflow Gen1 คุณระบุช่วงข้อมูลในอดีตเมื่อคุณกําหนดค่าการรีเฟรชแบบเพิ่มหน่วย ใน Dataflow Gen2 คุณไม่ได้ระบุช่วงนี้ กระแสข้อมูลไม่ได้นําข้อมูลใด ๆ ออกจากปลายทางที่อยู่นอกช่วงบักเก็ต หากคุณมีข้อมูลในปลายทางที่เก่ากว่าบัคเก็ตแรก การรีเฟรชแบบเพิ่มหน่วยจะไม่ส่งผลต่อข้อมูลนั้น

  • พารามิเตอร์อัตโนมัติ: ใน Dataflow Gen1 คุณระบุพารามิเตอร์สําหรับการรีเฟรชแบบเพิ่มหน่วยเมื่อคุณกําหนดค่า ใน Dataflow Gen2 คุณไม่ได้ระบุพารามิเตอร์เหล่านี้ กระแสข้อมูลจะเพิ่มตัวกรองและพารามิเตอร์เป็นขั้นตอนสุดท้ายในคิวรีโดยอัตโนมัติ

คำถามที่ถามบ่อย

ฉันได้รับคําเตือนว่าฉันใช้คอลัมน์เดียวกันในการตรวจจับการเปลี่ยนแปลงและการกรอง นี่หมายความว่าอย่างไร

หากคุณได้รับคําเตือนนี้ แสดงว่าคอลัมน์ที่คุณระบุสําหรับการตรวจหาการเปลี่ยนแปลงถูกใช้สําหรับกรองข้อมูลด้วย เราไม่แนะนําเช่นนี้เพราะอาจนําไปสู่ผลลัพธ์ที่ไม่คาดคิด

ให้ใช้คอลัมน์อื่นเพื่อตรวจหาการเปลี่ยนแปลงและกรองข้อมูลแทน หากข้อมูลเปลี่ยนไปมาระหว่างบัคเก็ต กระแสข้อมูลอาจตรวจไม่พบการเปลี่ยนแปลงอย่างถูกต้อง และอาจสร้างข้อมูลที่ซ้ํากันในปลายทางของคุณ

คุณสามารถแก้ไขคําเตือนนี้ได้โดยใช้คอลัมน์ที่แตกต่างกันสําหรับการตรวจหาการเปลี่ยนแปลงและกรองข้อมูล หรือคุณสามารถละเว้นคําเตือนถ้าคุณแน่ใจว่าข้อมูลไม่เปลี่ยนแปลงระหว่างการรีเฟรชสําหรับคอลัมน์ที่คุณระบุ

ฉันต้องการใช้การรีเฟรชแบบเพิ่มหน่วยกับปลายทางข้อมูลที่ไม่ได้รับการสนับสนุน ฉันควรทำอย่างไร

หากคุณต้องการใช้การรีเฟรชแบบเพิ่มหน่วยกับปลายทางข้อมูลที่ไม่รองรับ คุณสามารถทําสิ่งต่อไปนี้:

เปิดใช้งานการรีเฟรชแบบเพิ่มหน่วยในคิวรีของคุณ และสร้างคิวรีที่สองที่อ้างอิงข้อมูลที่จัดเตรียมไว้ จากนั้นใช้คําค้นหาที่สองเพื่ออัปเดตปลายทางสุดท้ายของคุณ วิธีนี้ยังคงลดการประมวลผลข้อมูลจากระบบต้นทางของคุณ แต่คุณจะต้องทําการรีเฟรชทั้งหมดจากข้อมูลที่จัดเตรียมไว้ไปยังปลายทางสุดท้ายของคุณ

ตรวจสอบให้แน่ใจว่าคุณตั้งค่าขนาดหน้าต่างและถังอย่างถูกต้อง เราไม่รับประกันว่าข้อมูลแบบจัดขั้นจะยังคงพร้อมใช้งานนอกช่วงที่เก็บข้อมูล

อีกทางเลือกหนึ่งคือการใช้รูปแบบสะสมที่เพิ่มขึ้น ดูคําแนะนําของเรา: สะสมข้อมูลที่เพิ่มขึ้นด้วย Dataflow Gen2

ฉันจะทราบได้อย่างไรว่าคิวรีของฉันเปิดใช้งานการรีเฟรชแบบเพิ่มหน่วยแล้ว

คุณสามารถดูได้ว่าคิวรีของคุณได้เปิดใช้งานการรีเฟรชแบบเพิ่มหน่วยหรือไม่ โดยตรวจสอบไอคอนที่อยู่ถัดจากคิวรีในตัวแก้ไขกระแสข้อมูล ถ้าไอคอนมีรูปสามเหลี่ยมสีน้ําเงิน จะเปิดใช้งานการรีเฟรชแบบเพิ่มหน่วย ถ้าไอคอนไม่มีรูปสามเหลี่ยมสีน้ําเงิน ไม่ได้เปิดใช้งานการรีเฟรชแบบเพิ่มหน่วย

แหล่งข้อมูลของฉันได้รับการร้องขอมากเกินไปเมื่อฉันใช้การรีเฟรชแบบเพิ่มหน่วย ฉันควรทำอย่างไร

คุณสามารถควบคุมจํานวนคําขอที่กระแสข้อมูลของคุณส่งไปยังระบบต้นทางได้ นี่คือวิธี:

ไปที่การตั้งค่าส่วนกลางของกระแสข้อมูลของคุณ และมองหาการตั้งค่าการประเมินคิวรีแบบขนาน ตั้งค่านี้เป็นตัวเลขที่ต่ํากว่าเพื่อลดคําขอที่ส่งไปยังระบบต้นทางของคุณ วิธีนี้ช่วยลดภาระในแหล่งที่มาของคุณและสามารถปรับปรุงประสิทธิภาพได้

หากต้องการค้นหาการตั้งค่านี้: ไปที่การตั้งค่า>ส่วนกลาง แท็บมา>กําหนดจํานวนสูงสุดของการประเมินคิวรีแบบขนาน

เราขอแนะนําให้ใช้ขีดจํากัดนี้เฉพาะในกรณีที่ระบบต้นทางของคุณไม่สามารถจัดการจํานวนคําขอพร้อมกันเริ่มต้นได้

สกรีนช็อตของการตั้งค่าการควบคุมการเกิดพร้อมกันของกระแสข้อมูล

ฉันต้องการใช้การรีเฟรชแบบเพิ่มหน่วย แต่ฉันเห็นว่าหลังจากการเปิดใช้งานกระแสข้อมูลใช้เวลารีเฟรชนานขึ้น ฉันควรทำอย่างไร

การรีเฟรชแบบเพิ่มหน่วยควรทําให้กระแสข้อมูลของคุณเร็วขึ้นโดยการประมวลผลข้อมูลน้อยลง แต่บางครั้งสิ่งที่ตรงกันข้ามก็เกิดขึ้น ซึ่งมักจะหมายความว่าค่าใช้จ่ายในการจัดการบัคเก็ตและการตรวจสอบการเปลี่ยนแปลงจะใช้เวลานานกว่าที่คุณประหยัดได้ด้วยการประมวลผลข้อมูลน้อยลง

นี่คือสิ่งที่คุณสามารถลองได้:

ปรับการตั้งค่าของคุณ: เพิ่มขนาดที่เก็บข้อมูลเพื่อลดจํานวนที่เก็บข้อมูล ที่เก็บข้อมูลน้อยลงหมายถึงการจัดการที่น้อยลง

ลองรีเฟรชแบบเต็ม: หากการปรับการตั้งค่าไม่ได้ผล ให้ลองปิดใช้งานการรีเฟรชแบบเพิ่มหน่วย การรีเฟรชแบบเต็มอาจมีประสิทธิภาพมากกว่าสําหรับสถานการณ์เฉพาะของคุณ

ขั้นตอนถัดไป