แชร์ผ่าน


คู่มือการตัดสินใจของ Microsoft Fabric: เลือกกลยุทธ์การเคลื่อนย้ายข้อมูล

Microsoft Fabric มีหลายวิธีในการนําข้อมูลมาสู่ Fabric ตามสิ่งที่คุณต้องการ วันนี้ คุณสามารถใช้การมิเรอร์, คัดลอกกิจกรรมในไปป์ไลน์, คัดลอกงาน หรือ Eventstreams แต่ละตัวเลือกมีระดับการควบคุมและความซับซ้อนที่แตกต่างกัน คุณจึงสามารถเลือกสิ่งที่เหมาะกับสถานการณ์ของคุณมากที่สุด

การมิเรอร์ได้รับการออกแบบมาให้เป็นโซลูชันที่เรียบง่ายและฟรีในการมิเรอร์ฐานข้อมูลไปยัง Fabric แต่จะไม่ครอบคลุมทุกสถานการณ์ขั้นสูง กิจกรรมการคัดลอกในไปป์ไลน์ให้คุณลักษณะการนําเข้าข้อมูลที่ปรับแต่งได้อย่างเต็มที่ แต่ต้องการให้คุณสร้างและจัดการไปป์ไลน์ด้วยตัวเอง งานคัดลอกจะเติมเต็มช่องว่างระหว่าง 2 ตัวเลือกนี้ ช่วยให้คุณมีความยืดหยุ่นและการควบคุมได้มากกว่า Mirroring รวมถึงการสนับสนุนแบบเนทีฟสําหรับทั้งการคัดลอกแบบแบทช์และแบบเพิ่มหน่วย

สําหรับการนําเข้าสตรีมแบบเรียลไทม์และสถานการณ์ที่ขับเคลื่อนด้วยเหตุการณ์ ให้ลองใช้ Eventstreams ใน Real-Time Intelligence ช่วยให้คุณแปลงข้อมูลโดยไม่ต้องแปลงโค้ดหรือการแปลง SQL และรองรับการกําหนดเส้นทางตามเนื้อหาไปยังปลายทางหลายแห่ง รวมถึง Eventhouse, Lakehouse และ Activator

สกรีนช็อตของแผนผังการตัดสินใจกลยุทธ์การย้ายข้อมูล เปรียบเทียบการมิเรอร์ สตรีมเหตุการณ์ งานคัดลอก และกิจกรรมการคัดลอก

แนวคิดหลัก

  • การมิเรอร์ ช่วยให้คุณมีวิธี ที่ง่ายและฟรี ในการสะท้อนข้อมูลการดําเนินงานไปยัง Fabric เพื่อการวิเคราะห์ ได้รับการปรับให้เหมาะสมเพื่อความสะดวกในการใช้งานด้วยการตั้งค่าเพียงเล็กน้อย และเขียนไปยังปลายทางแบบอ่านอย่างเดียวใน OneLake

  • กิจกรรมการคัดลอกในไปป์ไลน์สร้างขึ้นสําหรับผู้ใช้ที่ต้องการเวิร์กโฟลว์การนําเข้าข้อมูลตามไปป์ไลน์ที่ประสานกัน คุณสามารถปรับแต่งได้อย่างกว้างขวางและเพิ่มตรรกะการแปลง แต่คุณต้องกําหนดและจัดการส่วนประกอบไปป์ไลน์ด้วยตัวเอง รวมถึงการติดตามสถานะของการเรียกใช้ครั้งล่าสุดสําหรับสําเนาส่วนเพิ่ม

  • Copy Job ทําให้การนําเข้าข้อมูลง่ายขึ้นด้วย การสนับสนุนแบบเนทีฟสําหรับรูปแบบการส่งที่หลากหลาย รวมถึงการคัดลอกจํานวนมาก การคัดลอกส่วนเพิ่ม และการจําลองแบบการบันทึกข้อมูลการเปลี่ยนแปลง (CDC) และคุณไม่จําเป็นต้องสร้างไปป์ไลน์ ในขณะที่ยังคงให้คุณเข้าถึงตัวเลือกขั้นสูงมากมาย รองรับแหล่งที่มาและปลายทางมากมาย และทํางานได้ดีเมื่อคุณต้องการควบคุมมากกว่าการมิเรอร์ แต่มีความซับซ้อนน้อยกว่าการจัดการไปป์ไลน์ด้วยกิจกรรมการคัดลอก

  • Eventstreams: ออกแบบมาสําหรับการนําเข้า การแปลง และการประมวลผลข้อมูลสตรีมแบบเรียลไทม์ รองรับไปป์ไลน์ที่มีเวลาแฝงต่ํา การจัดการสคีมา และการกําหนดเส้นทางไปยังปลายทาง เช่น รองรับ Eventhouse, Lakehouse, Activator และ Custom Endpoints (ตําแหน่งข้อมูล AMQP, Kafka และ HTTP)

คู่มือการตัดสินใจการเคลื่อนย้ายข้อมูล

เรอร์ คัดลอกงาน กิจกรรมการคัดลอก (ไปป์ไลน์) สตรีมเหตุการณ์
แหล่ง ฐานข้อมูล + การรวมบุคคลที่สามเข้ากับ Open Mirroring แหล่งข้อมูลและรูปแบบที่รองรับทั้งหมด แหล่งข้อมูลและรูปแบบที่รองรับทั้งหมด 25+ แหล่งที่มาและทุกรูปแบบ
จุดหมาย ปลาย ทาง รูปแบบตารางใน Fabric OneLake (อ่านอย่างเดียว) ปลายทางและรูปแบบที่รองรับทั้งหมด ปลายทางและรูปแบบที่รองรับทั้งหมด 4+ จุดหมายปลายทาง
ความยืดหยุ่น การตั้งค่าที่ง่ายด้วยพฤติกรรมคงที่ ใช้งานง่าย + ตัวเลือกขั้นสูง ตัวเลือกขั้นสูงและปรับแต่งได้อย่างเต็มที่ ตัวเลือกที่เรียบง่ายและปรับแต่งได้
สมรรถนะ เรอร์ คัดลอกงาน กิจกรรมการคัดลอก (ไปป์ไลน์) สตรีมเหตุการณ์
การตั้งเวลาแบบกําหนดเอง ใช่ ใช่ ต่อเนื่อง
การจัดการตารางและคอลัมน์ ใช่ ใช่ ใช่ (Schema การจัดการเหตุการณ์และฟิลด์)
ลักษณะการคัดลอก: ผนวก เพิ่ม แทนที่ ใช่ ใช่ ผนวก
ความสามารถในการสังเกตขั้นสูง + การตรวจสอบ ใช่ ใช่
โหมดการทําสําเนา
การจําลองแบบต่อเนื่องตาม CDC ใช่ ใช่ ใช่
การคัดลอกเป็นชุดหรือจํานวนมาก ใช่ ใช่ ใช่ (การจําลองสแนปช็อตเริ่มต้นของ CDC)
การสนับสนุนแบบเนทีฟสําหรับการคัดลอกแบบเพิ่มหน่วย (ตามลายน้ํา) ใช่
คัดลอกโดยใช้แบบสอบถามที่ผู้ใช้กําหนดเอง ใช่ ใช่
กรณีการใช้งาน
การจําลองแบบต่อเนื่องสําหรับการวิเคราะห์และการรายงาน ใช่ ใช่ ใช่
ELT/ETL ที่ขับเคลื่อนด้วยข้อมูลเมตาสําหรับคลังข้อมูล ใช่ ใช่
การรวมข้อมูล ใช่ ใช่ ใช่
การโยกย้ายข้อมูล / การสํารองข้อมูล / การแบ่งปันข้อมูล ใช่ ใช่ ใช่
ไม่มีค่าใช้จ่าย ใช่
ประสิทธิภาพที่คาดการณ์ได้ ใช่ ใช่ ใช่

สถานการณ์

ตรวจสอบสถานการณ์เหล่านี้เพื่อช่วยคุณเลือกกลยุทธ์การเคลื่อนย้ายข้อมูลที่เหมาะกับความต้องการของคุณมากที่สุด

สถานการณ์สมมติที่ 1

เจมส์เป็นผู้จัดการฝ่ายการเงินของบริษัทประกันภัยแห่งหนึ่ง ทีมของเขาใช้ Azure SQL Database เพื่อติดตามข้อมูลนโยบาย การอ้างสิทธิ์ และข้อมูลลูกค้าในหน่วยธุรกิจหลายแห่ง ทีมผู้บริหารต้องการสร้างแดชบอร์ดแบบเรียลไทม์สําหรับการตรวจสอบประสิทธิภาพทางธุรกิจ แต่เจมส์ไม่สามารถอนุญาตให้การสืบค้นการวิเคราะห์ทําให้ระบบปฏิบัติการที่ประมวลผลธุรกรรมหลายพันรายการต่อวันช้าลง

James ต้องการการจําลองข้อมูลอย่างต่อเนื่องโดยไม่มีความซับซ้อนในการตั้งค่าหรือการบํารุงรักษาอย่างต่อเนื่อง เขาไม่ต้องการจัดการการจัดตารางเวลากําหนดค่าการโหลดที่เพิ่มขึ้นหรือกังวลเกี่ยวกับการเลือกตารางเขาต้องการให้ทุกอย่างสะท้อนโดยอัตโนมัติ เนื่องจากนี่เป็นการรายงานของผู้บริหารเท่านั้น การมีข้อมูลในรูปแบบอ่านอย่างเดียวใน OneLake จึงทํางานได้อย่างสมบูรณ์แบบ โซลูชันนี้ยังต้องคุ้มค่าเนื่องจากมาจากงบประมาณแผนกของเขา

เจมส์ดูตัวเลือกและเลือกการสะท้อนภาพ การมิเรอร์ให้การจําลองแบบต่อเนื่องตาม CDC ที่เขาต้องการ โดยจัดการตารางทั้งหมดโดยอัตโนมัติโดยไม่ต้องกําหนดค่าใดๆ การตั้งค่าที่เรียบง่ายหมายความว่าเขาไม่ต้องการความเชี่ยวชาญด้านเทคนิค และค่าใช้จ่ายฟรีก็เหมาะกับงบประมาณของเขา รูปแบบตารางแบบอ่านอย่างเดียวใน OneLake ช่วยให้ทีมของเขาสามารถเข้าถึงการวิเคราะห์แบบเรียลไทม์ที่พวกเขาต้องการโดยไม่ส่งผลกระทบต่อประสิทธิภาพการดําเนินงาน

สถานการณ์สมมติที่ 2

ลิซ่าเป็นนักวิเคราะห์ธุรกิจที่บริษัทโลจิสติกส์ เธอจําเป็นต้องคัดลอกข้อมูลการจัดส่งจากฐานข้อมูล Snowflake หลายฐานข้อมูลไปยังตาราง Fabric Lakehouse สําหรับการวิเคราะห์ห่วงโซ่อุปทาน ข้อมูลประกอบด้วยทั้งบันทึกย้อนหลังสําหรับการโหลดเริ่มต้นและการจัดส่งใหม่ที่มาถึงตลอดทั้งวัน ลิซ่าต้องการเรียกใช้กระบวนการนี้ตามกําหนดเวลาที่กําหนดเอง - ทุกๆ 4 ชั่วโมงในช่วงเวลาทําการ

Lisa จําเป็นต้องเลือกตารางเฉพาะจากอินสแตนซ์ Snowflake แต่ละอินสแตนซ์ แมปคอลัมน์กับชื่อมาตรฐาน และใช้พฤติกรรม upsert เพื่อจัดการการอัปเดตบันทึกการจัดส่งที่มีอยู่ เธอต้องการความสามารถในการจัดการตารางและคอลัมน์เพื่อจัดการกับสคีมาที่แตกต่างกันในภูมิภาคต่างๆ และเธอต้องการการตรวจสอบขั้นสูงเพื่อติดตามคุณภาพข้อมูลและประสิทธิภาพการประมวลผล

Lisa ดูที่ตัวเลือกและเลือก คัดลอกงาน งานคัดลอกให้การจัดกําหนดการแบบกําหนดเองที่เธอต้องการสําหรับข้อกําหนดเวลาทําการของเธอ สนับสนุนแหล่งข้อมูลทั้งหมดรวมถึง Snowflake และเสนอความสามารถในการจัดการตารางและคอลัมน์สําหรับการตั้งค่าหลายภูมิภาคของเธอ อินเทอร์เฟซที่ใช้งานง่ายพร้อมตัวเลือกการกําหนดค่าขั้นสูงช่วยให้เธอจัดการการคัดลอกที่เพิ่มขึ้นด้วยการตรวจจับตามลายน้ําและพฤติกรรมการอัพเซิร์ตโดยไม่ต้องสร้างไปป์ไลน์

สถานการณ์สมมติที่ 3

เดวิดเป็นวิศวกรข้อมูลอาวุโสของบริษัทโทรคมนาคมแห่งหนึ่ง เขากําลังสร้างเวิร์กโฟลว์การนําเข้าข้อมูลที่ซับซ้อนซึ่งจําเป็นต้องดึงข้อมูลการใช้งานของลูกค้าจาก Oracle โดยใช้การสืบค้น SQL แบบกําหนดเอง ใช้การแปลงทางธุรกิจ และโหลดไปยังปลายทางหลายแห่ง รวมถึงทั้ง Fabric Warehouse และระบบภายนอก เวิร์กโฟลว์ยังต้องประสานงานกับกิจกรรมไปป์ไลน์อื่นๆ เช่น การตรวจสอบความถูกต้องของข้อมูลและขั้นตอนการแจ้งเตือน

David ต้องการการควบคุมกระบวนการคัดลอกอย่างเต็มที่ รวมถึงความสามารถในการใช้คิวรีที่ผู้ใช้กําหนดเพื่อรวมตารางและกรองข้อมูลที่ต้นทาง เขาต้องการตัวเลือกการกําหนดค่าขั้นสูงและปรับแต่งได้อย่างเต็มที่ประสิทธิภาพที่คาดการณ์ได้สําหรับปริมาณข้อมูลขนาดใหญ่และความสามารถในการรวมกระบวนการคัดลอกเข้ากับเวิร์กโฟลว์การประสานไปป์ไลน์ที่กว้างขึ้นด้วยการพึ่งพาและการจัดการข้อผิดพลาด

David ตรวจสอบตัวเลือกที่พร้อมใช้งานและเลือกคัดลอกกิจกรรมในไปป์ไลน์ วิธีการนี้ช่วยให้เขามีการกําหนดค่าขั้นสูงและปรับแต่งได้อย่างเต็มที่ที่เขาต้องการรองรับการสืบค้นที่ผู้ใช้กําหนดสําหรับการแยกข้อมูลที่ซับซ้อนและให้การประสานตามไปป์ไลน์ที่จําเป็นสําหรับเวิร์กโฟลว์ของเขา ความสามารถในการตรวจสอบและตรวจสอบขั้นสูงช่วยให้เขาติดตามกระบวนการที่ซับซ้อน ในขณะที่เฟรมเวิร์กไปป์ไลน์ช่วยให้เขาประสานงานกิจกรรมการคัดลอกกับขั้นตอนการประมวลผลข้อมูลอื่นๆ

สถานการณ์สมมติที่ 4

Ash เป็นผู้จัดการผลิตภัณฑ์ของบริษัทโทรคมนาคมแห่งหนึ่ง ทีมของเธอจําเป็นต้องตรวจสอบตัวชี้วัดการสนับสนุนลูกค้า เช่น ปริมาณการโทร เวลารอ และประสิทธิภาพของเจ้าหน้าที่แบบเรียลไทม์ เพื่อให้แน่ใจว่าเป็นไปตาม SLA และปรับปรุงความพึงพอใจของลูกค้า ข้อมูลมาจากระบบปฏิบัติการที่หลากหลาย รวมถึงแพลตฟอร์ม CRM บันทึกคอลเซ็นเตอร์ และฐานข้อมูลการมอบหมายตัวแทน และมาถึงความถี่สูงตลอดทั้งวัน

Ash ใช้ Fabric Eventstreams เพื่อนําเข้าและแปลงข้อมูลนี้ในการเคลื่อนไหว เธอกําหนดค่าตัวเชื่อมต่อการสตรีมเพื่อดึงข้อมูลจากแหล่งต่างๆ ใช้การแปลงโดยใช้ประสบการณ์แบบไม่ใช้โค้ด และกําหนดเส้นทางเหตุการณ์ที่ประมวลผลไปยัง Eventhouse สําหรับการวิเคราะห์แบบเรียลไทม์ เธอผสานรวม Data Activator เพื่อทริกเกอร์การแจ้งเตือนและเวิร์กโฟลว์อัตโนมัติเมื่อมีการละเมิดเกณฑ์ SLA เพื่อให้เธอสามารถส่งการแจ้งเตือนไปยังหัวหน้างานหรือปรับระดับพนักงานแบบไดนามิกได้

ผลลัพธ์ที่ได้คือแดชบอร์ดแบบเรียลไทม์ที่อัปเดตภายในไม่กี่วินาที ทําให้ทีมของ Ash มองเห็นตัวชี้วัดประสิทธิภาพแบบสด และช่วยให้สามารถตัดสินใจได้อย่างรวดเร็วและขับเคลื่อนด้วยข้อมูล สถาปัตยกรรมการสตรีมนี้ช่วยลดเวลาแฝงของไปป์ไลน์แบบแบตช์และช่วยให้ธุรกิจสามารถตอบสนองความต้องการของลูกค้าได้ทันที

Get started

เมื่อคุณมีแนวคิดเกี่ยวกับกลยุทธ์การเคลื่อนย้ายข้อมูลที่จะใช้แล้ว คุณสามารถเริ่มต้นด้วยแหล่งข้อมูลเหล่านี้ได้: