ทําความเข้าใจพื้นฐานของคลังข้อมูล

เสร็จสมบูรณ์เมื่อ

กระบวนการสร้างคลังข้อมูลที่ทันสมัยโดยทั่วไปประกอบด้วย:

  • การนําเข้าข้อมูล - การย้ายข้อมูลจากระบบต้นทางไปยังคลังข้อมูล
  • ที่เก็บข้อมูล - จัดเก็บข้อมูลในรูปแบบที่ปรับให้เหมาะสมสําหรับการวิเคราะห์
  • การประมวลผลข้อมูล - แปลงข้อมูลเป็นรูปแบบที่พร้อมสําหรับการใช้งานโดยเครื่องมือวิเคราะห์
  • การวิเคราะห์ข้อมูลและการจัดส่ง - วิเคราะห์ข้อมูลเพื่อรับข้อมูลเชิงลึกและนําเสนอข้อมูลเชิงลึกเหล่านั้นไปยังธุรกิจ

Microsoft Fabric ช่วยให้วิศวกรข้อมูลและนักวิเคราะห์สามารถนําเข้า จัดเก็บ แปลง และแสดงข้อมูลทั้งหมดในเครื่องมือเดียวด้วยทั้งประสบการณ์การใช้งานรหัสต่ําและแบบดั้งเดิม

ทําความเข้าใจเกี่ยวกับประสบการณ์คลังข้อมูลของ Fabric

คลังข้อมูลของ Fabric เป็นคลังข้อมูลเชิงสัมพันธ์ที่สนับสนุนความสามารถ T-SQL ทางธุรกรรมเต็มรูปแบบที่คุณคาดหวังจากคลังข้อมูลองค์กร เป็นคลังข้อมูลที่มีการจัดการปรับขนาดได้และพร้อมใช้งานสูงทั้งหมดที่สามารถใช้ในการจัดเก็บและคิวรีข้อมูลในเลคเฮ้าส์ได้ ด้วยการใช้คลังข้อมูล คุณสามารถควบคุมการสร้างตาราง การโหลด การแปลง และการคิวรีข้อมูลโดยใช้พอร์ทัล Fabric หรือคําสั่ง T-SQL ได้อย่างเต็มที่ คุณสามารถใช้ SQL เพื่อคิวรีและวิเคราะห์ข้อมูล หรือใช้ Spark เพื่อประมวลผลข้อมูลและสร้างแบบจําลองการเรียนรู้ของเครื่องได้

คลังข้อมูลใน Fabric ช่วยอํานวยความสะดวกในการทํางานร่วมกันระหว่างวิศวกรข้อมูลและนักวิเคราะห์ข้อมูล ทํางานร่วมกันในประสบการณ์เดียวกัน วิศวกรข้อมูลสร้างเลเยอร์เชิงสัมพันธ์ที่ด้านบนของข้อมูลในเลคเฮ้าส์ ซึ่งนักวิเคราะห์สามารถใช้ T-SQL และ Power BI เพื่อสํารวจข้อมูลได้

ออกแบบคลังข้อมูล

เช่นเดียวกับฐานข้อมูลเชิงสัมพันธ์ทั้งหมด คลังข้อมูลของ Fabric มีตารางสําหรับจัดเก็บข้อมูลของคุณสําหรับการวิเคราะห์ในภายหลัง โดยทั่วไป ตารางเหล่านี้จะถูกจัดระเบียบใน Schema ที่ปรับให้เหมาะสมสําหรับการสร้างแบบจําลองหลายมิติ ในวิธีนี้ ข้อมูลตัวเลขที่เกี่ยวข้องกับเหตุการณ์ (เช่น คําสั่งขาย) จะถูกจัดกลุ่มตามแอตทริบิวต์ที่แตกต่างกัน (เช่น วัน ลูกค้า ร้านค้า) ตัวอย่างเช่น คุณสามารถวิเคราะห์ยอดเงินทั้งหมดที่ชําระสําหรับใบสั่งขายที่เกิดขึ้นในวันที่ระบุหรือที่ร้านค้าเฉพาะได้

ตารางในคลังข้อมูล

โดยทั่วไปตารางในคลังข้อมูลจะถูกจัดระเบียบในลักษณะที่สนับสนุนการวิเคราะห์ข้อมูลขนาดใหญ่ที่มีประสิทธิภาพและมีประสิทธิภาพ องค์กรนี้มักจะเรียกว่าการสร้างแบบจําลองมิติ ซึ่งเกี่ยวข้องกับการจัดโครงสร้างตารางลงในตารางข้อเท็จจริงและตารางมิติ

ตารางข้อเท็จจริง ประกอบด้วยข้อมูลตัวเลขที่คุณต้องการวิเคราะห์ โดยทั่วไปแล้วตารางข้อเท็จจริงจะมีแถวจํานวนมากและเป็นแหล่งข้อมูลหลักสําหรับการวิเคราะห์ ตัวอย่างเช่น ตารางข้อเท็จจริงอาจประกอบด้วยจํานวนรวมที่ชําระสําหรับคําสั่งขายที่เกิดขึ้นในวันที่ระบุหรือที่ร้านค้าเฉพาะ

ตารางมิติ ประกอบด้วยข้อมูลเชิงพรรณาเกี่ยวกับข้อมูลในตารางข้อเท็จจริง โดยทั่วไปแล้ว ตารางมิติจะมีจํานวนแถวน้อยและใช้เพื่อให้บริบทสําหรับข้อมูลในตารางข้อเท็จจริง ตัวอย่างเช่น ตารางมิติอาจประกอบด้วยข้อมูลเกี่ยวกับลูกค้าที่ทําใบสั่งขาย

นอกเหนือจากคอลัมน์แอตทริบิวต์ ตารางมิติประกอบด้วยคอลัมน์คีย์ที่ไม่ซ้ํากันที่ระบุแต่ละแถวในตารางที่ไม่ซ้ํากัน อันที่จริงแล้ว เป็นเรื่องปกติที่ตารางมิติจะรวมสองคอลัมน์หลัก:

  • คีย์ตัวแทนเป็นตัวระบุที่ไม่ซ้ํากันสําหรับแต่ละแถวในตารางมิติ ซึ่งมักจะเป็นค่าจํานวนเต็มที่สร้างขึ้นโดยอัตโนมัติโดยระบบการจัดการฐานข้อมูลเมื่อมีการแทรกแถวใหม่ลงในตาราง
  • คีย์สํารองมักจะเป็นคีย์ธรรมชาติหรือธุรกิจที่ระบุอินสแตนซ์เฉพาะของเอนทิตีในระบบแหล่งข้อมูลของธุรกรรม เช่น รหัสผลิตภัณฑ์หรือรหัสลูกค้า

คุณจําเป็นต้องมีทั้งคีย์ตัวแทนและคีย์สํารองในคลังข้อมูลเนื่องจากทําหน้าที่เพื่อวัตถุประสงค์ที่แตกต่างกัน คีย์ตัวแทนเป็นคีย์เฉพาะสําหรับคลังข้อมูล และช่วยในการรักษาความสอดคล้องและความแม่นยําในข้อมูล ในทางกลับกัน คีย์สํารองจะใช้เฉพาะกับระบบต้นทาง และช่วยรักษาความสามารถในการตรวจสอบย้อนกลับระหว่างคลังข้อมูลและระบบต้นทาง

ตารางมิติชนิดพิเศษ

มิติชนิดพิเศษให้บริบทเพิ่มเติมและเปิดใช้งานการวิเคราะห์ข้อมูลที่ครอบคลุมมากขึ้น

มิติเวลา จะให้ข้อมูลเกี่ยวกับช่วงเวลาที่เหตุการณ์เกิดขึ้น ตารางนี้ช่วยให้นักวิเคราะห์ข้อมูลสามารถรวบรวมข้อมูลในช่วงเวลาทางเวลา ตัวอย่างเช่น มิติเวลาอาจรวมถึงคอลัมน์สําหรับปี ไตรมาส เดือน และวันที่มีการวางคําสั่งขาย

มิติที่มีการเปลี่ยนแปลงอย่างช้า ๆ คือตารางมิติที่ติดตามการเปลี่ยนแปลงแอตทริบิวต์มิติเมื่อเวลาผ่านไป เช่น การเปลี่ยนแปลงที่อยู่ของลูกค้าหรือราคาของผลิตภัณฑ์ พวกเขามีความสําคัญในคลังข้อมูลเนื่องจากช่วยให้ผู้ใช้สามารถวิเคราะห์และทําความเข้าใจการเปลี่ยนแปลงข้อมูลเมื่อเวลาผ่านไป มิติที่มีการเปลี่ยนแปลงอย่างช้า ๆ ช่วยให้แน่ใจว่าข้อมูลยังคง up-toวันที่และถูกต้อง ซึ่งจําเป็นสําหรับการตัดสินใจทางธุรกิจที่ดี

การออกแบบ Schema ของคลังข้อมูล

ในฐานข้อมูลทางทรานแซคชันส่วนใหญ่ที่ใช้ในแอปพลิเคชันทางธุรกิจ ข้อมูลจะ ถือเป็นเรื่องปกติ เพื่อลดการทําซ้ํา อย่างไรก็ตาม ในคลังข้อมูล ข้อมูลมิติจะถูก ยกเลิกการนมาตรฐาน เพื่อลดจํานวนการรวมที่จําเป็นในการคิวรีข้อมูล

บ่อยครั้งที่คลังข้อมูลถูกจัดเป็น โครงสร้างแบบดาว ซึ่งตารางข้อเท็จจริงเกี่ยวข้องโดยตรงกับตารางมิติ ดังที่แสดงในตัวอย่างนี้:

แผนภาพการออกแบบแบบจําลองมิติที่มีลักษณะเป็นดาวซึ่งแสดงตาราง FactSales ที่มีมิติห้ามิติซึ่งเป็นรูปดาว

คุณสามารถใช้แอตทริบิวต์ของบางสิ่งเพื่อจัดกลุ่มตัวเลขเข้าด้วยกันในตารางข้อเท็จจริงในระดับที่แตกต่างกัน ตัวอย่างเช่น คุณสามารถค้นหารายได้จากการขายทั้งหมดสําหรับทั้งภูมิภาคหรือสําหรับลูกค้าหนึ่งราย คุณสามารถจัดเก็บข้อมูลสําหรับแต่ละระดับในตารางมิติเดียวกันได้

เคล็ดลับ

ดู Schema รูปดาวคืออะไร สําหรับข้อมูลเพิ่มเติมเกี่ยวกับการออกแบบ Schema รูปดาวสําหรับ Fabric

ถ้ามีหลายระดับหรือข้อมูลบางอย่างถูกแชร์โดยสิ่งต่าง ๆ มันอาจสมเหตุสมผลที่จะใช้ schema ที่เพิ่มการทํานอร์มัลเล็ด แทน ตัวอย่างมีดังนี้:

แผนภาพการออกแบบแบบจําลองมิติที่เพิ่มการทํานอล์วลให้แสดงหลายมิติ

ในกรณีนี้ ตาราง DimProduct ถูกแยกออก (ปกติ) เพื่อสร้างตารางมิติที่แยกต่างหากสําหรับประเภทผลิตภัณฑ์และผู้จัดหาสินค้า

  • แต่ละแถวในตาราง DimProduct ประกอบด้วยค่าที่สําคัญสําหรับแถวที่สอดคล้องกันในตาราง DimCategory และ DimSupplier

มีการเพิ่มตาราง DimGeography ที่มีข้อมูลเกี่ยวกับที่ตั้งของลูกค้าและร้านค้า

  • แต่ละแถวในตาราง DimCustomer และ DimStore ประกอบด้วยค่าคีย์สําหรับแถวที่สอดคล้องกันในตาราง DimGeography