ทําความเข้าใจคลังข้อมูลใน Fabric

เสร็จสมบูรณ์เมื่อ

Lakehouse ของ Fabric คือคอลเลกชันของไฟล์ โฟลเดอร์ ตาราง และทางลัดที่ทําหน้าที่เหมือนฐานข้อมูลผ่าน data lake ซึ่งใช้โดยกลไก Spark และกลไก SQL สําหรับการประมวลผลข้อมูลขนาดใหญ่และมีคุณลักษณะสําหรับธุรกรรม ACID เมื่อใช้ตารางที่มีการจัดรูปแบบ Delta ของโอเพนซอร์ส

ประสบการณ์การใช้งานคลังข้อมูลของ Fabric ช่วยให้คุณสามารถเปลี่ยนจากมุมมองทะเลสาบของเลคเฮ้าส์ (ซึ่งสนับสนุนวิศวกรรมข้อมูลและ Apache Spark) ไปยังประสบการณ์ SQL ที่คลังข้อมูลแบบดั้งเดิมจะให้ Lakehouse ช่วยให้คุณสามารถอ่านตารางและใช้จุดสิ้นสุดการวิเคราะห์ SQL ในขณะที่คลังข้อมูลช่วยให้คุณสามารถจัดการข้อมูลได้

ในประสบการณ์การใช้งานคลังข้อมูล คุณจะจําลองข้อมูลโดยใช้ตารางและมุมมอง เรียกใช้ T-SQL เพื่อคิวรีข้อมูลทั่วทั้งคลังข้อมูลและเลคเฮ้าส์ ใช้ T-SQL เพื่อดําเนินการ DML กับข้อมูลภายในคลังข้อมูล และให้บริการชั้นการรายงานเช่น Power BI

ตอนนี้คุณเข้าใจหลักการทางสถาปัตยกรรมพื้นฐานสําหรับ Schema ของคลังข้อมูลเชิงสัมพันธ์แล้ว เรามาสํารวจวิธีการสร้างคลังข้อมูลกัน

อธิบายคลังข้อมูลใน Fabric

ในประสบการณ์การใช้งานคลังข้อมูลใน Fabric คุณสามารถสร้างเลเยอร์เชิงสัมพันธ์ที่ด้านบนของข้อมูลจริงในเลคเฮ้าส์และเปิดเผยกับเครื่องมือการวิเคราะห์และการรายงานได้ คุณสามารถสร้างคลังข้อมูลของคุณได้โดยตรงใน Fabric จากฮับสร้างหรือภายในพื้นที่ทํางาน หลังจากสร้างคลังสินค้าว่างแล้ว คุณสามารถเพิ่มออบเจ็กต์ลงในนั้นได้

สกรีนช็อตของ Fabric UI ที่มีลูกศรชี้ไปยังฮับการสร้าง

เมื่อสร้างคลังสินค้าของคุณแล้ว คุณสามารถสร้างตารางโดยใช้ T-SQL ได้โดยตรงในอินเทอร์เฟซ Fabric

การนําเข้าข้อมูลลงในคลังข้อมูลของคุณ

มีสองสามวิธีในการนําเข้าข้อมูลลงในคลังข้อมูล Fabric ได้แก่ ไปป์ไลน์กระแสข้อมูลการคิวรีข้ามฐานข้อมูล และคําสั่ง COPY INTO หลังจากการนําเข้า ข้อมูลจะพร้อมใช้งานสําหรับการวิเคราะห์โดยกลุ่มธุรกิจหลายกลุ่ม ซึ่งสามารถใช้คุณลักษณะต่าง ๆ เช่น การคิวรีข้ามฐานข้อมูล และการแชร์เพื่อเข้าถึง

สร้างตาราง

ในการสร้างตารางในคลังข้อมูล คุณสามารถใช้ SQL Server Management Studio (SSMS) หรือไคลเอ็นต์ SQL อื่นเพื่อเชื่อมต่อกับคลังข้อมูลและเรียกใช้คําสั่ง CREATE TABLE ได้ คุณยังสามารถสร้างตารางได้โดยตรงใน Fabric UI

คุณสามารถคัดลอกข้อมูลจากตําแหน่งที่ตั้งภายนอกลงในตารางในคลังข้อมูลโดยใช้ COPY INTO ไวยากรณ์ เช่น:

COPY INTO dbo.Region 
FROM 'https://mystorageaccountxxx.blob.core.windows.net/private/Region.csv' WITH ( 
            FILE_TYPE = 'CSV'
            ,CREDENTIAL = ( 
                IDENTITY = 'Shared Access Signature'
                , SECRET = 'xxx'
                )
            ,FIRSTROW = 2
            )
GO

คิวรี SQL นี้จะโหลดข้อมูลจากไฟล์ CSV ที่จัดเก็บในที่เก็บข้อมูล Azure Blob ลงในตารางที่เรียกว่า "Region" ในคลังข้อมูล Fabric

สกรีนช็อตของตัวแก้ไขคิวรี SQL ที่มีคิวรีเปิดอยู่

ลอกแบบตาราง

คุณสามารถสร้างการลอกแบบตารางที่ไม่มีสําเนาซึ่งมีค่าใช้จ่ายการจัดเก็บน้อยที่สุดในคลังข้อมูล การลอกแบบเหล่านี้เป็นแบบจําลองของตารางที่สร้างขึ้นโดยการคัดลอกเมตาดาต้าในขณะที่ยังคงอ้างอิงไฟล์ข้อมูลเดียวกันใน OneLake ซึ่งหมายความว่าข้อมูลพื้นฐานที่จัดเก็บเป็นไฟล์ parquet ไม่ซ้ํากันซึ่งจะช่วยประหยัดค่าใช้จ่ายในการจัดเก็บข้อมูล

การลอกแบบตาราง มีประโยชน์อย่างยิ่งในหลายสถานการณ์

  • การพัฒนาและการทดสอบ: การลอกแบบช่วยให้นักพัฒนาและผู้ทดสอบสามารถสร้างสําเนาของตารางในสภาพแวดล้อมที่ต่ํากว่า อํานวยความสะดวกในการพัฒนา การดีบัก การทดสอบ และกระบวนการตรวจสอบความถูกต้อง
  • การกู้คืนข้อมูล: ในกรณีที่การเผยแพร่ล้มเหลวหรือข้อมูลเสียหาย การลอกแบบตารางสามารถเก็บสถานะก่อนหน้าของข้อมูลไว้เพื่อให้สามารถกู้คืนข้อมูลได้
  • การรายงานในอดีต: ซึ่งช่วยสร้างรายงานในอดีตที่สะท้อนถึงสถานะของข้อมูลณ จุดเฉพาะในเวลาและรักษาข้อมูลตามหลักเป้าหมายทางธุรกิจที่เฉพาะเจาะจง

คุณสามารถสร้างการลอกแบบตารางโดยใช้ CREATE TABLE AS CLONE OF คําสั่ง T-SQL ได้

เมื่อต้องการเรียนรู้เพิ่มเติมเกี่ยวกับการลอกแบบตาราง ดูบทช่วยสอน: โคลนตารางโดยใช้ T-SQL ใน Microsoft Fabric

ข้อควรพิจารณาของตาราง

หลังจากสร้างตารางในคลังข้อมูลแล้ว สิ่งสําคัญคือต้องพิจารณากระบวนการโหลดข้อมูลลงในตารางเหล่านั้น วิธีการทั่วไปคือการใช้ตารางสเตจจิ้ง ใน Fabric คุณสามารถใช้คําสั่ง T-SQL เพื่อโหลดข้อมูลจากไฟล์ลงในตารางการกําหนดระยะในคลังข้อมูลได้

ตารางการแบ่งระยะเป็นตารางชั่วคราวที่สามารถใช้เพื่อดําเนินการทําความสะอาดข้อมูล การแปลงข้อมูล และการตรวจสอบความถูกต้องของข้อมูลได้ คุณยังสามารถใช้ตารางการกําหนดระยะเพื่อโหลดข้อมูลจากหลายแหล่งข้อมูลลงในตารางปลายทางเดียวได้

โดยทั่วไปแล้ว การโหลดข้อมูลจะดําเนินการเป็นกระบวนการชุดงานเป็นระยะ ๆ ซึ่งจะแทรกและอัปเดตไปยังคลังข้อมูลมีพิกัดให้เกิดขึ้นในช่วงเวลาปกติ (ตัวอย่างเช่น รายวัน รายสัปดาห์ หรือรายเดือน)

โดยทั่วไป คุณควรใช้กระบวนการโหลดคลังข้อมูลที่ดําเนินการงานตามลําดับต่อไปนี้:

  1. นําเข้าข้อมูลใหม่ที่จะโหลดลงในที่จัดเก็บข้อมูลดิบ โดยใช้การทําความสะอาดหรือการแปลงก่อนโหลดตามความจําเป็น
  2. โหลดข้อมูลจากไฟล์ลงในตารางการจัดเตรียมในคลังข้อมูลเชิงสัมพันธ์
  3. โหลดตารางมิติจากข้อมูลมิติในตารางการจัดเตรียม อัปเดตแถวที่มีอยู่หรือแทรกแถวใหม่และสร้างค่าคีย์ตัวแทนตามความจําเป็น
  4. โหลดตารางข้อเท็จจริงจากข้อมูลข้อเท็จจริงในตารางการแสดงข้อมูล โดยค้นหาคีย์ตัวแทนที่เหมาะสมสําหรับมิติที่เกี่ยวข้อง
  5. ดําเนินการปรับให้เหมาะสมหลังการโหลดโดยการอัปเดตดัชนีและสถิติการกระจายตาราง

ถ้าคุณมีตารางในเลคเฮ้าส์ และคุณต้องการคิวรีในคลังสินค้าของคุณ - แต่ไม่ทําการเปลี่ยนแปลง - ด้วยคลังข้อมูล Fabric คุณไม่จําเป็นต้องคัดลอกข้อมูลจากเลคเฮ้าส์ไปยังคลังข้อมูล คุณสามารถคิวรีข้อมูลใน lakehouse ได้โดยตรงจากคลังข้อมูลโดยใช้การคิวรีข้ามฐานข้อมูล

สําคัญ

การทํางานกับตารางในคลังข้อมูล Fabric ในขณะนี้มีข้อจํากัดบางอย่าง ดู ตารางในคลังข้อมูลใน Microsoft Fabric สําหรับข้อมูลเพิ่มเติม