แชร์ผ่าน


รวมกันดีกว่า: ที่เลคเฮ้าส์และคลังสินค้า

นําไปใช้กับ:✅ จุดสิ้นสุดการวิเคราะห์ SQL และ Warehouse ใน Microsoft Fabric

บทความนี้อธิบายปริมาณงานคลังข้อมูลด้วย จุด สิ้นสุดการวิเคราะห์ SQL ของเลคเฮ้าส์ และสถานการณ์สําหรับการใช้เลคเฮ้าส์ในคลังข้อมูล สําหรับคู่มือการตัดสินใจในการเลือกที่จะพัฒนาข้อมูลคลังสินค้า โปรดดู คู่มือการตัดสินใจของ Microsoft Fabric: เลือกระหว่าง Warehouse และ Lakehouse

จุดสิ้นสุดการวิเคราะห์ของ Lakehouse SQL คืออะไร

จุดสิ้นสุดการวิเคราะห์ SQL ช่วยให้คุณสามารถคิวรีข้อมูลในเลคเฮ้าส์โดยใช้ภาษา T-SQL และโปรโตคอล TDS ได้

  • จุดสิ้นสุดการวิเคราะห์ SQL แสดงตาราง Delta จากเลคเฮ้าส์เป็นตาราง SQL ที่สามารถคิวรีได้โดยใช้ภาษา T-SQL
  • ทุกตารางเดลต้าจากเลคเฮาส์จะแสดงเป็นตารางเดียว ข้อมูลควรอยู่ในรูปแบบ delta
  • ทุกๆ เลคเฮ้าส์มีจุดสิ้นสุดการวิเคราะห์ SQL หนึ่งจุด และพื้นที่ทํางานแต่ละแห่งสามารถมีเลคเฮ้าส์ได้มากกว่าหนึ่งแห่ง จํานวนจุดสิ้นสุดการวิเคราะห์ SQL ในพื้นที่ทํางานตรงกับจํานวนของหน่วยข้อมูลของเลคเฮ้าส์

ไม่จําเป็นต้องสร้างจุดสิ้นสุดการวิเคราะห์ SQL ใน Microsoft Fabric จุดสิ้นสุดการวิเคราะห์ SQL จะถูกสร้างขึ้นโดยอัตโนมัติสําหรับทุก lakehouse ฐานข้อมูล หรือฐานข้อมูลแบบมิเรอร์ ตําแหน่งข้อมูลการวิเคราะห์ SQL ทําหน้าที่เป็นความสามารถในการจัดเก็บข้อมูลที่มีน้ําหนักเบาสําหรับรายการหลัก ซึ่งช่วยเสริมสถาปัตยกรรมเลคเฮาส์ของคลังสินค้า ซึ่งช่วยให้ Spark หรือ Fabric mirroring เพื่อควบคุมข้อมูลในโครงสร้างโฟลเดอร์ใน lakehouse ที่จุดสิ้นสุดการวิเคราะห์ SQL สามารถดูได้

หมายเหตุ

ในเบื้องหลัง จุดสิ้นสุดการวิเคราะห์ SQL กําลังใช้เครื่องมือ เดียวกับ Warehouse เพื่อให้บริการคิวรี SQL เวลาแฝงต่ําที่มีประสิทธิภาพสูง

การค้นพบเมตาดาต้าอัตโนมัติ

กระบวนการที่ราบรื่นอ่านบันทึกส่วนที่แตกต่างและจากโฟลเดอร์ไฟล์และตรวจสอบให้แน่ใจว่าเมตาดาต้า SQL สําหรับตารางเช่นสถิติเป็นข้อมูลล่าสุดเสมอ ไม่จําเป็นต้องมีการดําเนินการของผู้ใช้ และไม่จําเป็นต้องนําเข้า คัดลอกข้อมูล หรือตั้งค่าโครงสร้างพื้นฐาน สําหรับข้อมูลเพิ่มเติม ดู Schema ที่สร้างขึ้นโดยอัตโนมัติในจุดสิ้นสุดการวิเคราะห์ SQL

สถานการณ์ที่เลคเฮ้าส์เปิดใช้งานสําหรับคลังข้อมูล

ในผ้า, เราขอนําเสนอหนึ่งคลังสินค้าของ

Lakehouse ที่มีจุดสิ้นสุดการวิเคราะห์ SQL ซึ่งขับเคลื่อนโดย Warehouse สามารถลดความซับซ้อนของต้นไม้แห่งการตัดสินใจแบบดั้งเดิมของชุดงาน การสตรีม หรือรูปแบบสถาปัตยกรรมแลมบ์ดา โรงเก็บของทะเลสาบช่วยให้สถานการณ์การวิเคราะห์แบบเพิ่มได้หลายสถานการณ์รวมกัน ส่วนนี้สํารวจวิธีการใช้เลคเฮ้าส์ร่วมกับ Warehouse สําหรับกลยุทธ์การวิเคราะห์สายพันธุ์ที่ดีที่สุด

การวิเคราะห์ด้วยเลเยอร์ทองคําของ Fabric Lakehouse ของคุณ

หนึ่งในกลยุทธ์ที่รู้จักกันดีสําหรับองค์กรข้อมูลทะเลสาบคือ สถาปัตยกรรม เหรียญรางวัลที่มีการจัดการไฟล์ในดิบ (ทองแดง) รวม (เงิน) และชั้นที่กลั่น (ทอง) จุดสิ้นสุดการวิเคราะห์ SQL สามารถใช้ในการวิเคราะห์ข้อมูลในสถาปัตยกรรมเหรียญทองของชั้นทองถ้าไฟล์ถูกจัดเก็บในรูปแบบ Delta Lake แม้ว่าไฟล์เหล่านั้นจะถูกจัดเก็บไว้ภายนอก Microsoft Fabric OneLake ก็ตาม

คุณสามารถใช้ ทางลัด OneLake เพื่ออ้างอิงโฟลเดอร์ทองคําในบัญชีที่เก็บข้อมูล Azure Data Lake ภายนอกที่จัดการโดยกลไก Synapse Spark หรือ Azure Databricks ได้

คลังสินค้ายังสามารถเพิ่มเป็นขอบเขตเนื้อหาหรือโซลูชันที่เกี่ยวข้องกับโดเมนสําหรับเรื่องเฉพาะที่สามารถกําหนดความต้องการในการวิเคราะห์

ถ้าคุณเลือกที่จะเก็บข้อมูลของคุณใน Fabric จะ เปิด และสามารถเข้าถึงได้ผ่าน API, รูปแบบ Delta และ T-SQL แน่นอน

คิวรีเป็นบริการผ่านตารางเดลต้าของคุณจากเลคเฮาส์และรายการอื่น ๆ จาก OneLake

มีกรณีการใช้งานที่นักวิเคราะห์ นักวิทยาศาสตร์ข้อมูล หรือวิศวกรข้อมูลอาจจําเป็นต้องคิวรีข้อมูลภายใน data lake ใน Fabric ประสบการณ์การใช้งานนี้จะเป็นแบบ SaaSified อย่างสมบูรณ์

OneLake คือที่จัดเก็บข้อมูลทะเลสาบเชิงตรรกะแบบครบวงจรสําหรับทั้งองค์กร OneLake คือ OneDrive สําหรับข้อมูล OneLake สามารถประกอบด้วยพื้นที่ทํางานได้หลายรายการ ตัวอย่างเช่น ตามส่วนขององค์กรของคุณ ทุกรายการใน Fabric ทําให้สามารถเข้าถึงข้อมูลผ่านทาง OneLake

ข้อมูลใน Microsoft Fabric Lakehouse จะถูกเก็บไว้จริงใน OneLake ที่มีโครงสร้างโฟลเดอร์ต่อไปนี้:

  • โฟลเดอร์ /Files ประกอบด้วยไฟล์ดิบ (ทองแดง) ที่ไม่ได้รับการจัดการซึ่งควรได้รับการประมวลผลโดยวิศวกรข้อมูลก่อนที่จะทําการวิเคราะห์ ไฟล์อาจอยู่ในรูปแบบต่าง ๆ เช่น CSV, Parquet, รูปภาพชนิดต่าง ๆ ฯลฯ
  • โฟลเดอร์ /Tables ประกอบด้วยข้อมูลที่กลั่นและรวม (ทอง) ที่พร้อมสําหรับการวิเคราะห์ทางธุรกิจ ข้อมูลรวมอยู่ในรูปแบบ Delta Lake

จุดสิ้นสุดการวิเคราะห์ SQL สามารถอ่านข้อมูลใน /tables โฟลเดอร์ภายใน OneLake ได้ การวิเคราะห์ทําได้ง่ายเหมือนกับการคิวรีจุดสิ้นสุดการวิเคราะห์ SQL ของเลคเฮ้าส์ นอกจากนี้ คุณยังจะได้รับคิวรีข้ามฐานข้อมูลและความสามารถในการสลับอย่างราบรื่นจากคิวรีแบบอ่านอย่างเดียวเพื่อสร้างตรรกะทางธุรกิจเพิ่มเติมที่ด้านบนของข้อมูล OneLake ของคุณด้วย Fabric Data Warehouse

วิศวกรข้อมูลด้วย Spark และการให้บริการด้วย SQL

องค์กรที่ขับเคลื่อนด้วยข้อมูลจําเป็นต้องรักษาระบบ back-end และระบบการวิเคราะห์ให้สามารถซิงค์กับแอปพลิเคชันฝั่งลูกค้าแบบเรียลไทม์ได้ ผลกระทบของการทําธุรกรรมจะต้องสะท้อนให้เห็นถึงกระบวนการแบบ end-to-end แอปพลิเคชันที่เกี่ยวข้อง และระบบการประมวลผลธุรกรรมออนไลน์ (OLTP) ได้อย่างถูกต้อง

ใน Fabric คุณสามารถใช้ Spark Streaming หรือวิศวกรข้อมูลเพื่อดูแลข้อมูลของคุณ คุณสามารถใช้จุดสิ้นสุดการวิเคราะห์ Lakehouse SQL เพื่อตรวจสอบคุณภาพของข้อมูลและกระบวนการ T-SQL ที่มีอยู่ได้ ซึ่งสามารถทําได้ในสถาปัตยกรรมเหรียญหรือในเลเยอร์ของเลคเฮ้าส์ของคุณหลายชั้นให้บริการสีบรอนซ์สีเงินทองหรือการแบ่งระยะการรวบรวมและการปรับปรุงข้อมูล คุณสามารถกําหนดโฟลเดอร์และตารางที่สร้างขึ้นผ่าน Spark เพื่อตอบสนองความต้องการด้านวิศวกรรมข้อมูลและธุรกิจของคุณได้ เมื่อพร้อมแล้ว คลังสามารถให้บริการแอปพลิเคชันข่าวกรองธุรกิจปลายทางทั้งหมดของคุณและกรณีการใช้งานการวิเคราะห์อื่น ๆ โดยไม่ต้องคัดลอกข้อมูล โดยใช้มุมมองหรือปรับแต่งข้อมูลโดยใช้ CREATE TABLE AS SELECT (CTAS) ขั้นตอนการจัดเก็บ และคําสั่ง DML / DDL อื่น ๆ

การรวมกับเลเยอร์ทองคํา Open Lakehouse ของคุณ

จุดสิ้นสุดการวิเคราะห์ SQL ไม่ได้กําหนดขอบเขตในการวิเคราะห์ข้อมูลเพียง Fabric Lakehouse เท่านั้น จุดสิ้นสุดการวิเคราะห์ SQL ช่วยให้คุณสามารถวิเคราะห์ข้อมูลทะเลสาบในเลคเฮ้าส์ใดก็ได้โดยใช้ Synapse Spark, Azure Databricks หรือกลไกวิศวกรรมข้อมูลอื่น ๆ ที่ทะเลสาบเป็นศูนย์กลาง ข้อมูลสามารถจัดเก็บไว้ใน Azure Data Lake Storage หรือ Amazon S3 ได้

การรวมแบบสองทิศทางที่แน่นหนากับ Fabric Lakehouse นี้สามารถเข้าถึงได้เสมอผ่านเครื่องมือใดๆ ก็ตามที่มี API แบบเปิด รูปแบบ Delta และ T-SQL

การจําลองเสมือนข้อมูลของ data lake ภายนอกด้วยทางลัด

คุณสามารถใช้ทางลัด OneLake เพื่ออ้างอิงโฟลเดอร์ทองคําในบัญชีที่เก็บข้อมูล Azure Data Lake ภายนอกที่จัดการโดยกลไก Synapse Spark หรือ Azure Databricks รวมถึงตาราง delta ใดๆ ที่จัดเก็บไว้ใน Amazon S3 ได้

โฟลเดอร์ใด ๆ ที่อ้างอิงโดยใช้ทางลัดสามารถวิเคราะห์ได้จากจุดสิ้นสุดการวิเคราะห์ SQL และตาราง SQL จะถูกสร้างขึ้นสําหรับข้อมูลที่อ้างอิง ตาราง SQL สามารถใช้เพื่อแสดงข้อมูลในที่จัดเก็บข้อมูลเลคที่มีการจัดการภายนอกและเปิดใช้งานการวิเคราะห์บนตารางเหล่านั้นได้

ทางลัดนี้ทําหน้าที่เป็นคลังสินค้าเสมือนที่สามารถใช้ประโยชน์จากคลังสินค้าสําหรับข้อกําหนดการวิเคราะห์แบบปลายทางเพิ่มเติมหรือคิวรีโดยตรง

ใช้ขั้นตอนต่อไปนี้ในการวิเคราะห์ข้อมูลในบัญชีพื้นที่จัดเก็บข้อมูล lake ภายนอก:

  1. สร้างทางลัดที่อ้างอิงโฟลเดอร์ใน ที่เก็บข้อมูล Azure Data Lake หรือ บัญชี Amazon S3 เมื่อคุณใส่รายละเอียดการเชื่อมต่อและข้อมูลประจําตัว ทางลัดจะแสดงในเลคเฮ้าส์
  2. สลับไปยังจุดสิ้นสุดการวิเคราะห์ SQL ของ Lakehouse และค้นหาตาราง SQL ที่มีชื่อที่ตรงกับชื่อทางลัด ตาราง SQL นี้อ้างอิงโฟลเดอร์ในโฟลเดอร์ ADLS/S3
  3. คิวรีตาราง SQL ที่อ้างอิงข้อมูลใน ADLS/S3 ตารางสามารถใช้เป็นตารางอื่น ๆ ในจุดสิ้นสุดการวิเคราะห์ SQL ได้ คุณสามารถรวมตารางที่อ้างอิงข้อมูลในบัญชีที่เก็บข้อมูลที่ต่างกัน

หมายเหตุ

ถ้าตาราง SQL ไม่แสดงในตําแหน่งข้อมูลการวิเคราะห์ SQL โดยทันที คุณอาจต้องรอสักครู่ ตาราง SQL ที่อ้างอิงข้อมูลในบัญชีที่เก็บข้อมูลภายนอกจะถูกสร้างขึ้นด้วยความล่าช้า

วิเคราะห์ข้อมูลที่เก็บถาวรหรือข้อมูลในอดีตใน data lake

การแบ่งพาร์ติชันข้อมูลเป็นเทคนิคการเพิ่มประสิทธิภาพการเข้าถึงข้อมูลใน data lake ที่รู้จักกันดี ชุดข้อมูลที่มีการแบ่งพาร์ติชันจะถูกจัดเก็บไว้ในโครงสร้างโฟลเดอร์ลําดับชั้นในรูปแบบ /year=<year>/month=<month>/day=<day>โดยที่ year, month, และ day เป็นคอลัมน์การแบ่งพาร์ติชัน สิ่งนี้ช่วยให้คุณสามารถจัดเก็บข้อมูลในอดีตที่แยกจากกันอย่างมีตรรกะในรูปแบบที่ช่วยให้กลไกการคํานวณสามารถอ่านข้อมูลได้ตามต้องการด้วยการกรองที่มีประสิทธิภาพเมื่อเทียบกับการอ่านไดเรกทอรีทั้งหมดและโฟลเดอร์และไฟล์ทั้งหมดที่มีอยู่ภายใน

ข้อมูลแบ่งพาร์ติชันช่วยให้สามารถเข้าถึงได้รวดเร็วยิ่งขึ้นหากคิวรีกําลังกรองเพรดิเคตที่เปรียบเทียบคอลัมน์เพรดิเคตด้วยค่า

จุดสิ้นสุดการวิเคราะห์ SQL สามารถอ่านข้อมูลประเภทนี้ได้อย่างง่ายดายโดยไม่จําเป็นต้องมีการกําหนดค่า ตัวอย่างเช่น คุณสามารถใช้แอปพลิเคชันใด ๆ เพื่อเก็บข้อมูลลงใน data lake รวมถึง SQL Server 2022 หรืออินสแตนซ์ที่จัดการแล้วของ Azure SQL หลังจากที่คุณแบ่งพาร์ติชันข้อมูลและเก็บไว้ในที่จัดเก็บข้อมูลดิบเพื่อวัตถุประสงค์ในการเก็บถาวรกับตารางภายนอกแล้ว จุดสิ้นสุดการวิเคราะห์ SQL สามารถอ่านตาราง Delta Lake ที่มีการแบ่งพาร์ติชันเป็นตาราง SQL และอนุญาตให้องค์กรของคุณวิเคราะห์ได้ ซึ่งจะช่วยลดต้นทุนโดยรวมของความเป็นเจ้าของ ลดการทําซ้ําข้อมูล และทําให้ข้อมูลขนาดใหญ่ AI, สถานการณ์การวิเคราะห์อื่น ๆ สว่างขึ้น

การจําลองภาพข้อมูลเสมือนของข้อมูล Fabric ด้วยทางลัด

ภายใน Fabric พื้นที่ทํางานช่วยให้คุณสามารถแยกข้อมูลตามข้อกําหนดทางธุรกิจ ภูมิศาสตร์ หรือระเบียบข้อบังคับที่ซับซ้อนได้

จุดสิ้นสุดการวิเคราะห์ SQL ช่วยให้คุณสามารถปล่อยข้อมูลไว้ในตําแหน่งเดิมและยังคงวิเคราะห์ข้อมูลใน Warehouse หรือ Lakehouse ได้แม้กระทั่งในพื้นที่ทํางาน Microsoft Fabric อื่น ๆ ผ่านการจําลองเสมือนที่ราบรื่น Microsoft Fabric Lakehouse ทุกเครื่องจัดเก็บข้อมูลใน OneLake

ทางลัดช่วยให้คุณสามารถอ้างอิงโฟลเดอร์ในตําแหน่ง OneLake ใด ๆ ได้

Microsoft Fabric Warehouse ทั้งหมดจัดเก็บข้อมูลตารางใน OneLake ถ้าตารางเป็นแบบผนวกเท่านั้น ข้อมูลตารางจะแสดงเป็นข้อมูล Delta Lake ใน OneLake ทางลัดช่วยให้คุณสามารถอ้างอิงโฟลเดอร์ใน OneLake ใดก็ตามที่แสดงตาราง Warehouse

การแชร์และการทําคิวรีข้ามพื้นที่ทํางาน

ในขณะที่พื้นที่ทํางานช่วยให้คุณสามารถแยกข้อมูลตามข้อกําหนดทางธุรกิจ ทางภูมิศาสตร์ หรือระเบียบข้อบังคับที่ซับซ้อน บางครั้งคุณจําเป็นต้องอํานวยความสะดวกในการแชร์ข้ามบรรทัดเหล่านี้สําหรับความต้องการในการวิเคราะห์ที่เฉพาะเจาะจง

จุดสิ้นสุดการวิเคราะห์ Lakehouse SQL สามารถช่วยให้สามารถแชร์ข้อมูลระหว่างแผนกและผู้ใช้ได้อย่างง่ายดาย ซึ่งผู้ใช้สามารถนําความจุและคลังข้อมูลของตนเองมาใช้ได้ พื้นที่ทํางานจัดระเบียบแผนก หน่วยธุรกิจ หรือโดเมนการวิเคราะห์ การใช้ปุ่มลัด ผู้ใช้สามารถค้นหา Warehouse หรือข้อมูลของ Lakehouse ได้ ผู้ใช้สามารถดําเนินการวิเคราะห์แบบกําหนดเองของตนเองจากข้อมูลเดียวกันที่แชร์ได้ทันที นอกเหนือจากการช่วยในการปฏิเสธการชําระเงินจากแผนกและการจัดสรรการใช้งานแล้ว นี่เป็นเวอร์ชันศูนย์คัดลอกข้อมูลด้วยเช่นกัน

จุดสิ้นสุดการวิเคราะห์ SQL ช่วยให้การคิวรีของตารางใด ๆ และการแชร์ที่ง่าย ตัวควบคุมที่เพิ่มมาของบทบาทพื้นที่ทํางานและบทบาทความปลอดภัยที่สามารถปรับเป็นชั้นเพิ่มเติมเพื่อให้ตรงตามข้อกําหนดทางธุรกิจเพิ่มเติม

ใช้ขั้นตอนต่อไปนี้เพื่อเปิดใช้งานการวิเคราะห์ข้อมูลพื้นที่ทํางานข้าม:

  1. สร้างทางลัด OneLake ที่อ้างอิงตารางหรือโฟลเดอร์ในพื้นที่ทํางานที่คุณสามารถเข้าถึงได้
  2. เลือกเลคเฮ้าส์หรือคลังข้อมูลที่มีตารางหรือโฟลเดอร์ Delta Lake ที่คุณต้องการวิเคราะห์ เมื่อคุณเลือกตาราง/โฟลเดอร์ ทางลัดจะแสดงในเลคเฮ้าส์
  3. สลับไปยังจุดสิ้นสุดการวิเคราะห์ SQL ของ Lakehouse และค้นหาตาราง SQL ที่มีชื่อที่ตรงกับชื่อทางลัด ตาราง SQL นี้อ้างอิงโฟลเดอร์ในพื้นที่ทํางานอื่น
  4. คิวรีตาราง SQL ที่อ้างอิงข้อมูลในพื้นที่ทํางานอื่น ตารางสามารถใช้เป็นตารางอื่น ๆ ในจุดสิ้นสุดการวิเคราะห์ SQL ได้ คุณสามารถรวมตารางที่อ้างอิงข้อมูลในพื้นที่ทํางานที่แตกต่างกัน

สําหรับข้อมูลเพิ่มเติมเกี่ยวกับการรักษาความปลอดภัยในตําแหน่งข้อมูล SQL anlaytics โปรดดู การรักษาความปลอดภัย OneLake สําหรับตําแหน่งข้อมูลการวิเคราะห์ SQL

หมายเหตุ

ถ้าตาราง SQL ไม่แสดงในตําแหน่งข้อมูลการวิเคราะห์ SQL โดยทันที คุณอาจต้องรอสักครู่ ตาราง SQL ที่อ้างอิงข้อมูลในพื้นที่ทํางานอื่นจะถูกสร้างขึ้นด้วยความล่าช้า

วิเคราะห์ข้อมูลที่แบ่งพาร์ติชัน

การแบ่งพาร์ติชันข้อมูลเป็นเทคนิคการเพิ่มประสิทธิภาพการเข้าถึงข้อมูลใน data lake ที่รู้จักกันดี ชุดข้อมูลที่มีการแบ่งพาร์ติชันจะถูกจัดเก็บไว้ในโครงสร้างโฟลเดอร์ลําดับชั้นในรูปแบบ /year=<year>/month=<month>/day=<day>โดยที่ year, month, และ day เป็นคอลัมน์การแบ่งพาร์ติชัน ชุดข้อมูลที่มีการแบ่งพาร์ติชันเปิดใช้งานการเข้าถึงข้อมูลที่เร็วขึ้นถ้าคิวรีกําลังกรองข้อมูลโดยใช้เพรดิเคตที่กรองข้อมูลโดยการเปรียบเทียบคอลัมน์เพรดิเคตกับค่า

จุดสิ้นสุดการวิเคราะห์ SQL สามารถเป็นตัวแทนของชุดข้อมูล Delta Lake ที่แบ่งพาร์ติชันเป็นตาราง SQL และช่วยให้คุณสามารถวิเคราะห์ได้