หมายเหตุ
การเข้าถึงหน้านี้ต้องได้รับการอนุญาต คุณสามารถลอง ลงชื่อเข้าใช้หรือเปลี่ยนไดเรกทอรีได้
การเข้าถึงหน้านี้ต้องได้รับการอนุญาต คุณสามารถลองเปลี่ยนไดเรกทอรีได้
บทความนี้แสดงวิธีใช้ฟังก์ชันลิงก์ความหมาย SemPy เพื่อค้นหาและตรวจสอบความสัมพันธ์ในแบบจําลองความหมายของ Power BI และ DataFrames แพนด้า
ในวิทยาศาสตร์ข้อมูลและการเรียนรู้ของเครื่อง การทําความเข้าใจโครงสร้างและความสัมพันธ์ในข้อมูลของคุณเป็นสิ่งสําคัญ Power BI ช่วยให้คุณสามารถสร้างแบบจําลองและแสดงภาพโครงสร้างและความสัมพันธ์เหล่านี้ได้ หากต้องการรับข้อมูลเชิงลึกเพิ่มเติมหรือสร้างโมเดลแมชชีนเลิร์นนิ่ง ให้ใช้ฟังก์ชันลิงก์เชิงความหมายในโมดูลไลบรารี SemPy
นักวิทยาศาสตร์ข้อมูลและนักวิเคราะห์ธุรกิจใช้ฟังก์ชัน SemPy เพื่อแสดงรายการ แสดงภาพ และตรวจสอบความสัมพันธ์ในแบบจําลองความหมายของ Power BI หรือค้นหาและตรวจสอบความสัมพันธ์ใน DataFrames ของแพนด้า
ข้อกำหนดเบื้องต้น
รับการสมัครใช้งาน Microsoft Fabric หรือลงทะเบียนเพื่อทดลองใช้งาน Microsoft Fabric ฟรี
ลงชื่อเข้าใช้ Microsoft Fabric
สลับไปยัง Fabric โดยใช้ตัวสลับประสบการณ์ที่ด้านซ้ายล่างของโฮมเพจของคุณ
สร้าง สมุดบันทึกใหม่ เพื่อคัดลอกและวางโค้ดลงในเซลล์
สําหรับ Spark 3.4 ขึ้นไป ลิงก์เชิงความหมายจะพร้อมใช้งานในรันไทม์เริ่มต้นเมื่อคุณใช้ Fabric ดังนั้นคุณจึงไม่จําเป็นต้องติดตั้ง สําหรับ Spark 3.3 หรือด้านล่าง หรือเมื่อต้องการอัปเดตเป็นลิงก์เชิงความหมายเวอร์ชันล่าสุด ให้เรียกใช้คําสั่งต่อไปนี้:
%pip install -U semantic-link
แสดงรายการความสัมพันธ์ในแบบจําลองความหมาย
ฟังก์ชัน list_relationships ใน sempy.fabric โมดูลจะแสดงรายการของความสัมพันธ์ทั้งหมดที่พบในแบบจําลองความหมายของ Power BI รายการช่วยให้คุณเข้าใจโครงสร้างของข้อมูลของคุณและวิธีการเชื่อมต่อตารางและคอลัมน์ที่แตกต่างกัน
ฟังก์ชันนี้ทํางานโดยใช้ลิงก์เชิงความหมายเพื่อให้มีคําอธิบายประกอบ DataFrames DataFrames มีเมตาดาต้าที่จําเป็นเพื่อทําความเข้าใจความสัมพันธ์ภายในแบบจําลองความหมาย DataFrame ที่มีคําอธิบายประกอบทําให้ง่ายต่อการวิเคราะห์โครงสร้างของแบบจําลองเชิงความหมายและใช้ในรูปแบบการเรียนรู้ของเครื่องหรืองานการวิเคราะห์ข้อมูลอื่น ๆ
เมื่อต้องการใช้ list_relationships ฟังก์ชัน คุณต้องนําเข้า sempy.fabric โมดูล ก่อน จากนั้นคุณเรียกใช้ฟังก์ชันโดยใช้ชื่อหรือ UUID ของแบบจําลองความหมาย Power BI ของคุณ ดังที่แสดงในตัวอย่างต่อไปนี้:
import sempy.fabric as fabric
fabric.list_relationships("my_dataset")
รหัสก่อนหน้านี้เรียกlist_relationshipsฟังก์ชันด้วยแบบจําลองความหมายของ Power BI ที่ชื่อ my_dataset ฟังก์ชันจะส่งคืน DataFrame ของแพนด้าที่มีหนึ่งแถวสําหรับแต่ละความสัมพันธ์ คุณจึงสามารถสํารวจและวิเคราะห์ความสัมพันธ์ในแบบจําลองความหมายได้อย่างรวดเร็ว
หมายเหตุ
สมุดบันทึก แบบจําลองความหมายของชุดข้อมูล Power BI และ เลคเฮ้าส์ ของคุณสามารถอยู่ในพื้นที่ทํางานเดียวกันหรือในพื้นที่ทํางานที่แตกต่างกันได้ ตามค่าเริ่มต้น SemPy พยายามเข้าถึงแบบจําลองความหมายของคุณจาก:
- พื้นที่ทํางานของเลคเฮ้าส์หากคุณแนบเลคเฮาส์เข้ากับโน้ตบุ๊คของคุณ
- พื้นที่ทํางานของสมุดบันทึกของคุณ ถ้าไม่มีเลคเฮาส์ติดอยู่
หากแบบจําลองความหมายของคุณไม่อยู่ในพื้นที่ทํางานเหล่านี้ คุณต้องระบุพื้นที่ทํางานของแบบจําลองความหมายของคุณเมื่อคุณเรียกใช้เมธอด SemPy
แสดงภาพความสัมพันธ์ในแบบจําลองความหมาย
ใช้ฟังก์ชันนี้ plot_relationship_metadata เพื่อแสดงภาพความสัมพันธ์ในแบบจําลองความหมายและเรียนรู้วิธีโครงสร้างของแบบจําลอง ฟังก์ชันนี้สร้างกราฟที่แสดงการเชื่อมต่อระหว่างตารางและคอลัมน์ ทําให้ง่ายต่อการดูว่าองค์ประกอบต่างๆ เกี่ยวข้องกันอย่างไร
นี่คือตัวอย่างวิธีใช้ฟังก์ชันนี้ plot_relationship_metadata :
import sempy.fabric as fabric
from sempy.relationships import plot_relationship_metadata
relationships = fabric.list_relationships("my_dataset")
plot_relationship_metadata(relationships)
ในตัวอย่าง list_relationships ฟังก์ชันจะได้รับความสัมพันธ์ในแบบจําลองความหมาย my_dataset และฟังก์ชันจะ plot_relationship_metadata สร้างกราฟเพื่อแสดงความสัมพันธ์เหล่านั้น
ปรับแต่งกราฟโดยเลือกคอลัมน์ที่จะรวม ตั้งค่าวิธีจัดการคีย์ที่ขาดหายไป และเพิ่มแอตทริบิวต์ graphviz เพิ่มเติม
ตรวจสอบความถูกต้องของความสัมพันธ์ในแบบจําลองความหมาย
ใช้ฟังก์ชันเพื่อ list_relationship_violations ตรวจสอบความสัมพันธ์ในแบบจําลองความหมายของคุณและค้นหาปัญหาหรือความไม่สอดคล้องกัน ฟังก์ชันจะ list_relationship_violations ตรวจสอบตารางของคุณเพื่อให้แน่ใจว่าตรงกับความสัมพันธ์ในแบบจําลองความหมายของคุณ
ฟังก์ชันนี้ช่วยให้คุณค้นหาความไม่สอดคล้องกันกับความหลากหลายของความสัมพันธ์และแก้ไขปัญหาก่อนที่จะส่งผลกระทบต่อการวิเคราะห์ข้อมูลหรือโมเดลการเรียนรู้ของเครื่อง
หากต้องการใช้ list_relationship_violations ฟังก์ชัน ให้นําเข้า sempy.fabric โมดูลและอ่านตารางจากแบบจําลองความหมายของคุณ
จากนั้น เรียกฟังก์ชันด้วยพจนานุกรมที่แมปชื่อตารางกับ DataFrames ที่มีเนื้อหาตาราง
รหัสตัวอย่างต่อไปนี้แสดงวิธีการแสดงรายการการละเมิดความสัมพันธ์:
import sempy.fabric as fabric
tables = {
"Sales": fabric.read_table("my_dataset", "Sales"),
"Products": fabric.read_table("my_dataset", "Products"),
"Customers": fabric.read_table("my_dataset", "Customers"),
}
fabric.list_relationship_violations(tables)
รหัสก่อนหน้านี้เรียกlist_relationship_violationsฟังก์ชันด้วยพจนานุกรมที่มีตารางยอดขายผลิตภัณฑ์ และลูกค้าจากแบบจําลองความหมาย my_dataset คุณสามารถปรับแต่งฟังก์ชันได้โดยการตั้งค่าเกณฑ์ความครอบคลุม เลือกวิธีจัดการกับคีย์ที่ขาดหายไป และตั้งค่าจํานวนคีย์ที่ขาดหายไปเพื่อรายงาน
ฟังก์ชันจะส่งคืน DataFrame แพนด้าที่มีหนึ่งแถวสําหรับการละเมิดความสัมพันธ์แต่ละครั้ง คุณจึงสามารถค้นหาและแก้ไขปัญหาในแบบจําลองความหมายได้อย่างรวดเร็ว
ใช้ฟังก์ชันนี้ list_relationship_violations เพื่อให้โมเดลความหมายของคุณสอดคล้องกันและแม่นยํา คุณจึงสร้างโมเดลแมชชีนเลิร์นนิงที่เชื่อถือได้มากขึ้นและรับข้อมูลเชิงลึกที่ดีขึ้นจากข้อมูลของคุณ
ค้นหาความสัมพันธ์ใน DataFrames ของ pandas
ฟังก์ชัน list_relationships, plot_relationships_df, และ list_relationship_violations ในโมดูล Fabric เป็นเครื่องมือที่มีประสิทธิภาพสําหรับการสํารวจความสัมพันธ์ในแบบจําลองความหมาย บางครั้ง คุณจําเป็นต้องค้นหาความสัมพันธ์ในแหล่งข้อมูลอื่นๆ เช่น แพนด้า DataFrames
ใช้ฟังก์ชันในfind_relationshipssempy.relationshipโมดูลเพื่อค้นหาความสัมพันธ์ใน DataFrames ของแพนด้า
ฟังก์ชันในfind_relationshipssempy.relationshipsโมดูลช่วยให้นักวิทยาศาสตร์ข้อมูลและนักวิเคราะห์ธุรกิจค้นหาความสัมพันธ์ที่เป็นไปได้ในรายการ DataFrames ของแพนด้า ฟังก์ชันนี้ช่วยให้คุณมองเห็นการเชื่อมต่อระหว่างตารางและคอลัมน์ คุณจึงเรียนรู้เพิ่มเติมเกี่ยวกับข้อมูลของคุณและองค์ประกอบที่เกี่ยวข้องอย่างไร
วิธีค้นหาความสัมพันธ์ใน DataFrames ของแพนด้ามีดังนี้
from sempy.relationships import find_relationships
tables = [df_sales, df_products, df_customers]
find_relationships(tables)
โค้ดก่อนหน้านี้เรียก find_relationships ฟังก์ชันด้วยรายการ DataFrames ของแพนด้าสามรายการ: df_sales, df_products, และ df_customers.
ฟังก์ชันนี้ส่งคืน DataFrame ของแพนด้าที่มีหนึ่งแถวสําหรับแต่ละความสัมพันธ์ที่เป็นไปได้ คุณจึงสามารถสํารวจและวิเคราะห์ความสัมพันธ์ในข้อมูลของคุณได้
กําหนดฟังก์ชันเองโดยการตั้งค่าขีดจํากัดความครอบคลุม เกณฑ์ความคล้ายคลึงกันของชื่อ รายการของความสัมพันธ์ที่จะแยกออก และจะรวมความสัมพันธ์แบบกลุ่มต่อกลุ่มหรือไม่
ตรวจสอบความสัมพันธ์ใน DataFrames ของ pandas
หลังจากที่คุณพบความสัมพันธ์ที่เป็นไปได้ใน DataFrames ของแพนด้าโดยใช้ฟังก์ชันแล้ว find_relationships ให้ใช้ฟังก์ชันเพื่อ list_relationship_violations ตรวจสอบความสัมพันธ์เหล่านี้และระบุปัญหาหรือความไม่สอดคล้องกัน
ฟังก์ชันจะ list_relationship_violations ตรวจสอบตารางของคุณเพื่อให้แน่ใจว่าตรงกับความสัมพันธ์ที่ค้นพบ ใช้ฟังก์ชันนี้เพื่อค้นหาความไม่สอดคล้องกันกับความหลากหลายของความสัมพันธ์ที่ระบุ เพื่อให้คุณสามารถแก้ไขปัญหาก่อนที่จะส่งผลกระทบต่อการวิเคราะห์ข้อมูลหรือแบบจําลองการเรียนรู้ของเครื่อง
นี่คือตัวอย่างที่แสดงวิธีค้นหาการละเมิดความสัมพันธ์ใน DataFrames ของแพนด้า
from sempy.relationships import find_relationships, list_relationship_violations
tables = [df_sales, df_products, df_customers]
relationships = find_relationships(tables)
list_relationship_violations(tables, relationships)
ตัวอย่างนี้เรียกใช้ list_relationship_violations ฟังก์ชันที่มี DataFrame ของแพนด้าสามตัว: df_sales, , df_productsและ df_customers, พร้อมกับความสัมพันธ์ DataFrame จาก find_relationships ฟังก์ชัน
ฟังก์ชันนี้ list_relationship_violations ส่งคืน DataFrame ของแพนด้าที่มีแถวเดียวสําหรับการละเมิดความสัมพันธ์แต่ละครั้ง คุณจึงค้นหาและแก้ไขปัญหาในข้อมูลได้อย่างรวดเร็ว
ปรับแต่งฟังก์ชันโดยการตั้งค่าเกณฑ์ความครอบคลุม เลือกวิธีจัดการกับคีย์ที่ขาดหายไป และกําหนดจํานวนคีย์ที่ขาดหายไปที่จะรายงาน
ใช้ฟังก์ชันนี้ list_relationship_violations กับ DataFrames ของแพนด้าเพื่อให้ข้อมูลของคุณสอดคล้องกันและถูกต้อง สิ่งนี้ช่วยให้คุณสร้างโมเดลแมชชีนเลิร์นนิงที่เชื่อถือได้และรับข้อมูลเชิงลึกที่ลึกซึ้งยิ่งขึ้นจากข้อมูลของคุณ