แชร์ผ่าน


สํารวจและตรวจสอบความสัมพันธ์ในแบบจําลองความหมายและกรอบข้อมูล

บทความนี้แสดงวิธีใช้ฟังก์ชันลิงก์ความหมาย SemPy เพื่อค้นหาและตรวจสอบความสัมพันธ์ในแบบจําลองความหมายของ Power BI และ DataFrames แพนด้า

ในวิทยาศาสตร์ข้อมูลและการเรียนรู้ของเครื่อง การทําความเข้าใจโครงสร้างและความสัมพันธ์ในข้อมูลของคุณเป็นสิ่งสําคัญ Power BI ช่วยให้คุณสามารถสร้างแบบจําลองและแสดงภาพโครงสร้างและความสัมพันธ์เหล่านี้ได้ หากต้องการรับข้อมูลเชิงลึกเพิ่มเติมหรือสร้างโมเดลแมชชีนเลิร์นนิ่ง ให้ใช้ฟังก์ชันลิงก์เชิงความหมายในโมดูลไลบรารี SemPy

นักวิทยาศาสตร์ข้อมูลและนักวิเคราะห์ธุรกิจใช้ฟังก์ชัน SemPy เพื่อแสดงรายการ แสดงภาพ และตรวจสอบความสัมพันธ์ในแบบจําลองความหมายของ Power BI หรือค้นหาและตรวจสอบความสัมพันธ์ใน DataFrames ของแพนด้า

ข้อกำหนดเบื้องต้น

  • สร้าง สมุดบันทึกใหม่ เพื่อคัดลอกและวางโค้ดลงในเซลล์

  • สําหรับ Spark 3.4 ขึ้นไป ลิงก์เชิงความหมายจะพร้อมใช้งานในรันไทม์เริ่มต้นเมื่อคุณใช้ Fabric ดังนั้นคุณจึงไม่จําเป็นต้องติดตั้ง สําหรับ Spark 3.3 หรือด้านล่าง หรือเมื่อต้องการอัปเดตเป็นลิงก์เชิงความหมายเวอร์ชันล่าสุด ให้เรียกใช้คําสั่งต่อไปนี้:

    %pip install -U semantic-link
    
  • เพิ่มเลคเฮาส์ลงในสมุดบันทึกของคุณ

แสดงรายการความสัมพันธ์ในแบบจําลองความหมาย

ฟังก์ชัน list_relationships ใน sempy.fabric โมดูลจะแสดงรายการของความสัมพันธ์ทั้งหมดที่พบในแบบจําลองความหมายของ Power BI รายการช่วยให้คุณเข้าใจโครงสร้างของข้อมูลของคุณและวิธีการเชื่อมต่อตารางและคอลัมน์ที่แตกต่างกัน

ฟังก์ชันนี้ทํางานโดยใช้ลิงก์เชิงความหมายเพื่อให้มีคําอธิบายประกอบ DataFrames DataFrames มีเมตาดาต้าที่จําเป็นเพื่อทําความเข้าใจความสัมพันธ์ภายในแบบจําลองความหมาย DataFrame ที่มีคําอธิบายประกอบทําให้ง่ายต่อการวิเคราะห์โครงสร้างของแบบจําลองเชิงความหมายและใช้ในรูปแบบการเรียนรู้ของเครื่องหรืองานการวิเคราะห์ข้อมูลอื่น ๆ

เมื่อต้องการใช้ list_relationships ฟังก์ชัน คุณต้องนําเข้า sempy.fabric โมดูล ก่อน จากนั้นคุณเรียกใช้ฟังก์ชันโดยใช้ชื่อหรือ UUID ของแบบจําลองความหมาย Power BI ของคุณ ดังที่แสดงในตัวอย่างต่อไปนี้:

import sempy.fabric as fabric

fabric.list_relationships("my_dataset")

รหัสก่อนหน้านี้เรียกlist_relationshipsฟังก์ชันด้วยแบบจําลองความหมายของ Power BI ที่ชื่อ my_dataset ฟังก์ชันจะส่งคืน DataFrame ของแพนด้าที่มีหนึ่งแถวสําหรับแต่ละความสัมพันธ์ คุณจึงสามารถสํารวจและวิเคราะห์ความสัมพันธ์ในแบบจําลองความหมายได้อย่างรวดเร็ว

หมายเหตุ

สมุดบันทึก แบบจําลองความหมายของชุดข้อมูล Power BI และ เลคเฮ้าส์ ของคุณสามารถอยู่ในพื้นที่ทํางานเดียวกันหรือในพื้นที่ทํางานที่แตกต่างกันได้ ตามค่าเริ่มต้น SemPy พยายามเข้าถึงแบบจําลองความหมายของคุณจาก:

  • พื้นที่ทํางานของเลคเฮ้าส์หากคุณแนบเลคเฮาส์เข้ากับโน้ตบุ๊คของคุณ
  • พื้นที่ทํางานของสมุดบันทึกของคุณ ถ้าไม่มีเลคเฮาส์ติดอยู่

หากแบบจําลองความหมายของคุณไม่อยู่ในพื้นที่ทํางานเหล่านี้ คุณต้องระบุพื้นที่ทํางานของแบบจําลองความหมายของคุณเมื่อคุณเรียกใช้เมธอด SemPy

แสดงภาพความสัมพันธ์ในแบบจําลองความหมาย

ใช้ฟังก์ชันนี้ plot_relationship_metadata เพื่อแสดงภาพความสัมพันธ์ในแบบจําลองความหมายและเรียนรู้วิธีโครงสร้างของแบบจําลอง ฟังก์ชันนี้สร้างกราฟที่แสดงการเชื่อมต่อระหว่างตารางและคอลัมน์ ทําให้ง่ายต่อการดูว่าองค์ประกอบต่างๆ เกี่ยวข้องกันอย่างไร

นี่คือตัวอย่างวิธีใช้ฟังก์ชันนี้ plot_relationship_metadata :

import sempy.fabric as fabric
from sempy.relationships import plot_relationship_metadata

relationships = fabric.list_relationships("my_dataset")
plot_relationship_metadata(relationships)

ในตัวอย่าง list_relationships ฟังก์ชันจะได้รับความสัมพันธ์ในแบบจําลองความหมาย my_dataset และฟังก์ชันจะ plot_relationship_metadata สร้างกราฟเพื่อแสดงความสัมพันธ์เหล่านั้น

ปรับแต่งกราฟโดยเลือกคอลัมน์ที่จะรวม ตั้งค่าวิธีจัดการคีย์ที่ขาดหายไป และเพิ่มแอตทริบิวต์ graphviz เพิ่มเติม

ตรวจสอบความถูกต้องของความสัมพันธ์ในแบบจําลองความหมาย

ใช้ฟังก์ชันเพื่อ list_relationship_violations ตรวจสอบความสัมพันธ์ในแบบจําลองความหมายของคุณและค้นหาปัญหาหรือความไม่สอดคล้องกัน ฟังก์ชันจะ list_relationship_violations ตรวจสอบตารางของคุณเพื่อให้แน่ใจว่าตรงกับความสัมพันธ์ในแบบจําลองความหมายของคุณ

ฟังก์ชันนี้ช่วยให้คุณค้นหาความไม่สอดคล้องกันกับความหลากหลายของความสัมพันธ์และแก้ไขปัญหาก่อนที่จะส่งผลกระทบต่อการวิเคราะห์ข้อมูลหรือโมเดลการเรียนรู้ของเครื่อง

หากต้องการใช้ list_relationship_violations ฟังก์ชัน ให้นําเข้า sempy.fabric โมดูลและอ่านตารางจากแบบจําลองความหมายของคุณ จากนั้น เรียกฟังก์ชันด้วยพจนานุกรมที่แมปชื่อตารางกับ DataFrames ที่มีเนื้อหาตาราง

รหัสตัวอย่างต่อไปนี้แสดงวิธีการแสดงรายการการละเมิดความสัมพันธ์:

import sempy.fabric as fabric

tables = {
    "Sales": fabric.read_table("my_dataset", "Sales"),
    "Products": fabric.read_table("my_dataset", "Products"),
    "Customers": fabric.read_table("my_dataset", "Customers"),
}

fabric.list_relationship_violations(tables)

รหัสก่อนหน้านี้เรียกlist_relationship_violationsฟังก์ชันด้วยพจนานุกรมที่มีตารางยอดขายผลิตภัณฑ์ และลูกค้าจากแบบจําลองความหมาย my_dataset คุณสามารถปรับแต่งฟังก์ชันได้โดยการตั้งค่าเกณฑ์ความครอบคลุม เลือกวิธีจัดการกับคีย์ที่ขาดหายไป และตั้งค่าจํานวนคีย์ที่ขาดหายไปเพื่อรายงาน

ฟังก์ชันจะส่งคืน DataFrame แพนด้าที่มีหนึ่งแถวสําหรับการละเมิดความสัมพันธ์แต่ละครั้ง คุณจึงสามารถค้นหาและแก้ไขปัญหาในแบบจําลองความหมายได้อย่างรวดเร็ว ใช้ฟังก์ชันนี้ list_relationship_violations เพื่อให้โมเดลความหมายของคุณสอดคล้องกันและแม่นยํา คุณจึงสร้างโมเดลแมชชีนเลิร์นนิงที่เชื่อถือได้มากขึ้นและรับข้อมูลเชิงลึกที่ดีขึ้นจากข้อมูลของคุณ

ค้นหาความสัมพันธ์ใน DataFrames ของ pandas

ฟังก์ชัน list_relationships, plot_relationships_df, และ list_relationship_violations ในโมดูล Fabric เป็นเครื่องมือที่มีประสิทธิภาพสําหรับการสํารวจความสัมพันธ์ในแบบจําลองความหมาย บางครั้ง คุณจําเป็นต้องค้นหาความสัมพันธ์ในแหล่งข้อมูลอื่นๆ เช่น แพนด้า DataFrames

ใช้ฟังก์ชันในfind_relationshipssempy.relationshipโมดูลเพื่อค้นหาความสัมพันธ์ใน DataFrames ของแพนด้า

ฟังก์ชันในfind_relationshipssempy.relationshipsโมดูลช่วยให้นักวิทยาศาสตร์ข้อมูลและนักวิเคราะห์ธุรกิจค้นหาความสัมพันธ์ที่เป็นไปได้ในรายการ DataFrames ของแพนด้า ฟังก์ชันนี้ช่วยให้คุณมองเห็นการเชื่อมต่อระหว่างตารางและคอลัมน์ คุณจึงเรียนรู้เพิ่มเติมเกี่ยวกับข้อมูลของคุณและองค์ประกอบที่เกี่ยวข้องอย่างไร

วิธีค้นหาความสัมพันธ์ใน DataFrames ของแพนด้ามีดังนี้

from sempy.relationships import find_relationships

tables = [df_sales, df_products, df_customers]

find_relationships(tables)

โค้ดก่อนหน้านี้เรียก find_relationships ฟังก์ชันด้วยรายการ DataFrames ของแพนด้าสามรายการ: df_sales, df_products, และ df_customers. ฟังก์ชันนี้ส่งคืน DataFrame ของแพนด้าที่มีหนึ่งแถวสําหรับแต่ละความสัมพันธ์ที่เป็นไปได้ คุณจึงสามารถสํารวจและวิเคราะห์ความสัมพันธ์ในข้อมูลของคุณได้

กําหนดฟังก์ชันเองโดยการตั้งค่าขีดจํากัดความครอบคลุม เกณฑ์ความคล้ายคลึงกันของชื่อ รายการของความสัมพันธ์ที่จะแยกออก และจะรวมความสัมพันธ์แบบกลุ่มต่อกลุ่มหรือไม่

ตรวจสอบความสัมพันธ์ใน DataFrames ของ pandas

หลังจากที่คุณพบความสัมพันธ์ที่เป็นไปได้ใน DataFrames ของแพนด้าโดยใช้ฟังก์ชันแล้ว find_relationships ให้ใช้ฟังก์ชันเพื่อ list_relationship_violations ตรวจสอบความสัมพันธ์เหล่านี้และระบุปัญหาหรือความไม่สอดคล้องกัน

ฟังก์ชันจะ list_relationship_violations ตรวจสอบตารางของคุณเพื่อให้แน่ใจว่าตรงกับความสัมพันธ์ที่ค้นพบ ใช้ฟังก์ชันนี้เพื่อค้นหาความไม่สอดคล้องกันกับความหลากหลายของความสัมพันธ์ที่ระบุ เพื่อให้คุณสามารถแก้ไขปัญหาก่อนที่จะส่งผลกระทบต่อการวิเคราะห์ข้อมูลหรือแบบจําลองการเรียนรู้ของเครื่อง

นี่คือตัวอย่างที่แสดงวิธีค้นหาการละเมิดความสัมพันธ์ใน DataFrames ของแพนด้า

from sempy.relationships import find_relationships, list_relationship_violations

tables = [df_sales, df_products, df_customers]
relationships = find_relationships(tables)

list_relationship_violations(tables, relationships)

ตัวอย่างนี้เรียกใช้ list_relationship_violations ฟังก์ชันที่มี DataFrame ของแพนด้าสามตัว: df_sales, , df_productsและ df_customers, พร้อมกับความสัมพันธ์ DataFrame จาก find_relationships ฟังก์ชัน ฟังก์ชันนี้ list_relationship_violations ส่งคืน DataFrame ของแพนด้าที่มีแถวเดียวสําหรับการละเมิดความสัมพันธ์แต่ละครั้ง คุณจึงค้นหาและแก้ไขปัญหาในข้อมูลได้อย่างรวดเร็ว

ปรับแต่งฟังก์ชันโดยการตั้งค่าเกณฑ์ความครอบคลุม เลือกวิธีจัดการกับคีย์ที่ขาดหายไป และกําหนดจํานวนคีย์ที่ขาดหายไปที่จะรายงาน

ใช้ฟังก์ชันนี้ list_relationship_violations กับ DataFrames ของแพนด้าเพื่อให้ข้อมูลของคุณสอดคล้องกันและถูกต้อง สิ่งนี้ช่วยให้คุณสร้างโมเดลแมชชีนเลิร์นนิงที่เชื่อถือได้และรับข้อมูลเชิงลึกที่ลึกซึ้งยิ่งขึ้นจากข้อมูลของคุณ