แสดงข้อมูลในสมุดบันทึก Spark
หนึ่งในวิธีที่ใช้งานได้ง่ายที่สุดในการวิเคราะห์ผลลัพธ์ของคิวรีข้อมูลคือการแสดงภาพในรูปแบบแผนภูมิ สมุดบันทึกใน Microsoft Fabric ให้ความสามารถในการสร้างแผนภูมิพื้นฐานบางอย่างในส่วนติดต่อผู้ใช้ และเมื่อฟังก์ชันการทํางานนั้นไม่มีสิ่งที่คุณต้องการ คุณสามารถใช้ไลบรารีกราฟิก Python หลายไลบรารีเพื่อสร้างและแสดงการจัดรูปแบบการแสดงข้อมูลในสมุดบันทึกได้
การใช้แผนภูมิสมุดบันทึกที่มีอยู่ภายใน
เมื่อคุณแสดง dataframe หรือเรียกใช้คิวรี SQL ในสมุดบันทึก Spark ผลลัพธ์จะแสดงภายใต้เซลล์โค้ด ตามค่าเริ่มต้น ผลลัพธ์จะแสดงเป็นตาราง แต่คุณยังสามารถเปลี่ยนมุมมองผลลัพธ์เป็นแผนภูมิ และใช้คุณสมบัติแผนภูมิเพื่อกําหนดวิธีที่แผนภูมิแสดงภาพข้อมูลดังที่แสดงไว้ที่นี่:
ฟังก์ชันแผนภูมิที่มีอยู่ภายในในสมุดบันทึกจะมีประโยชน์เมื่อคุณต้องการสรุปข้อมูลแบบเป็นภาพอย่างรวดเร็ว เมื่อคุณต้องการควบคุมวิธีการจัดรูปแบบข้อมูลมากขึ้น คุณควรพิจารณาใช้แพคเกจกราฟิกเพื่อสร้างการแสดงภาพของคุณเอง
การใช้แพคเกจกราฟิกในโค้ด
มีแพคเกจกราฟิกมากมายที่คุณสามารถใช้เพื่อสร้างการแสดงภาพข้อมูลในโค้ด โดยเฉพาะอย่างยิ่ง Python สนับสนุนแพคเกจให้เลือกมากมาย ส่วนใหญ่สร้างขึ้นบนไลบรารี Matplotlib Matplotlib ผลลัพธ์จากไลบรารีกราฟิกสามารถแสดงในสมุดบันทึกทําให้ง่ายต่อการรวมโค้ดเพื่อนําเข้าและจัดการข้อมูลด้วยการแสดงภาพแบบอินไลน์และเซลล์ markdown เพื่อให้ข้อคิดเห็น
ตัวอย่างเช่น คุณสามารถใช้รหัส PySpark ต่อไปนี้เพื่อรวมข้อมูลจากข้อมูลผลิตภัณฑ์โดยสมมติที่สํารวจก่อนหน้านี้ในโมดูลนี้ และใช้ Matplotlib เพื่อสร้างแผนภูมิจากข้อมูลรวมได้
from matplotlib import pyplot as plt
# Get the data as a Pandas dataframe
data = spark.sql("SELECT Category, COUNT(ProductID) AS ProductCount \
FROM products \
GROUP BY Category \
ORDER BY Category").toPandas()
# Clear the plot area
plt.clf()
# Create a Figure
fig = plt.figure(figsize=(12,8))
# Create a bar plot of product counts by category
plt.bar(x=data['Category'], height=data['ProductCount'], color='orange')
# Customize the chart
plt.title('Product Counts by Category')
plt.xlabel('Category')
plt.ylabel('Products')
plt.grid(color='#95a5a6', linestyle='--', linewidth=2, axis='y', alpha=0.7)
plt.xticks(rotation=70)
# Show the plot area
plt.show()
ไลบรารี Matplotlib จําเป็นต้องมีข้อมูลอยู่ในกรอบข้อมูล Pandas แทนที่จะเป็น Dataframe ของ Spark ดังนั้น toPandas วิธีการถูกใช้เพื่อแปลง จากนั้นโค้ดจะสร้างรูปภาพที่มีขนาดที่ระบุ และลงจุดแผนภูมิแท่งที่มีการกําหนดค่าคุณสมบัติแบบกําหนดเองบางอย่างก่อนที่จะแสดงการลงจุดผลลัพธ์
แผนภูมิที่สร้างขึ้นโดยรหัสจะมีลักษณะคล้ายกับรูปภาพต่อไปนี้:
คุณสามารถใช้ไลบรารี Matplotlib เพื่อสร้างแผนภูมิได้หลายชนิด หรือถ้าคุณต้องการ คุณสามารถใช้ไลบรารีอื่น ๆ เช่น Seaborn เพื่อสร้างแผนภูมิแบบกําหนดเองสูงได้