แชร์ผ่าน


วิธีใช้ Data Wrangler บน Spark DataFrames

Data Wrangler ซึ่งเป็นเครื่องมือที่ใช้สมุดบันทึกสําหรับการวิเคราะห์ข้อมูลการสํารวจ ตอนนี้สนับสนุนทั้ง Spark DataFrames และ pandas DataFrames ซึ่งสร้างรหัส PySpark นอกเหนือจากรหัส Python สําหรับภาพรวมทั่วไปของ Data Wrangler ซึ่งครอบคลุมวิธีการสํารวจและแปลง DataFrames ของแพนด้า โปรดไปที่บทช่วยสอนหลัก บทช่วยสอนนี้แสดงวิธีใช้ Data Wrangler เพื่อสํารวจและแปลง Spark DataFrames

ข้อกำหนดเบื้องต้น

ข้อจำกัด

  • การดําเนินการโค้ดแบบกําหนดเองได้รับการสนับสนุนสําหรับ pandas DataFrames เท่านั้น
  • จอแสดงผล Data Wrangler ทํางานได้ดีที่สุดบนจอภาพขนาดใหญ่ แม้ว่าคุณจะสามารถย่อหรือซ่อนส่วนต่างๆ ของอินเทอร์เฟซเพื่อรองรับหน้าจอขนาดเล็กได้

เปิดใช้งาน Data Wrangler ด้วย Spark DataFrame

คุณสามารถเปิด Spark DataFrames ใน Data Wrangler ได้โดยตรงจากสมุดบันทึก Microsoft Fabric โดยนําทางไปยังพรอมต์ดรอปดาวน์เดียวกันที่แสดง DataFrames ของแพนด้า รายการของ Spark DataFrames ที่ใช้งานอยู่จะปรากฏในดรอปดาวน์ภายใต้รายการของตัวแปร pandas ที่ใช้งานอยู่

ส่วนย่อยของโค้ดนี้สร้าง Spark DataFrame ด้วยข้อมูลตัวอย่างเดียวกันที่ใช้ใน บทช่วยสอน Pandas Data Wrangler:

import pandas as pd

# Read a CSV into a Spark DataFrame
sdf = spark.createDataFrame(pd.read_csv("https://raw.githubusercontent.com/plotly/datasets/master/titanic.csv"))
display(sdf)

ในแถบเครื่องมือริบบอนสมุดบันทึก "หน้าแรก" ให้ใช้พร้อมท์ดรอปดาวน์ Data Wrangler เพื่อเรียกดู DataFrame ที่ใช้งานอยู่ซึ่งพร้อมสําหรับการแก้ไข เลือกรายการที่คุณต้องการเปิดใน Data Wrangler

เคล็ดลับ

ไม่สามารถเปิด Data Wrangler ได้ในขณะที่เคอร์เนลสมุดบันทึกไม่ว่าง เซลล์ที่ดําเนินการต้องดําเนินการให้เสร็จสิ้นก่อนที่ Data Wrangler จะสามารถเปิดใช้งานได้ ดังที่แสดงในภาพหน้าจอนี้:

สกรีนช็อตแสดงสมุดบันทึก Fabric ที่มีพร้อมท์ดรอปดาวน์ Data Wrangler

การเลือกตัวอย่างแบบกําหนดเอง

Data Wrangler แปลง Spark DataFrames เป็นตัวอย่าง pandas โดยอัตโนมัติเพื่อเหตุผลด้านประสิทธิภาพการทํางาน อย่างไรก็ตาม โค้ดทั้งหมดที่เครื่องมือสร้างจะถูกแปลเป็น PySpark ในท้ายที่สุดเมื่อส่งออกกลับไปยังสมุดบันทึก เช่นเดียวกับ Pandas DataFrame คุณสามารถกําหนดค่าตัวอย่างเริ่มต้นได้ หากต้องการเปิดตัวอย่างแบบกําหนดเองของ DataFrame ที่ใช้งานอยู่ด้วย Data Wrangler ให้เลือก "เลือกตัวอย่างแบบกําหนดเอง" จากดรอปดาวน์ดังที่แสดงในภาพหน้าจอนี้:

สกรีนช็อตแสดงข้อความดรอปดาวน์ Data Wrangler พร้อมตัวเลือกตัวอย่างแบบกําหนดเองที่ระบุไว้

การดําเนินการนี้จะเปิดใช้ป็อปอัพด้วยตัวเลือกเพื่อระบุขนาดของตัวอย่างที่ต้องการ (จํานวนแถว) และวิธีการสุ่มตัวอย่าง (เรกคอร์ดแรก เรคคอร์ดสุดท้าย หรือชุดแบบสุ่ม) ดังที่แสดงในภาพหน้าจอนี้:

สกรีนช็อตที่แสดงพร้อมท์ตัวอย่างแบบกําหนดเองของ Data Wrangler

การดูสถิติสรุป

เมื่อโหลด Data Wrangler ระบบจะแสดงแบนเนอร์ข้อมูลที่สูงกว่าเส้นตารางการแสดงตัวอย่าง แบนเนอร์นี้อธิบายว่า Spark DataFrames จะถูกแปลงเป็นตัวอย่างแพนด้าชั่วคราว แต่โค้ดที่สร้างขึ้นทั้งหมดจะถูกแปลงเป็น PySpark ในที่สุด หลังจากนั้น การใช้ Data Wrangler บน Spark DataFrames ก็ไม่แตกต่างจากการใช้งานบน Pandas DataFrames ภาพรวมเชิงพรรณาในแผง "สรุป" แสดงข้อมูลเกี่ยวกับมิติของตัวอย่าง ค่าที่หายไป และอื่น ๆ การเลือกคอลัมน์ใดๆ ในตาราง Data Wrangler จะแจ้งให้แผง "สรุป" อัปเดตและแสดงสถิติเชิงพรรณนาเกี่ยวกับคอลัมน์นั้นๆ ข้อมูลเชิงลึกด่วนเกี่ยวกับทุกคอลัมน์จะพร้อมใช้งานในส่วนหัวด้วย

เคล็ดลับ

สถิติและวิชวลเฉพาะคอลัมน์ (ทั้งในแผง "สรุป" และในส่วนหัวของคอลัมน์) จะขึ้นอยู่กับชนิดข้อมูลของคอลัมน์ ตัวอย่างเช่น ฮิสโทแกรมที่ผูกไว้ของคอลัมน์ตัวเลขจะปรากฏในส่วนหัวของคอลัมน์ก็ต่อเมื่อคอลัมน์ถูกแปลงเป็นชนิดตัวเลขดังที่แสดงในภาพหน้าจอนี้:

สกรีนช็อตที่แสดงบานหน้าต่างแสดงเส้นตารางและสรุปของ Data Wrangler

การเรียกดูการดําเนินการทําความสะอาดข้อมูล

รายการขั้นตอนการทําความสะอาดข้อมูลที่สามารถค้นหาได้สามารถพบได้ในแผง "การดําเนินการ" จากแผง "การดําเนินการ" การเลือกขั้นตอนการล้างข้อมูลจะแจ้งให้คุณระบุคอลัมน์เป้าหมายหรือคอลัมน์ พร้อมกับพารามิเตอร์ที่จําเป็นเพื่อดําเนินการตามขั้นตอนให้เสร็จสมบูรณ์ ตัวอย่างเช่น พร้อมท์ให้ปรับขนาดคอลัมน์ตามตัวเลข จําเป็นต้องมีช่วงของค่าใหม่ ดังที่แสดงในสกรีนช็อตนี้:

สกรีนช็อตที่แสดงแผงการดําเนินงาน Data Wrangler

เคล็ดลับ

คุณสามารถใช้การดําเนินการที่มีขนาดเล็กกว่าจากเมนูของแต่ละส่วนหัวของคอลัมน์ ดังที่แสดงในภาพหน้าจอนี้:

สกรีนช็อตแสดงการดําเนินการ Data Wrangler ที่สามารถนําไปใช้จากเมนูส่วนหัวของคอลัมน์ได้

การแสดงตัวอย่างและการใช้การดําเนินการ

Data Wrangler แสดงเส้นตารางโดยอัตโนมัติแสดงตัวอย่างผลลัพธ์ของการดําเนินการที่เลือก และรหัสที่สอดคล้องกันจะปรากฏในแผงด้านล่างเส้นตารางโดยอัตโนมัติ หากต้องการยอมรับโค้ดที่แสดงตัวอย่าง ให้เลือก "นําไปใช้" ในที่ใดที่หนึ่ง หากต้องการลบโค้ดที่แสดงตัวอย่างและลองใช้การดําเนินการใหม่ ให้เลือก "ละทิ้ง" ดังที่แสดงในภาพหน้าจอนี้:

สกรีนช็อตที่แสดงการดําเนินการของ Data Wrangler ที่กําลังดําเนินการ

เมื่อการดําเนินการถูกนําไปใช้ Data Wrangler จะแสดงการอัปเดตตารางและสถิติสรุปเพื่อแสดงผลลัพธ์ รหัสจะปรากฏในรายการการดําเนินการที่ผูกมัดซึ่งอยู่ในแผง "ขั้นตอนการทําความสะอาด" ดังที่แสดงในภาพหน้าจอนี้:

สกรีนช็อตที่แสดงการดําเนินการของ Data Wrangler ที่ใช้

เคล็ดลับ

คุณสามารถยกเลิกขั้นตอนที่ใช้ล่าสุดได้เสมอ ในแผง "ขั้นตอนการทําความสะอาด" ไอคอนถังขยะจะปรากฏขึ้นหากคุณเลื่อนเคอร์เซอร์ของคุณเหนือขั้นตอนที่ใช้ล่าสุดดังที่แสดงในภาพหน้าจอนี้:

สกรีนช็อตที่แสดงการดําเนินการ Data Wrangler ที่สามารถยกเลิกได้

ตารางนี้สรุปการดําเนินการที่ Data Wrangler สนับสนุนในขณะนี้:

การดำเนินการ คำอธิบาย:
จัดเรียง เรียงลําดับคอลัมน์จากน้อยไปหามากหรือจากมากไปหาน้อย
ตัวกรอง กรองแถวโดยยึดตามเงื่อนไขอย่างน้อยหนึ่งข้อ
เข้ารหัสหนึ่งร้อน สร้างคอลัมน์ใหม่สําหรับแต่ละค่าที่ไม่ซ้ํากันในคอลัมน์ที่มีอยู่ ที่ระบุการมีอยู่หรือไม่มีค่าเหล่านั้นสําหรับแต่ละแถว
การเข้ารหัสที่ร้อนด้วยตัวคั่น แยกและเข้ารหัสข้อมูลตามประเภทอย่างหนึ่งร้อนโดยใช้ตัวคั่น
เปลี่ยนชนิดคอลัมน์ เปลี่ยนชนิดข้อมูลของคอลัมน์
ปล่อยคอลัมน์ ลบคอลัมน์อย่างน้อยหนึ่งคอลัมน์
เลือกคอลัมน์ เลือกหนึ่งหรือหลายคอลัมน์เพื่อเก็บ และลบส่วนที่เหลือ
เปลี่ยนชื่อคอลัมน์ เปลี่ยนชื่อคอลัมน์
ปล่อยค่าที่หายไป ลบแถวที่มีค่าที่ขาดหายไป
ทิ้งแถวที่ซ้ํากัน วางแถวทั้งหมดที่มีค่าที่ซ้ํากันในหนึ่งคอลัมน์หรือมากกว่า
เติมค่าที่หายไป แทนที่เซลล์ด้วยค่าที่หายไปด้วยค่าใหม่
ค้นหาและแทนที่ แทนที่เซลล์ด้วยรูปแบบที่ตรงกัน
จัดกลุ่มตามคอลัมน์และรวม จัดกลุ่มตามค่าคอลัมน์และรวมผลลัพธ์
แถบช่องว่าง เอาช่องว่างออกจากส่วนเริ่มต้นและส่วนท้ายของข้อความ
แยกข้อความ แยกคอลัมน์ออกเป็นหลายคอลัมน์โดยยึดตามตัวคั่นที่ผู้ใช้กําหนดเอง
แปลงข้อความเป็นตัวพิมพ์เล็ก แปลงข้อความเป็นตัวพิมพ์เล็ก
แปลงข้อความเป็นตัวพิมพ์ใหญ่ แปลงข้อความเป็นตัวพิมพ์ใหญ่
ค่าต่ําสุด/สูงสุดของสเกล ปรับมาตราส่วนคอลัมน์ตัวเลขระหว่างค่าต่ําสุดและสูงสุด
การเติมแฟลช สร้างคอลัมน์ใหม่โดยอัตโนมัติตามตัวอย่างที่สืบทอดมาจากคอลัมน์ที่มีอยู่

ปรับเปลี่ยนจอแสดงผลของคุณ

คุณสามารถกําหนดอินเทอร์เฟซด้วยแท็บ "มุมมอง" ในแถบเครื่องมือที่อยู่เหนือเส้นตารางแสดงผล Data Wrangler ได้ตลอดเวลา ซึ่งสามารถซ่อนหรือแสดงบานหน้าต่างต่าง ๆ ตามการกําหนดลักษณะและขนาดหน้าจอของคุณ ดังที่แสดงในภาพหน้าจอนี้:

สกรีนช็อตที่แสดงเมนู Data Wrangler สําหรับการกําหนดมุมมองการแสดงผล

การบันทึกและการส่งออกรหัส

แถบเครื่องมือด้านบนเส้นตารางการแสดงผล Data Wrangler มีตัวเลือกในการบันทึกรหัสที่สร้างขึ้น คุณสามารถคัดลอกรหัสไปยังคลิปบอร์ดหรือส่งออกไปยังสมุดบันทึกเป็นฟังก์ชัน สําหรับ Spark DataFrames โค้ดทั้งหมดที่สร้างขึ้นในตัวอย่างแพนด้าจะถูกแปลเป็น PySpark ก่อนที่จะกลับไปยังสมุดบันทึก ก่อนที่ Data Wrangler จะปิดตัวเครื่องมือจะแสดงตัวอย่างโค้ด PySpark ที่แปลแล้วและมีตัวเลือกในการส่งออกโค้ดแพนด้าระดับกลางด้วย

เคล็ดลับ

Data Wrangler สร้างโค้ดที่ใช้เฉพาะเมื่อคุณเรียกใช้เซลล์ใหม่ด้วยตนเอง และจะไม่เขียนทับ DataFrame เดิมของคุณ ดังที่แสดงในภาพหน้าจอนี้:

สกรีนช็อตแสดงตัวเลือกในการส่งออกรหัสใน Data Wrangler

รหัสจะถูกแปลงเป็น PySpark ดังที่แสดงในสกรีนช็อตนี้:

สกรีนช็อตแสดงตัวอย่าง PySpark ในพร้อมท์รหัสการส่งออกใน Data Wrangler

จากนั้นคุณสามารถเรียกใช้โค้ดที่ส่งออกตามที่แสดงในภาพหน้าจอนี้:

สกรีนช็อตแสดงรหัสที่สร้างขึ้นโดย Data Wrangler กลับในสมุดบันทึก