สํารวจและประมวลผลข้อมูลด้วย Microsoft Fabric
ข้อมูลเป็นรากฐานที่สําคัญของวิทยาศาสตร์ข้อมูล โดยเฉพาะอย่างยิ่งเมื่อตั้งเป้าที่จะฝึกโมเดลแมชชีนเลิร์นนิงเพื่อให้ได้ปัญญาประดิษฐ์ โดยปกติแล้ว โมเดลจะแสดงประสิทธิภาพที่เพิ่มขึ้นเมื่อขนาดชุดข้อมูลการฝึกอบรมเพิ่มขึ้น นอกจากปริมาณของข้อมูลแล้ว คุณภาพของข้อมูลก็มีความสําคัญไม่แพ้กัน
เพื่อรับประกันทั้งคุณภาพและปริมาณของข้อมูลของคุณ คุณมีความยืดหยุ่นในการเลือกใช้วิธีการแบบ low-code หรือใช้โค้ดเป็นอันดับแรกเมื่อสร้างไปป์ไลน์การนําเข้า การสํารวจ และการแปลงข้อมูลที่จําเป็น
นําเข้าข้อมูลของคุณลงใน Microsoft Fabric
เมื่อต้องการทํางานกับข้อมูลใน Microsoft Fabric ก่อนอื่นคุณต้องนําเข้าข้อมูล คุณสามารถนําเข้าข้อมูลจากหลายแหล่ง ทั้งแหล่งข้อมูลภายในเครื่องและระบบคลาวด์ ตัวอย่างเช่น คุณสามารถนําเข้าข้อมูลจากไฟล์ CSV ที่จัดเก็บไว้ในเครื่องภายในเครื่องของคุณหรือใน Azure Data Lake Storage (Gen2)
เคล็ดลับ
เรียนรู้เพิ่มเติมเกี่ยวกับวิธีการนําเข้าและประสานข้อมูลจากแหล่งข้อมูลต่าง ๆ ด้วย Microsoft Fabric
หลังจากเชื่อมต่อกับแหล่งข้อมูลแล้ว คุณสามารถบันทึกข้อมูลลงใน เลคเฮาส์ Microsoft Fabric ได้ คุณสามารถใช้เลคเฮ้าส์เป็นที่ตั้งส่วนกลางเพื่อจัดเก็บไฟล์ที่มีโครงสร้างกึ่งมีโครงสร้างและไม่มีโครงสร้าง จากนั้นคุณสามารถเชื่อมต่อกับเลคเฮาส์ได้อย่างง่ายดายเมื่อใดก็ตามที่คุณต้องการเข้าถึงข้อมูลของคุณเพื่อสํารวจหรือแปลงข้อมูล
สํารวจและแปลงข้อมูลของคุณ
ในฐานะนักวิทยาศาสตร์ข้อมูล คุณอาจคุ้นเคยกับการเขียนและเรียกใช้โค้ดในสมุดบันทึกมากที่สุด Microsoft Fabric มอบประสบการณ์โน้ตบุ๊กที่คุ้นเคยซึ่งขับเคลื่อนโดยการประมวลผล Spark
Apache Spark เป็นเฟรมเวิร์กการประมวลผลแบบขนานแบบโอเพนซอร์สสําหรับการประมวลผลและการวิเคราะห์ข้อมูลขนาดใหญ่
โน้ตบุ๊กจะแนบกับการประมวลผล Spark โดยอัตโนมัติ เมื่อคุณเรียกใช้เซลล์ในสมุดบันทึกเป็นครั้งแรก เซสชัน Spark ใหม่จะเริ่มขึ้น เซสชันจะยังคงอยู่เมื่อคุณเรียกใช้เซลล์ที่ตามมา เซสชัน Spark จะหยุดโดยอัตโนมัติหลังจากไม่มีการใช้งานเป็นระยะเวลาหนึ่งเพื่อประหยัดค่าใช้จ่าย คุณยังสามารถหยุดเซสชันด้วยตนเองได้อีกด้วย
เมื่อคุณทํางานในสมุดบันทึก คุณสามารถเลือกภาษาที่คุณต้องการใช้ได้ สําหรับปริมาณงานวิทยาศาสตร์ข้อมูล คุณมีแนวโน้มที่จะทํางานกับ PySpark (Python) หรือ SparkR (R)
ภายในสมุดบันทึก คุณสามารถสํารวจข้อมูลของคุณโดยใช้ไลบรารีที่คุณต้องการ หรือด้วยตัวเลือกการแสดงภาพในตัว หากจําเป็น คุณสามารถแปลงข้อมูลและบันทึกข้อมูลที่ประมวลผลโดยเขียนกลับไปยังเลคเฮาส์
เตรียมข้อมูลของคุณด้วย Data Wrangler
เพื่อช่วยคุณสํารวจและแปลงข้อมูลของคุณได้รวดเร็วยิ่งขึ้น Microsoft Fabric ขอเสนอ Data Wrangler ที่ใช้งานง่าย
หลังจากเปิดใช้ Data Wrangler แล้ว คุณจะได้รับภาพรวมเชิงพรรณนาของข้อมูลที่คุณกําลังทํางานอยู่ คุณสามารถดูสถิติสรุปของข้อมูลเพื่อค้นหาปัญหาต่างๆ เช่น ค่าที่ขาดหายไป
ในการล้างข้อมูล คุณสามารถเลือกการดําเนินการล้างข้อมูลในตัวได้ เมื่อคุณเลือกการดําเนินการ การแสดงตัวอย่างผลลัพธ์และรหัสที่เกี่ยวข้องจะถูกสร้างขึ้นโดยอัตโนมัติสําหรับคุณ เมื่อคุณเลือกการดําเนินการที่จําเป็นทั้งหมดแล้ว คุณสามารถส่งออกการแปลงไปยังโค้ดและดําเนินการกับข้อมูลของคุณได้