แชร์ผ่าน


ใช้สมุดบันทึกเพื่อโหลดข้อมูลลงในเลคเฮาส์ของคุณ

ในบทช่วยสอนนี้ เรียนรู้วิธีอ่าน/เขียนข้อมูลลงในเลคเฮาส์ Fabric ของคุณด้วยสมุดบันทึก Fabric รองรับ Spark API และ Pandas API เพื่อให้บรรลุเป้าหมายนี้

โหลดข้อมูลด้วย Apache Spark API

ในเซลล์โค้ดของสมุดบันทึก ให้ใช้ตัวอย่างโค้ดต่อไปนี้เพื่ออ่านข้อมูลจากแหล่งที่มาและโหลดลงใน ไฟล์ตาราง หรือทั้งสองส่วนของเลคเฮาส์ของคุณ

เมื่อต้องการระบุตําแหน่งที่ตั้งที่จะอ่าน คุณสามารถใช้เส้นทางสัมพัทธ์ได้ถ้าข้อมูลมาจากเลคเฮาส์เริ่มต้นของสมุดบันทึกปัจจุบันของคุณ คุณสามารถใช้เส้นทาง Azure Blob File System (ABFS) แบบสัมบูรณ์ได้ คัดลอกเส้นทางนี้จากเมนูบริบทของข้อมูล

ภาพหน้าจอแสดงตัวเลือกเมนูของการคัดลอก

คัดลอกเส้นทาง ABFS: ตัวเลือกนี้ส่งคืนเส้นทางสัมบูรณ์ของไฟล์

คัดลอกเส้นทางสัมพัทธ์สําหรับ Spark: ตัวเลือกนี้ส่งคืนเส้นทางสัมพัทธ์ของไฟล์ในเลคเฮาส์เริ่มต้นของคุณ

df = spark.read.parquet("location to read from") 

# Keep it if you want to save dataframe as CSV files to Files section of the default lakehouse

df.write.mode("overwrite").format("csv").save("Files/ " + csv_table_name)

# Keep it if you want to save dataframe as Parquet files to Files section of the default lakehouse

df.write.mode("overwrite").format("parquet").save("Files/" + parquet_table_name)

# Keep it if you want to save dataframe as a delta lake, parquet table to Tables section of the default lakehouse

df.write.mode("overwrite").format("delta").saveAsTable(delta_table_name)

# Keep it if you want to save the dataframe as a delta lake, appending the data to an existing table

df.write.mode("append").format("delta").saveAsTable(delta_table_name)

โหลดข้อมูลด้วย Pandas API

เพื่อรองรับ Pandas API เลคเฮาส์เริ่มต้นจะถูกติดตั้งกับโน้ตบุ๊กโดยอัตโนมัติ จุดยึดคือ /lakehouse/default/. คุณสามารถใช้จุดต่อเชื่อมนี้เพื่ออ่าน/เขียนข้อมูลจาก/ไปยังเลคเฮาส์เริ่มต้น ตัวเลือก "คัดลอกเส้นทาง API ไฟล์" จากเมนูบริบทจะส่งคืนเส้นทาง File API จากจุดต่อเชื่อมนั้น เส้นทางที่ส่งคืนจากตัวเลือกคัดลอก เส้นทาง ABFS ยังใช้ได้กับ Pandas API

สําคัญ

/lakehouse/default/จุดยึดมีเฉพาะในโน้ตบุ๊กเท่านั้น สําหรับข้อกําหนดงาน Spark ให้ใช้เส้นทาง ABFS และดูเอกสารข้อกําหนดงาน Spark

สกรีนช็อตที่แสดงตัวเลือกเมนูของเส้นทาง API ไฟล์คัดลอก

คัดลอกเส้นทาง API ของไฟล์: ตัวเลือกนี้ส่งคืนเส้นทางภายใต้จุดต่อเชื่อมของเลคเฮาส์เริ่มต้น

ตัวเลือกที่ 1: การใช้จุดติดตั้งเลคเฮาส์เริ่มต้น (แนะนําสําหรับเลคเฮาส์เดียวกัน)

import pandas as pd
df = pd.read_parquet("/lakehouse/default/Files/sample.parquet")

ตัวเลือกที่ 2: การใช้เส้นทาง ABFS (จําเป็นสําหรับเลคเฮาส์หรือข้อกําหนดงาน Spark ที่แตกต่างกัน)

# Path structure: abfss://WorkspaceName@msit-onelake.dfs.fabric.microsoft.com/LakehouseName.Lakehouse/Files/filename
import pandas as pd
df = pd.read_parquet("abfss://DevExpBuildDemo@msit-onelake.dfs.fabric.microsoft.com/Marketing_LH.Lakehouse/Files/sample.parquet")

เคล็ดลับ

สําหรับ Spark API ให้ใช้ตัวเลือกคัดลอก เส้นทาง ABFS หรือ คัดลอกเส้นทางสัมพัทธ์สําหรับ Spark เพื่อรับเส้นทางของไฟล์ สําหรับ Pandas API ให้ใช้ตัวเลือกคัดลอก เส้นทาง ABFS หรือ คัดลอกเส้นทาง API ของไฟล์ เพื่อรับเส้นทางของไฟล์

วิธีที่เร็วที่สุดในการมีโค้ดเพื่อทํางานกับ Spark API หรือ Pandas API คือการใช้ตัวเลือก โหลดข้อมูล และเลือก API ที่คุณต้องการใช้ รหัสจะถูกสร้างขึ้นโดยอัตโนมัติในเซลล์โค้ดใหม่ของสมุดบันทึก

ภาพหน้าจอแสดงตําแหน่งที่จะเลือกตัวเลือกโหลดข้อมูล