แชร์ผ่าน


วิธีการสร้างข้อกําหนดงาน Apache Spark ใน Fabric

ในบทช่วยสอนนี้ คุณจะได้เรียนรู้วิธีการสร้างข้อกําหนดงาน Spark ใน Microsoft Fabric

กระบวนการสร้างข้อกําหนดงาน Spark ทําได้ง่ายและรวดเร็ว มีหลายวิธีในการเริ่มต้นใช้งาน

คุณสามารถสร้างข้อกําหนดงาน Spark ได้จากพอร์ทัล Fabric หรือโดยใช้ Microsoft Fabric REST API บทความนี้มุ่งเน้นไปที่การสร้างข้อกําหนดงาน Spark จากพอร์ทัล Fabric สําหรับข้อมูลเกี่ยวกับการสร้างข้อกําหนดงาน Spark โดยใช้ REST API โปรดดู API ข้อกําหนดงาน Apache Spark v1 และ API ข้อกําหนดงาน Apache Spark v2

ข้อกำหนดเบื้องต้น

ก่อนที่คุณเริ่มต้นใช้งาน คุณต้องการ:

  • บัญชีผู้เช่า Fabric ที่มีการสมัครใช้งานที่ใช้งานอยู่ สร้างบัญชีฟรี
  • พื้นที่ทํางานใน Microsoft Fabric สําหรับข้อมูลเพิ่มเติม โปรดดู สร้างและจัดการพื้นที่ทํางานใน Microsoft Fabric
  • เลคเฮาส์อย่างน้อยหนึ่งเลคเฮาส์ในพื้นที่ทํางาน เลคเฮาส์ทําหน้าที่เป็นระบบไฟล์เริ่มต้นสําหรับข้อกําหนดงาน Spark สําหรับข้อมูลเพิ่มเติม ให้ดูที่ สร้างเลคเฮาส์
  • ไฟล์ข้อกําหนดหลักสําหรับงาน Spark ไฟล์นี้มีตรรกะของแอปพลิเคชันและจําเป็นต้องเรียกใช้งาน Spark ข้อกําหนดงาน Spark แต่ละรายการสามารถมีไฟล์ข้อกําหนดหลักได้เพียงไฟล์เดียวเท่านั้น

คุณต้องตั้งชื่อให้ข้อกําหนดงาน Spark ของคุณเมื่อสร้างงาน ชื่อต้องไม่ซ้ํากันภายในพื้นที่ทํางานปัจจุบัน ข้อกําหนดงาน Spark ใหม่จะถูกสร้างขึ้นในพื้นที่ทํางานปัจจุบันของคุณ

สร้างข้อกําหนดงาน Spark ในพอร์ทัล Fabric

เมื่อต้องการสร้างข้อกําหนดงาน Spark ในพอร์ทัล Fabric ให้ทําตามขั้นตอนเหล่านี้:

  1. ลงชื่อเข้าใช้พอร์ทัล Microsoft Fabric
  2. นําทางไปยังพื้นที่ทํางานที่ต้องการที่คุณต้องการสร้างข้อกําหนดงาน Spark
  3. เลือกข้อกําหนดงาน Sparkของรายการ>ใหม่
  4. ในบานหน้าต่าง ข้อกําหนดงาน Spark ใหม่ ให้ระบุข้อมูลต่อไปนี้:
    • ชื่อ: ป้อนชื่อเฉพาะสําหรับข้อกําหนดงาน Spark
    • ตําแหน่งที่ตั้ง: เลือกตําแหน่งที่ตั้งพื้นที่ทํางาน
  5. เลือก สร้าง เพื่อสร้างข้อกําหนดงาน Spark

จุดเริ่มต้นสํารองเพื่อสร้างข้อกําหนดงาน Spark คือไทล์ การวิเคราะห์ข้อมูลโดยใช้ SQL ... บนโฮมเพจ Fabric คุณสามารถค้นหาตัวเลือกเดียวกันได้โดยการเลือกไทล์ ทั่วไป

สกรีนช็อตที่แสดงตําแหน่งที่จะเลือกข้อกําหนดงาน Spark บน Create Hub

เมื่อคุณเลือกไทล์ คุณจะได้รับพร้อมท์ให้สร้างพื้นที่ทํางานใหม่หรือเลือกพื้นที่ทํางานที่มีอยู่ หลังจากที่คุณเลือกพื้นที่ทํางาน หน้า การสร้างข้อกําหนดงาน Spark จะเปิดขึ้น

กําหนดข้อกําหนดงาน Spark เองสําหรับ PySpark (Python)

ก่อนที่คุณจะสร้างข้อกําหนดงาน Spark สําหรับ PySpark คุณต้องมีไฟล์ Parquet ตัวอย่างที่อัปโหลดไปยังเลคเฮาส์

  1. ดาวน์โหลดตัวอย่างไฟล์ Parquet yellow_tripdata_2022-01.parquet
  2. ไปที่เลคเฮาส์ที่คุณต้องการอัปโหลดไฟล์
  3. อัปโหลดไปยังส่วน "ไฟล์" ของเลคเฮาส์

เมื่อต้องสร้างข้อกําหนดงาน Spark สําหรับ PySpark:

  1. สร้างข้อกําหนดงาน Spark ใหม่

  2. เลือก PySpark (Python) จากรายการแบบเลื่อนลง ของภาษา

  3. ดาวน์โหลดไฟล์คําจํากัดความตัวอย่าง createTablefromParquet.py อัปโหลดเป็นไฟล์คําจํากัดความหลัก แฟ้มข้อกําหนดหลัก (งาน) หลัก) เป็นไฟล์ที่มีตรรกะของแอปพลิเคชันและเป็นข้อบังคับในการเรียกใช้งาน Spark สําหรับแต่ละข้อกําหนดงาน Spark คุณสามารถอัปโหลดได้เพียงหนึ่งไฟล์ข้อกําหนดหลักเท่านั้น

    หมายเหตุ

    คุณสามารถอัปโหลดไฟล์ข้อกําหนดหลักจากเดสก์ท็อปภายในเครื่องของคุณ หรือคุณสามารถอัปโหลดจาก Azure Data Lake Storage (ADLS) Gen2 ที่มีอยู่ได้โดยกําหนดเส้นทาง ABFSS แบบเต็มของไฟล์ ตัวอย่างเช่น: abfss://your-storage-account-name.dfs.core.windows.net/your-file-path

  4. เลือกอัปโหลดไฟล์อ้างอิงเป็น .py ไฟล์ (Python) ไฟล์อ้างอิงคือโมดูล python ที่ไฟล์คําจํากัดความหลักนําเข้า เช่นเดียวกับไฟล์ข้อกําหนดหลัก คุณสามารถอัปโหลดจากเดสก์ท็อปของคุณหรือ ADLS Gen2 ที่มีอยู่ได้ รองรับไฟล์อ้างอิงหลายรายการ

    เคล็ดลับ

    ถ้าคุณใช้เส้นทาง ADLS Gen2 ตรวจสอบให้แน่ใจว่า แฟ้มสามารถเข้าถึงได้ คุณต้องให้สิทธิ์ที่เหมาะสมแก่บัญชีผู้ใช้ที่รันงานกับบัญชีที่เก็บข้อมูล ต่อไปนี้เป็นสองวิธีที่คุณสามารถให้สิทธิ์ได้:

    • กําหนดบัญชีผู้ใช้บทบาทผู้สนับสนุนสําหรับบัญชีเก็บข้อมูล
    • ให้สิทธิ์การอ่านและการดําเนินการแก่บัญชีผู้ใช้สําหรับไฟล์ผ่านรายการควบคุมการเข้าถึง ADLS Gen2 (ACL)

    สําหรับการเรียกใช้ด้วยตนเอง บัญชีของผู้ใช้ที่ลงชื่อเข้าใช้ปัจจุบันจะถูกใช้เพื่อเรียกใช้งาน

  5. ระบุอาร์กิวเมนต์บรรทัดคําสั่งสําหรับงาน ถ้าจําเป็น ใช้ช่องว่างเป็นตัวแยกเพื่อแยกอาร์กิวเมนต์

  6. เพิ่มการอ้างอิงของเลคเฮ้าส์ไปยังงาน คุณต้องมีการอ้างอิงของเลคเฮ้าส์อย่างน้อยหนึ่งรายการในงาน เลคเฮ้าส์นี้เป็นบริบทของเลคเฮาส์เริ่มต้นสําหรับงาน

    การอ้างอิงของเลคเฮ้าส์หลายรายการได้รับการรองรับ ค้นหาชื่อเลคเฮ้าส์ที่ไม่ใช่ค่าเริ่มต้นและ URL ของ OneLake ทั้งหมดในหน้าการตั้งค่า Spark

    สกรีนช็อตแสดงตัวอย่างของหน้าจอไฟล์คําจํากัดความหลักที่มีการเติมข้อมูล

ปรับแต่งข้อกําหนดงาน Spark สําหรับ Scala/Java

การสร้างข้อกําหนดงาน Spark สําหรับ Scala/Java:

  1. สร้างข้อกําหนดงาน Spark ใหม่

  2. เลือก Spark(Scala/Java) จากรายการแบบเลื่อนลงของ ภาษา

  3. อัปโหลดไฟล์คําจํากัดความหลักเป็น .jar ไฟล์ (Java) ไฟล์ข้อกําหนดหลักคือไฟล์ที่มีตรรกะของแอปพลิเคชันของงานนี้และเป็นข้อบังคับในการเรียกใช้งาน Spark สําหรับแต่ละข้อกําหนดงาน Spark คุณสามารถอัปโหลดได้เพียงหนึ่งไฟล์ข้อกําหนดหลักเท่านั้น ใส่ชื่อคลาสหลัก

  4. เลือกอัปโหลดไฟล์อ้างอิงเป็น .jar ไฟล์ (Java) ไฟล์อ้างอิงคือไฟล์ที่ไฟล์คําจํากัดความหลักอ้างอิง/นําเข้า

  5. ระบุอาร์กิวเมนต์บรรทัดคําสั่งสําหรับงาน ถ้าจําเป็น

  6. เพิ่มการอ้างอิงของเลคเฮ้าส์ไปยังงาน คุณต้องมีการอ้างอิงของเลคเฮ้าส์อย่างน้อยหนึ่งรายการในงาน เลคเฮ้าส์นี้เป็นบริบทของเลคเฮาส์เริ่มต้นสําหรับงาน

ปรับแต่งข้อกําหนดงาน Spark สําหรับ R

เมื่อต้องสร้างข้อกําหนดงาน Spark สําหรับ SparkR(R):

  1. สร้างข้อกําหนดงาน Spark ใหม่

  2. เลือก SparkR(R) จากรายการแบบเลื่อนลง ภาษา

  3. อัปโหลดไฟล์คําจํากัดความหลักเป็น .r ไฟล์ (R) ไฟล์ข้อกําหนดหลักคือไฟล์ที่มีตรรกะของแอปพลิเคชันของงานนี้และเป็นข้อบังคับในการเรียกใช้งาน Spark สําหรับแต่ละข้อกําหนดงาน Spark คุณสามารถอัปโหลดได้เพียงหนึ่งไฟล์ข้อกําหนดหลักเท่านั้น

  4. เลือกอัปโหลดไฟล์อ้างอิงเป็น .r ไฟล์ (R) ไฟล์อ้างอิงคือไฟล์ที่อ้างอิง/นําเข้าโดยไฟล์คํานิยามหลัก

  5. ระบุอาร์กิวเมนต์บรรทัดคําสั่งสําหรับงาน ถ้าจําเป็น

  6. เพิ่มการอ้างอิงของเลคเฮ้าส์ไปยังงาน คุณต้องมีการอ้างอิงของเลคเฮ้าส์อย่างน้อยหนึ่งรายการในงาน เลคเฮ้าส์นี้เป็นบริบทของเลคเฮาส์เริ่มต้นสําหรับงาน

หมายเหตุ

ข้อกําหนดงาน Spark ถูกสร้างขึ้นในพื้นที่ทํางานปัจจุบันของคุณ

ตัวเลือกเพื่อกําหนดข้อกําหนดงาน Spark

มีตัวเลือกสองสามตัวเพื่อกําหนดการดําเนินการตามข้อกําหนดงาน Spark เพิ่มเติม

  • Spark Compute: ภายในแท็บ Spark Compute คุณสามารถดู เวอร์ชันรันไทม์ Fabric ที่ใช้ในการเรียกใช้งาน Spark คุณยังสามารถดูการตั้งค่าการกําหนดค่า Spark ที่ใช้ในการเรียกใช้งานได้อีกด้วย คุณสามารถปรับแต่งการตั้งค่าการกําหนดค่า Spark ได้โดยเลือกปุ่ม เพิ่ม

  • การปรับให้เหมาะสม: บนแท็บ การปรับให้เหมาะสม คุณสามารถเปิดใช้งานและตั้งค่า นโยบาย การลองใหม่สําหรับงานได้ เมื่อเปิดใช้งาน ระบบจะลองงานใหม่หากล้มเหลว คุณยังสามารถตั้งค่าจํานวนสูงสุดของการลองใหม่และช่วงเวลาระหว่างการลองใหม่ สําหรับแต่ละความพยายามอีกครั้ง งานจะเริ่มต้นใหม่ ตรวจสอบให้แน่ใจว่างานเป็น นิจพล

    สกรีนช็อตแสดงตําแหน่งที่จะตั้งค่านโยบายการลองใหม่