แชร์ผ่าน


แปลงข้อมูลโดยการเรียกใช้กิจกรรม Azure Databricks

กิจกรรม Azure Databricks ใน Data Factory สําหรับ Microsoft Fabric ช่วยให้คุณสามารถประสานงาน Azure Databricks ต่อไปนี้:

  • โน้ตบุ๊ก
  • เหยือก
  • หลาม
  • งาน

บทความนี้ให้คําแนะนําทีละขั้นตอนที่อธิบายวิธีการสร้างกิจกรรม Azure Databricks โดยใช้อินเทอร์เฟซ Data Factory

ข้อกำหนดเบื้องต้น

เมื่อต้องการเริ่มต้นใช้งาน คุณต้องดําเนินการข้อกําหนดเบื้องต้นต่อไปนี้ให้เสร็จสมบูรณ์:

  • บัญชีผู้เช่าที่มีการสมัครใช้งานที่ใช้งานอยู่ สร้างบัญชีฟรี
  • พื้นที่ทํางานจะถูกสร้างขึ้น

การกําหนดค่ากิจกรรม Azure Databricks

เมื่อต้องการใช้กิจกรรม Azure Databricks ในไปป์ไลน์ ให้ทําตามขั้นตอนต่อไปนี้:

การกําหนดค่าการเชื่อมต่อ

  1. สร้างไปป์ไลน์ใหม่ในพื้นที่ทํางานของคุณ

  2. เลือก เพิ่มกิจกรรมไปป์ไลน์ และค้นหา Azure Databricks

    สกรีนช็อตของหน้าเริ่มต้น ไปป์ไลน์ Fabric และกิจกรรม Azure Databricks ถูกเน้น

  3. อีกวิธีหนึ่งคือ คุณสามารถค้นหา Azure Databricks ในบานหน้าต่างกิจกรรมไปป์ไลน์ และเลือกเพื่อเพิ่มลงในพื้นที่ทํางานของไปป์ไลน์

    สกรีนช็อตของ Fabric UI ที่มีบานหน้าต่างกิจกรรมและกิจกรรม Azure Databricks ที่เน้น

  4. เลือกกิจกรรม Azure Databricks ใหม่บนพื้นที่ทํางานถ้ายังไม่ได้เลือกไว้

    สกรีนช็อตแสดงแท็บการตั้งค่าทั่วไปของกิจกรรม Azure Databricks

โปรดดูคําแนะนําการตั้งค่าทั่วไปเพื่อกําหนดค่าแท็บ การตั้งค่าทั่วไป

การกําหนดค่าคลัสเตอร์

  1. เลือกแท็บคลัสเตอร์ จากนั้นคุณสามารถเลือกที่มีอยู่ หรือสร้างการเชื่อมต่อ Azure Databricks ใหม่ แล้วเลือกคลัสเตอร์งานใหม่ คลัสเตอร์แบบโต้ตอบที่มีอยู่ หรือกลุ่มอินสแตนซ์ที่มีอยู่

  2. ขึ้นอยู่กับสิ่งที่คุณเลือกสําหรับคลัสเตอร์ กรอกข้อมูลในเขตข้อมูลสอดคล้องกันตามที่แสดง

    • ภายใต้คลัสเตอร์งานใหม่และกลุ่มอินสแตนซ์ที่มีอยู่ คุณยังสามารถกําหนดค่าจํานวนของผู้ปฏิบัติงานและเปิดใช้งานอินสแตนซ์สปอต
  3. คุณยังสามารถระบุการตั้งค่าคลัสเตอร์อื่นๆ เช่น นโยบายคลัสเตอร์ การกําหนดค่า Spark ตัว แปรสภาพแวดล้อม Spark และ แท็กแบบกําหนดเอง ตามที่จําเป็นสําหรับคลัสเตอร์ที่คุณกําลังเชื่อมต่อ นอกจากนี้ยังสามารถเพิ่มสคริปต์เริ่มต้น Databricks และ เส้นทาง ปลายทางบันทึกคลัสเตอร์ภายใต้การตั้งค่าคลัสเตอร์เพิ่มเติมได้

    หมายเหตุ

    คุณสมบัติคลัสเตอร์ขั้นสูงและนิพจน์ไดนามิกทั้งหมดที่ได้รับการสนับสนุนในบริการที่เชื่อมโยง Azure Data Factory Azure Databricks ยังได้รับการสนับสนุนในกิจกรรม Azure Databricks ใน Microsoft Fabric ภายใต้ส่วน 'การกําหนดค่าคลัสเตอร์เพิ่มเติม' ใน UI เนื่องจากคุณสมบัติเหล่านี้รวมอยู่ใน UI ของกิจกรรมแล้ว จึงสามารถใช้กับนิพจน์ (เนื้อหาแบบไดนามิก) ได้โดยไม่ต้องใช้ข้อกําหนด JSON ขั้นสูง

    สกรีนช็อตแสดงแท็บการตั้งค่าคลัสเตอร์ของกิจกรรม Azure Databricks

  4. กิจกรรม Azure Databricks ในขณะนี้ยังสนับสนุน นโยบายคลัสเตอร์และการสนับสนุนแค็ตตาล็อก Unity

    • ภายใต้การตั้งค่าขั้นสูง คุณสามารถเลือก นโยบายคลัสเตอร์ เพื่อให้คุณสามารถระบุการกําหนดค่าคลัสเตอร์ที่อนุญาตได้
    • นอกจากนี้ ภายใต้การตั้งค่าขั้นสูง คุณสามารถกําหนดค่า โหมดการเข้าถึงแค็ตตาล็อก Unity เพื่อเพิ่มความปลอดภัยได้ ชนิดของโหมดการเข้าถึงที่พร้อมใช้งานคือ:
      • โหมด การเข้าถึงผู้ใช้เดี่ยว โหมดนี้ถูกออกแบบมาสําหรับสถานการณ์ที่แต่ละคลัสเตอร์ใช้โดยผู้ใช้คนเดียว ตรวจสอบให้แน่ใจว่าการเข้าถึงข้อมูลภายในคลัสเตอร์ถูกจํากัดให้ผู้ใช้รายนั้นเท่านั้น โหมดนี้มีประโยชน์สําหรับงานที่จําเป็นต้องแยกและการจัดการข้อมูลแต่ละรายการ
      • โหมด การเข้าถึงที่ใช้ร่วมกันในโหมดนี้ ผู้ใช้หลายคนสามารถเข้าถึงคลัสเตอร์เดียวกันได้ ซึ่งจะรวมการกํากับดูแลข้อมูลของ Unity Catalog เข้ากับรายการควบคุมการเข้าถึงตารางเดิม (ACL) โหมดนี้ช่วยให้สามารถทํางานร่วมกันในการเข้าถึงข้อมูลในขณะที่ยังคงกํากับดูแลและโปรโตคอลความปลอดภัย อย่างไรก็ตาม มีข้อจํากัดบางอย่าง เช่น ไม่สนับสนุน Databricks Runtime ML งาน Spark-submit และ Spark APIs และ UDF เฉพาะ
      • โหมดไม่มีการเข้าถึง โหมดนี้จะปิดใช้งานการโต้ตอบกับ Unity Catalog ซึ่งหมายความว่าคลัสเตอร์จะไม่มีสิทธิ์เข้าถึงข้อมูลที่จัดการโดย Unity Catalog โหมดนี้มีประโยชน์สําหรับปริมาณงานที่ไม่ต้องการคุณลักษณะการกํากับดูแลของ Unity Catalog

    สกรีนช็อตแสดงรหัสนโยบายและการสนับสนุนแค็ตตาล็อก Unity ภายใต้แท็บการตั้งค่าคลัสเตอร์ของกิจกรรม Azure Databricks

การกําหนดค่า

การเลือกแท็บการตั้งค่า คุณสามารถเลือกระหว่าง 4 ตัวเลือกที่ ประเภท Azure Databricks ที่คุณต้องการจัดลําดับ

สกรีนช็อตแสดงแท็บการตั้งค่าของกิจกรรม Azure Databricks

การประยุกต์ประเภทสมุดบันทึกในกิจกรรม Azure Databricks:

ภายใต้แท็บ การตั้งค่า คุณสามารถเลือก ปุ่มตัวเลือก สมุดบันทึก เพื่อเรียกใช้สมุดบันทึกได้ คุณต้องระบุเส้นทางสมุดบันทึกที่จะดําเนินการบน Azure Databricks พารามิเตอร์พื้นฐานเพิ่มเติมที่จะส่งผ่านไปยังสมุดบันทึก และไลบรารีเพิ่มเติมใดๆ ที่จะติดตั้งบนคลัสเตอร์เพื่อดําเนินการงาน

สกรีนช็อตแสดงประเภทสมุดบันทึกของกิจกรรม Azure Databricks

การจัดเรียงชนิด Jar ในกิจกรรม Azure Databricks:

ภายใต้ แท็บการตั้งค่า คุณสามารถเลือก ปุ่มตัวเลือก Jar เพื่อเรียกใช้ Jar ได้ คุณต้องระบุชื่อคลาสที่จะดําเนินการบน Azure Databricks พารามิเตอร์พื้นฐานเสริมที่จะส่งผ่านไปยัง Jar และไลบรารีเพิ่มเติมใดๆ ที่จะติดตั้งบนคลัสเตอร์เพื่อดําเนินการงาน

สกรีนช็อตแสดงประเภท Jar ของกิจกรรม Azure Databricks

การประสานประเภท Python ในกิจกรรม Azure Databricks:

ภายใต้แท็บ การตั้งค่า คุณสามารถเลือกปุ่มตัวเลือก Python เพื่อเรียกใช้ไฟล์ Python ได้ คุณต้องระบุเส้นทางภายใน Azure Databricks ไปยังไฟล์ Python ที่จะดําเนินการ พารามิเตอร์พื้นฐานเสริมที่จะส่งผ่าน และไลบรารีเพิ่มเติมใดๆ ที่จะติดตั้งบนคลัสเตอร์เพื่อดําเนินการงาน

สกรีนช็อตแสดงประเภท Python ของกิจกรรม Azure Databricks

การประสานชนิดงานในกิจกรรม Azure Databricks:

ภายใต้แท็บ การตั้งค่า คุณสามารถเลือกปุ่มตัวเลือก Job เพื่อเรียกใช้ งาน Databricks ได้ คุณต้องระบุ งาน โดยใช้ดรอปดาวน์ที่จะดําเนินการบน Azure Databricks และพารามิเตอร์ งาน เสริมใดๆ ที่จะส่งผ่าน คุณสามารถเรียกใช้งานแบบไร้เซิร์ฟเวอร์ด้วยตัวเลือกนี้

สกรีนช็อตที่แสดงประเภทงานของกิจกรรม Azure Databricks

ไลบรารีที่สนับสนุนสําหรับกิจกรรม Azure Databricks

ในคําจํากัดความกิจกรรม Databricks ข้างต้น คุณสามารถระบุประเภทไลบรารีเหล่านี้ได้: jar, ไข่, whl, maven, pypi, cran

สําหรับข้อมูลเพิ่มเติม ให้ดูเอกสาร ประกอบ Databricks สําหรับชนิดไลบรารี

การส่งผ่านพารามิเตอร์ระหว่างกิจกรรม Azure Databricks และไปป์ไลน์

คุณสามารถส่งผ่านพารามิเตอร์ไปยังสมุดบันทึกได้โดยใช้คุณสมบัติ ของ baseParameters ในกิจกรรม Databricks

สกรีนช็อตแสดงวิธีการส่งผ่านพารามิเตอร์พื้นฐานในกิจกรรม Azure Databricks

ในบางครั้ง คุณอาจต้องส่งคืนค่าจากสมุดบันทึกไปยังบริการสําหรับโฟลว์การควบคุมหรือใช้ในกิจกรรมดาวน์สตรีม (โดยมีขีดจํากัดขนาด 2 MB)

  1. ตัวอย่างเช่น ในสมุดบันทึกของคุณ คุณอาจเรียก dbutils.notebook.exit("returnValue") และ "returnValue" ที่สอดคล้องกันจะถูกส่งกลับไปยังบริการ

  2. คุณสามารถใช้เอาต์พุตในบริการโดยใช้นิพจน์ เช่น@{activity('databricks activity name').output.runOutput}

บันทึกและเรียกใช้หรือจัดกําหนดการไปป์ไลน์

หลังจากที่คุณกําหนดค่ากิจกรรมอื่น ๆ ที่จําเป็นสําหรับไปป์ไลน์ของคุณแล้ว ให้สลับไปยัง แท็บ หน้าแรก ที่ด้านบนของตัวแก้ไขไปป์ไลน์และเลือกปุ่มบันทึกเพื่อบันทึกไปป์ไลน์ของคุณ เลือก เรียกใช้ เพื่อเรียกใช้โดยตรง หรือ กําหนดเวลา เพื่อกําหนดเวลา คุณยังสามารถดูประวัติการเรียกใช้ที่นี่ หรือกําหนดค่าการตั้งค่าอื่นๆ ได้

สกรีนช็อตแสดงวิธีการบันทึกและเรียกใช้ไปป์ไลน์

วิธีการตรวจสอบการเรียกใช้ไปป์ไลน์