หมายเหตุ
การเข้าถึงหน้านี้ต้องได้รับการอนุญาต คุณสามารถลอง ลงชื่อเข้าใช้หรือเปลี่ยนไดเรกทอรีได้
การเข้าถึงหน้านี้ต้องได้รับการอนุญาต คุณสามารถลองเปลี่ยนไดเรกทอรีได้
โมดูลนี้จะใช้เวลาประมาณ 25 นาทีในการดําเนินการให้เสร็จสมบูรณ์ คุณสร้างกระแสข้อมูล ใช้การแปลงและย้ายข้อมูลดิบจากตารางชั้นข้อมูลทองแดงลงในตารางชั้นข้อมูลทอง
ด้วยข้อมูลดิบที่โหลดลงในตารางเลคเฮ้าส์สีบรอนซ์ของคุณจากโมดูลสุดท้ายตอนนี้คุณสามารถเติมแต่งได้แล้ว คุณจะรวมเข้ากับตารางอื่นที่มีส่วนลดสําหรับผู้ขายแต่ละรายและการเดินทางของพวกเขาในวันใดวันหนึ่ง จากนั้นตารางเลคเฮ้าส์ทองคําสุดท้ายนี้จะถูกโหลดและพร้อมสําหรับการบริโภค
ขั้นตอนระดับสูงในกระแสข้อมูลคือ:
- รับข้อมูลดิบจากตาราง Lakehouse ที่สร้างขึ้นโดยกิจกรรมคัดลอกในโมดูล 1: สร้างไปป์ไลน์ด้วย Data Factory
- แปลงข้อมูลที่นําเข้าจากตารางเลคเฮ้าส์
- เชื่อมต่อกับไฟล์ CSV ที่มีข้อมูลส่วนลด
- แปลงข้อมูลส่วนลด
- รวมข้อมูลการเดินทางและส่วนลด
- โหลดคิวรีเอาต์พุตลงในตาราง Gold Lakehouse
ข้อกําหนดเบื้องต้น
โมดูล 1 ของชุดบทช่วยสอนนี้: สร้างไปป์ไลน์ด้วย Data Factory
รับข้อมูลจากตารางเลคเฮ้าส์
จากแถบด้านข้าง ให้เลือกพื้นที่ทํางานของคุณ เลือก รายการใหม่จากนั้น Dataflow Gen2 เพื่อสร้าง Dataflow Gen2 ใหม่
จากเมนูกระแสข้อมูลใหม่ เลือก รับข้อมูลจากนั้น เพิ่มเติม...
ค้นหาและเลือกตัวเชื่อมต่อ Lakehouse
กล่องโต้ตอบ เชื่อมต่อกับแหล่งข้อมูล
จะปรากฏขึ้น และการเชื่อมต่อใหม่จะถูกสร้างขึ้นโดยอัตโนมัติสําหรับคุณโดยยึดตามผู้ใช้ที่ลงชื่อเข้าใช้ในปัจจุบัน เลือก ถัดไป กล่องโต้ตอบ เลือกข้อมูล จะปรากฏขึ้น ใช้บานหน้าต่างนําทางเพื่อค้นหาเลคเฮาส์ที่คุณสร้างขึ้นสําหรับปลายทางในโมดูลก่อนหน้า อาจอยู่ภายใต้โฟลเดอร์พื้นที่ทํางานของฉัน เลือกตารางข้อมูล บรอนซ์ จากนั้น เลือก สร้าง
(ไม่บังคับ) เมื่อพื้นที่ทํางานของคุณมีข้อมูลแล้ว คุณสามารถตั้งค่าโปรไฟล์คอลัมน์ ข้อมูลได้ เนื่องจากจะเป็นประโยชน์สําหรับการทําโปรไฟล์ข้อมูล คุณสามารถใช้การแปลงที่เหมาะสมและกําหนดเป้าหมายค่าข้อมูลที่ถูกต้องตามนั้น
เมื่อต้องการทําเช่นนี้ เลือกตัวเลือก จากบานหน้าต่าง Ribbon จากนั้นเลือกตัวเลือกสามตัวแรกภายใต้ โปรไฟล์คอลัมน์ จากนั้นเลือก ตกลง
แปลงข้อมูลที่นําเข้าจากเลคเฮ้าส์
เลือกไอคอนชนิดข้อมูลในส่วนหัวของคอลัมน์ที่สอง
IpepPickupDatetime เพื่อแสดงเมนูดรอปดาวน์และเลือกชนิดข้อมูลจากเมนูเพื่อแปลงคอลัมน์จาก วันที่/เวลาเป็นประเภท วันที่
(ไม่บังคับ) บนแท็บ หน้าแรก ของริบบอนให้เลือกตัวเลือก เลือกคอลัมน์ จากกลุ่มจัดการคอลัมน์
(ไม่บังคับ) บนกล่องโต้ตอบ เลือกคอลัมน์ยกเลิกการเลือกบางคอลัมน์ที่แสดงไว้ที่นี่ จากนั้นเลือก ตกลง - vendorID
- lpepPickup วันที่เวลา
- ผู้โดยสารนับ
- การเดินทางระยะทาง
- picukup ลองจิจูด
- dropoff ละติจูด
- storeAndFwd ธง
- total จํานวนเงิน
เลือกเมนู storeAndFwdFlag ตัวกรองคอลัมน์และเรียงลําดับเมนูแบบดรอปดาวน์ (หากคุณเห็นคําเตือน รายการอาจไม่สมบูรณ์ให้เลือก โหลด เพิ่มเติมเพื่อดูข้อมูลทั้งหมด)
เลือก 'Y' เพื่อแสดงเฉพาะแถวที่ใช้ส่วนลด จากนั้นเลือก ตกลง
รอจนกว่าข้อมูลจะถูกกรอง
เลือกเมนู เรียงลําดับและตัวกรอง
IpepPickupDatetime จากนั้นเลือกตัวกรองวันที่ และเลือกตัวกรอง ระหว่าง... ที่ระบุสําหรับชนิดวันที่และวันที่/เวลาในกล่องโต้ตอบ กรองแถว ให้เลือกวันที่ระหว่าง 1 มกราคม 2015 และวันที่ 31 มกราคม 2015 จากนั้นเลือก ตกลง
รอจนกว่าข้อมูลจะถูกกรอง
เชื่อมต่อกับไฟล์ CSV ที่มีข้อมูลส่วนลด
ด้วยข้อมูลจากการเดินทางในสถานที่ เราต้องการโหลดข้อมูลที่ประกอบด้วยส่วนลดที่เกี่ยวข้องสําหรับแต่ละวันและ VendorID และเตรียมข้อมูลก่อนรวมเข้ากับข้อมูลการเดินทาง
จากแท็บ
หน้าแรก ในเมนูตัวแก้ไขกระแสข้อมูล ให้เลือกตัวเลือกรับข้อมูล จากนั้นเลือกข้อความ/CSV
ในกล่องโต้ตอบ เชื่อมต่อกับแหล่งข้อมูล ให้รายละเอียดต่อไปนี้:
- เส้นทางของไฟล์หรือ
- ประเภทการรับรองความถูกต้อง
- ไม่ระบุชื่อ
จากนั้นเลือก ถัดไป
- เส้นทางของไฟล์หรือ
ในกล่องโต้ตอบ ข้อมูลของแฟ้มแสดงตัวอย่าง
ให้เลือก สร้าง
แปลงข้อมูลส่วนลด
การตรวจทานข้อมูล เราเห็นว่าส่วนหัวปรากฏอยู่ในแถวแรก เลื่อนไปยังส่วนหัวโดยการเลือกเมนูบริบทของตารางที่ด้านบนซ้ายของพื้นที่เส้นตารางแสดงตัวอย่างเพื่อเลือก ใช้แถวแรกเป็นส่วนหัว
โน้ต
หลังจากเลื่อนระดับส่วนหัวแล้ว คุณสามารถดูขั้นตอนใหม่ที่เพิ่มลงในขั้นตอนที่กําหนดใช้ บานหน้าต่างที่ด้านบนของตัวแก้ไขกระแสข้อมูลเป็นชนิดข้อมูลคอลัมน์ของคุณ
คลิกขวาที่คอลัมน์ VendorID และจากเมนูบริบทที่แสดงขึ้น ให้เลือกตัวเลือก เปลี่ยนคอลัมน์อื่น ซึ่งช่วยให้คุณสามารถแปลงคอลัมน์เป็นคู่แอตทริบิวต์-ค่า โดยที่คอลัมน์กลายเป็นแถว
เมื่อยกเลิกการเลือกตารางแล้ว ให้เปลี่ยนชื่อคอลัมน์ แอตทริบิวต์
และ ค่า โดยการดับเบิลคลิกที่คอลัมน์เหล่านั้น และเปลี่ยน แอตทริบิวต์ เป็น วันที่ และ ค่า เป็น ส่วนลด
เปลี่ยนชนิดข้อมูลของคอลัมน์ วันที่ โดยการเลือกเมนูชนิดข้อมูลทางด้านซ้ายของชื่อคอลัมน์ แล้วเลือก วันที่
เลือกคอลัมน์ Discount จากนั้นเลือกแท็บ แปลง บนเมนู ในส่วนคอลัมน์ตัวเลข ให้เลือกการแปลงตัวเลขมาตรฐานจากเมนูย่อย แล้วเลือกหาร
ในกล่องโต้ตอบ แบ่ง
ให้ใส่ค่า 100
รวมข้อมูลการเดินทางและส่วนลด
ขั้นตอนถัดไปคือการรวมทั้งสองตารางให้เป็นตารางเดียวที่มีส่วนลดที่ควรใช้กับการเดินทางและผลรวมที่ปรับปรุงแล้ว
ก่อนอื่น สลับปุ่ม มุมมองแผนภาพ ที่ด้านล่างขวาของหน้าต่าง เพื่อให้คุณสามารถดูคิวรีทั้งสองของคุณ
เลือกคิวรีข้อมูลต้นฉบับของคุณ (ในตัวอย่างของเราเรียกว่า บรอนซ์) และบนแท็บ หน้าแรก ในเมนู รวม ให้เลือก ผสานคิวรี จากนั้น ผสานคิวรีเป็นใหม่
ในกล่องโต้ตอบผ สาน ให้เลือกการผสาน ด้านนอกด้านซ้าย จากนั้นเลือก Generated-NYC-Taxi-Green-Discounts จากดรอปดาวน์ ตารางด้านขวาสําหรับการผสาน จากนั้นเลือกไอคอน "หลอดไฟ" ที่ด้านบนขวาของกล่องโต้ตอบเพื่อดูการแมปคอลัมน์ที่แนะนําระหว่างสองตาราง
เลือกการแมปที่แนะนําเพื่อแมปคอลัมน์ VendorID และวันที่จากทั้งสองตาราง เมื่อมีการเพิ่มการทําแผนที่ทั้งสองส่วนหัวของคอลัมน์ที่ตรงกันจะถูกเน้นในแต่ละตาราง
ข้อความจะแสดงขึ้นเพื่อขอให้คุณรวมข้อมูลจากแหล่งข้อมูลหลายแหล่งเพื่อดูผลลัพธ์ เลือก ตกลง ในกล่องโต้ตอบ ผสาน
ในพื้นที่ตาราง ในขั้นต้น คุณจะเห็นคําเตือนว่า "ข้อมูลที่จําเป็นเกี่ยวกับความเป็นส่วนตัวของข้อมูล" เลือก ดําเนินการต่อ เพื่อจัดการคําเตือน
สําหรับบทช่วยสอนนี้ ให้เลือก ละเว้นการตรวจสอบระดับความเป็นส่วนตัวสําหรับเอกสารนี้ เนื่องจากนี่เป็นข้อมูลตัวอย่างที่ไม่มีข้อมูลที่ละเอียดอ่อน สําหรับแหล่งข้อมูลของคุณเอง ให้ตั้งค่าระดับความเป็นส่วนตัวที่เหมาะสมเพื่อปกป้องข้อมูลที่ละเอียดอ่อนของคุณ
เลือก บันทึก
ให้สังเกตว่าคิวรีใหม่ถูกสร้างขึ้นในมุมมองแผนภาพ ที่แสดงความสัมพันธ์ของคิวรีผสานใหม่กับคิวรีสองคิวรีที่คุณสร้างไว้ก่อนหน้านี้อย่างไร ดูที่บานหน้าต่างตารางของตัวแก้ไข เลื่อนไปทางด้านขวาของรายการคอลัมน์ ผสานคิวรี เพื่อดูคอลัมน์ใหม่ที่มีค่าตารางอยู่ นี่คือคอลัมน์ "สร้าง NYC Taxi-Green-Discounts" และชนิดของคอลัมน์ [ตาราง] ในส่วนหัวของคอลัมน์มีไอคอนที่มีลูกศรสองอันที่ไปในทิศทางตรงกันข้าม ช่วยให้คุณสามารถเลือกคอลัมน์จากตารางได้ ยกเลิกการเลือกคอลัมน์ทั้งหมดยกเว้นส่วนลด
จากนั้นเลือก ตกลง ด้วยค่าส่วนลดในขณะนี้ที่ระดับแถว เราสามารถสร้างคอลัมน์ใหม่เพื่อคํานวณจํานวนรวมหลังจากส่วนลดได้ เมื่อต้องการทําเช่นนั้น เลือกแท็บ
เพิ่มคอลัมน์ ที่ด้านบนของตัวแก้ไข และเลือก คอลัมน์แบบกําหนดเองจากกลุ่ม ทั่วไปของ
ในกล่องโต้ตอบ คอลัมน์แบบกําหนดเอง
คุณสามารถใช้ภาษาสูตร TotalAfterDiscountPower Query (หรือที่เรียกว่า M) เพื่อกําหนดวิธีการคํานวณคอลัมน์ใหม่ของคุณ ใส่สําหรับการ ชื่อคอลัมน์ใหม่ เลือก สกุลเงินสําหรับชนิดข้อมูล และระบุนิพจน์ M ต่อไปนี้สําหรับสูตรคอลัมน์แบบกําหนดเอง : ถ้า [totalAmount] > 0 แล้ว [totalAmount] * ( 1 -[ส่วนลด] ) อื่น [totalAmount]
จากนั้นเลือก ตกลง
เลือกคอลัมน์ TotalAfterDiscount ที่สร้างขึ้นใหม่ แล้วเลือกแท็บ แปลง ที่ด้านบนของหน้าต่างตัวแก้ไข บนกลุ่ม คอลัมน์ ตัวเลข
ให้เลือก ดรอปดาวน์ ปัดเศษ แล้วเลือกรอบ... ในกล่องโต้ตอบ Roundให้ใส่ 2 สําหรับจํานวนตําแหน่งทศนิยมจากนั้นเลือก ตกลง
เปลี่ยนชนิดข้อมูลของ IpepPickupDatetime จากวันที่ไปเป็นวันที่/เวลา
สุดท้าย ขยายการตั้งค่า คิวรี บานหน้าต่างจากด้านขวาของตัวแก้ไขถ้ายังไม่ได้ขยาย และเปลี่ยนชื่อคิวรีจาก ผสาน เป็น Output
โหลดคิวรีเอาต์พุตไปยังตารางใน Lakehouse
ด้วยคิวรีเอาต์พุตที่จัดเตรียมไว้อย่างสมบูรณ์และพร้อมข้อมูลพร้อมสําหรับการแสดงผลเราสามารถกําหนดปลายทางผลลัพธ์สําหรับคิวรีได้
เลือกคิวรีผสาน Output สร้างไว้ก่อนหน้านี้ จากนั้นเลือกแท็บ
Home ในตัวแก้ไข และเพิ่ม ปลายทางของข้อมูลจากการจัดกลุ่ม คิวรี่เพื่อเลือกปลายทาง Lakehouse
บน เชื่อมต่อกับปลายทางข้อมูล กล่องโต้ตอบ การเชื่อมต่อของคุณควรถูกเลือกแล้ว เลือก ถัดไปเพื่อดําเนินการต่อ
ในกล่องโต้ตอบ เลือกเป้าหมายปลายทาง เรียกดู Lakehouse ที่คุณต้องการโหลดข้อมูลและตั้งชื่อตารางใหม่ nyc_taxi_with_discountsจากนั้นเลือก ถัดไปอีกครั้ง
ในกล่องโต้ตอบ เลือกการตั้งค่าปลายทาง คุณสามารถใช้การตั้งค่าอัตโนมัติหรือยกเลิกการเลือกการตั้งค่าอัตโนมัติ และปล่อยให้ค่าเริ่มต้นเป็น วิธีการแทนที่การอัปเดต ให้ตรวจสอบอีกครั้งว่าคอลัมน์ของคุณได้รับการแมปอย่างถูกต้อง และเลือก บันทึกการตั้งค่า
ในหน้าต่างตัวแก้ไขหลัก ให้ยืนยันว่าคุณเห็นปลายทางผลลัพธ์ของคุณบนบานหน้าต่าง การตั้งค่าคิวรี สําหรับตารางเอาต์พุตภายใต้ ปลายทางข้อมูล แล้วเลือก บันทึกและเรียกใช้
สําคัญ
เมื่อกระแสข้อมูล Gen2 แรกถูกสร้างขึ้นในพื้นที่ทํางาน รายการ Lakehouse และ Warehouse ถูกเตรียมใช้งานพร้อมกับจุดสิ้นสุดการวิเคราะห์ SQL ที่เกี่ยวข้องและแบบจําลองความหมาย รายการเหล่านี้จะถูกแชร์โดยกระแสข้อมูลทั้งหมดในพื้นที่ทํางานและจําเป็นต้องใช้กระแสข้อมูล Gen2 เพื่อทํางาน ไม่ควรถูกลบและไม่ได้ตั้งใจที่จะใช้โดยตรงโดยผู้ใช้ รายการคือรายละเอียดการใช้งานของ กระแสข้อมูล Gen2 รายการจะไม่สามารถมองเห็นได้ในพื้นที่ทํางาน แต่อาจสามารถเข้าถึงได้ในประสบการณ์การใช้งานอื่น ๆ เช่น โน้ตบุ๊ค จุดสิ้นสุด SQL, Lakehouse และประสบการณ์การใช้งานคลังสินค้า คุณสามารถจดจํารายการได้จากคํานําหน้าในชื่อ คํานําหน้าของรายการคือ 'DataflowsStaging'
(ไม่บังคับ) บนหน้าพื้นที่ทํางาน คุณสามารถเปลี่ยนชื่อกระแสข้อมูลของคุณได้โดยการเลือกจุดไข่ปลาทางด้านขวาของชื่อกระแสข้อมูลที่ปรากฏขึ้นหลังจากที่คุณเลือกแถว และเลือกการตั้งค่า ในตัวอย่างนี้ เราจะเปลี่ยนชื่อเป็น nyc_taxi_with_discounts
เลือกไอคอนรีเฟรชสําหรับกระแสข้อมูลภายใต้จุดไข่ปลา ตัวเลือกเพิ่มเติม และเมื่อเสร็จสมบูรณ์ คุณควรเห็นตาราง Lakehouse ใหม่ของคุณที่สร้างขึ้นตามที่กําหนดค่าไว้ในการตั้งค่าปลายทางของข้อมูล
ตรวจสอบเลคเฮ้าส์ของคุณเพื่อดูตารางใหม่ที่โหลดไว้ที่นั่น
ขั้นตอนต่อไป
ดําเนินการต่อในส่วนถัดไปเพื่อรวมไปป์ไลน์ของคุณ
Module 3: ทํางานโดยอัตโนมัติและส่งการแจ้งเตือนด้วย Data Factory
