แชร์ผ่าน


การจับคู่แบบคลุมเครือทํางานอย่างไรใน Power Query

คุณลักษณะ Power Query เช่น การผสานแบบคลุมเครือ ค่า คลัสเตอร์ และ การจัดกลุ่มแบบคลุมเครือ ใช้กลไกเดียวกันในการทํางานเป็นการจับคู่แบบคลุมเครือ

บทความนี้กล่าวถึงสถานการณ์ต่างๆ ที่สาธิตวิธีใช้ประโยชน์จากตัวเลือกที่การจับคู่แบบคลุมเครือมี โดยมีเป้าหมายเพื่อทําให้ 'คลุมเครือ' ชัดเจน

Note

แม้ว่าตัวเลือกค่าคลัสเตอร์จะพร้อมใช้งานเฉพาะใน Power Query Online กลไกที่แสดงในส่วนนี้ยังใช้กับการรวมแบบคลุมเครือและการจัดกลุ่มแบบคลุมเครือ

ปรับเกณฑ์ความคล้ายคลึงกัน

สถานการณ์ที่ดีที่สุดสําหรับการใช้อัลกอริทึมการจับคู่แบบคลุมเครือคือเมื่อสตริงข้อความทั้งหมดในคอลัมน์มีเฉพาะสตริงที่ต้องเปรียบเทียบและไม่มีส่วนประกอบเพิ่มเติม ตัวอย่างเช่น การเปรียบเทียบกับApplesให้คะแนนความคล้ายคลึงกันสูงกว่าการเปรียบเทียบกับ 4ppl3sApplesMy favorite fruit, by far, is Apples. I simply love them! .

เนื่องจากคําใน Apples สตริงที่สองเป็นเพียงส่วนเล็ก ๆ ของสตริงข้อความทั้งหมด การเปรียบเทียบนั้นจึงให้คะแนนความคล้ายคลึงกันต่ํากว่า

ตัวอย่างเช่น ชุดข้อมูลต่อไปนี้ประกอบด้วยคําตอบจากแบบสํารวจที่มีคําถามเพียงข้อเดียว ได้แก่ "ผลไม้ที่คุณชื่นชอบคืออะไร"

ผลไม้
บลูเบอร์รี่
บลูเบอร์รี่เป็นสิ่งที่ดีที่สุด
สตรอเบอร์รี่
สตรอเบอร์รี่ = <3
แอปเปิ้ล
'สเปลส์
4 พีแอล 3 วินาที
กล้วย
ผลไม้ที่ชื่นชอบคือกล้วย
บานาส
ผลไม้ที่ฉันชอบคือแอปเปิ้ล ฉันรักพวกเขา!

แบบสํารวจมีกล่องข้อความเดียวเพื่อป้อนค่าและไม่มีการตรวจสอบความถูกต้อง

ตอนนี้คุณได้รับมอบหมายให้จัดกลุ่มค่า เมื่อต้องการทํางานนั้น ให้โหลดตารางผลไม้ก่อนหน้านี้ลงใน Power Query เลือกคอลัมน์ จากนั้นเลือกตัวเลือก ค่าคลัสเตอร์ ในแท็บ เพิ่มคอลัมน์ ใน Ribbon

ภาพหน้าจอพร้อมตัวเลือกค่าคลัสเตอร์ภายใน เพิ่มคอลัมน์ แท็บใน Ribbon ที่มีอยู่หลังจากเลือกคอลัมน์ผลไม้จากตาราง

กล่องโต้ตอบค่า คลัสเตอร์ จะปรากฏขึ้น ซึ่งคุณสามารถระบุชื่อของคอลัมน์ใหม่ได้ ตั้งชื่อคอลัมน์ใหม่นี้คลัสเตอร์ แล้วเลือก ตกลง

ภาพหน้าจอของกล่องโต้ตอบค่าคลัสเตอร์หลังจากเลือกคอลัมน์ผลไม้ ฟิลด์ชื่อคอลัมน์ใหม่ถูกตั้งค่าเป็น คลัสเตอร์

โดยค่าเริ่มต้น Power Query จะใช้เกณฑ์ความคล้ายคลึงกัน 0.8 (หรือ 80%) ค่าต่ําสุด 0.00 ทําให้ค่าทั้งหมดที่มีระดับความคล้ายคลึงกันตรงกัน และค่าสูงสุด 1.00 จะอนุญาตให้ตรงกันทุกประการเท่านั้น "การจับคู่แบบตรงทั้งหมด" ที่คลุมเครืออาจละเว้นความแตกต่าง เช่น ตัวพิมพ์ใหญ่ ลําดับคํา และเครื่องหมายวรรคตอน ผลลัพธ์ของการดําเนินการก่อนหน้านี้จะให้ตารางต่อไปนี้พร้อมคอลัมน์ คลัสเตอร์ ใหม่

สกรีนช็อตของผลลัพธ์เริ่มต้นที่มีคอลัมน์คลัสเตอร์ใหม่หลังจากดําเนินการค่าคลัสเตอร์ในคอลัมน์ผลไม้ด้วยค่าเริ่มต้น

ในขณะที่การจัดกลุ่มเสร็จสิ้น แต่ก็ไม่ได้ให้ผลลัพธ์ที่คาดหวังสําหรับทุกแถว แถวที่สอง (2) ยังคงมีค่า Blue berries are simply the bestแต่ควรจัดกลุ่มเป็น Blueberriesและสิ่งที่คล้ายกันจะเกิดขึ้นกับสตริงStrawberries = <3ข้อความ , และ fav fruit is bananasMy favorite fruit, by far, is Apples. I simply love them!.

เมื่อต้องการระบุว่าอะไรเป็นสาเหตุของการจัดกลุ่มนี้ ให้ดับเบิลคลิกที่ ค่าคลัสเตอร์ ในแผง ขั้นตอน ที่ใช้ เพื่อนํากล่องโต้ตอบ ค่าคลัสเตอร์ กลับมา ภายในกล่องโต้ตอบนี้ ให้ขยายตัวเลือกคลัสเตอร์คลุมเครือ เปิดใช้งานตัวเลือก แสดงคะแนนความคล้ายคลึงกัน แล้วเลือก ตกลง

ภาพหน้าจอของหน้าต่างค่าคลัสเตอร์ที่มีตัวเลือกคลัสเตอร์คลุมเครือแสดงขึ้นและเลือกตัวเลือกแสดงคะแนนความคล้ายคลึงกัน

การเปิดใช้งานตัวเลือก แสดงคะแนนความคล้ายคลึงกัน จะสร้างคอลัมน์ใหม่ในตารางของคุณ คอลัมน์นี้แสดงคะแนนความคล้ายคลึงกันที่แน่นอนระหว่างคลัสเตอร์ที่กําหนดไว้และค่าเดิม

สกรีนช็อตของตารางที่มีคอลัมน์คะแนนความคล้ายคลึงกันใหม่ชื่อ Fruit_Cluster_Similarity

เมื่อตรวจสอบอย่างใกล้ชิด Power Query ไม่พบค่าอื่นใดในเกณฑ์ความคล้ายคลึงกันสําหรับสตริงBlue berries are simply the bestข้อความ ,Strawberries = <3, และ fav fruit is bananasMy favorite fruit, by far, is Apples. I simply love them!.

กลับไปที่กล่องโต้ตอบค่าคลัสเตอร์อีกครั้งโดยดับเบิลคลิกที่ค่าคลัสเตอร์ในแผงขั้นตอนที่ใช้ เปลี่ยนเกณฑ์ความคล้ายคลึงกันจาก 0.8 เป็น 0.6 แล้วเลือก ตกลง

ภาพหน้าจอของกล่องโต้ตอบค่าคลัสเตอร์พร้อมตัวเลือกคลัสเตอร์คลุมเครือที่แสดงและเกณฑ์ความคล้ายคลึงกันตั้งไว้ที่ 0.6

การเปลี่ยนแปลงนี้ทําให้คุณเข้าใกล้ผลลัพธ์ที่คุณต้องการมากขึ้น ยกเว้นสตริง My favorite fruit, by far, is Apples. I simply love them!ข้อความ เมื่อคุณเปลี่ยนค่า เกณฑ์ความคล้ายคลึงกัน จาก 0.8 เป็น 0.6 Power Query สามารถใช้ค่าที่มีคะแนนความคล้ายคลึงกันที่เริ่มต้นจาก 0.6 จนถึง 1

ภาพหน้าจอของตารางหลังจากกําหนดเกณฑ์ความคล้ายคลึงกันที่ 0.6 ด้วยค่าใหม่ที่กําหนดในคอลัมน์คลัสเตอร์

Note

Power Query ใช้ค่าที่ใกล้เคียงกับเกณฑ์มากที่สุดเพื่อกําหนดคลัสเตอร์เสมอ เกณฑ์กําหนดขีดจํากัดล่างของคะแนนความคล้ายคลึงกันที่ยอมรับได้ในการกําหนดค่าให้กับคลัสเตอร์

คุณสามารถลองอีกครั้งโดยเปลี่ยน คะแนนความคล้ายคลึงกัน จาก 0.6 เป็นตัวเลขที่ต่ํากว่าจนกว่าคุณจะได้ผลลัพธ์ที่คุณต้องการ ในกรณีนี้ ให้เปลี่ยนคะแนนความคล้ายคลึงกันเป็น 0.5 การเปลี่ยนแปลงนี้ให้ผลลัพธ์ที่แน่นอนตามที่คุณคาดหวังด้วยสตริงMy favorite fruit, by far, is Apples. I simply love them!ข้อความที่กําหนดให้กับคลัสเตอร์Apples

ภาพหน้าจอของตารางที่มีค่าที่ถูกต้องทั้งหมดในคอลัมน์คลัสเตอร์

Note

ปัจจุบัน เฉพาะคุณลักษณะ ค่าคลัสเตอร์ ใน Power Query Online เท่านั้นที่มีคอลัมน์ใหม่ที่มีคะแนนความคล้ายคลึงกัน

ข้อควรพิจารณาพิเศษสําหรับตารางการแปลง

ตารางการแปลงช่วยให้คุณแมปค่าจากคอลัมน์ของคุณกับค่าใหม่ก่อนที่จะใช้อัลกอริทึมการจับคู่แบบคลุมเครือ

ตัวอย่างบางส่วนของวิธีการใช้ตารางการแปลง:

สําคัญ

เมื่อใช้ตารางการแปลง คะแนนความคล้ายคลึงกันสูงสุดสําหรับค่าจากตารางการแปลงคือ 0.95 บทลงโทษโดยเจตนาที่ 0.05 นี้ใช้เพื่อแยกแยะว่าค่าเดิมจากคอลัมน์ดังกล่าวไม่เท่ากับค่าที่เปรียบเทียบตั้งแต่มีการแปลงเกิดขึ้น

สําหรับสถานการณ์ที่คุณต้องการแมปค่าของคุณก่อน แล้วจึงทําการจับคู่แบบคลุมเครือโดยไม่มีบทลงโทษ 0.05 เราขอแนะนําให้คุณแทนที่ค่าจากคอลัมน์ของคุณ แล้วทําการจับคู่แบบคลุมเครือ