หมายเหตุ
การเข้าถึงหน้านี้ต้องได้รับการอนุญาต คุณสามารถลอง ลงชื่อเข้าใช้หรือเปลี่ยนไดเรกทอรีได้
การเข้าถึงหน้านี้ต้องได้รับการอนุญาต คุณสามารถลองเปลี่ยนไดเรกทอรีได้
คุณลักษณะ Power Query เช่น การผสานแบบคลุมเครือ ค่า คลัสเตอร์ และ การจัดกลุ่มแบบคลุมเครือ ใช้กลไกเดียวกันในการทํางานเป็นการจับคู่แบบคลุมเครือ
บทความนี้กล่าวถึงสถานการณ์ต่างๆ ที่สาธิตวิธีใช้ประโยชน์จากตัวเลือกที่การจับคู่แบบคลุมเครือมี โดยมีเป้าหมายเพื่อทําให้ 'คลุมเครือ' ชัดเจน
Note
แม้ว่าตัวเลือกค่าคลัสเตอร์จะพร้อมใช้งานเฉพาะใน Power Query Online กลไกที่แสดงในส่วนนี้ยังใช้กับการรวมแบบคลุมเครือและการจัดกลุ่มแบบคลุมเครือ
ปรับเกณฑ์ความคล้ายคลึงกัน
สถานการณ์ที่ดีที่สุดสําหรับการใช้อัลกอริทึมการจับคู่แบบคลุมเครือคือเมื่อสตริงข้อความทั้งหมดในคอลัมน์มีเฉพาะสตริงที่ต้องเปรียบเทียบและไม่มีส่วนประกอบเพิ่มเติม ตัวอย่างเช่น การเปรียบเทียบกับApplesให้คะแนนความคล้ายคลึงกันสูงกว่าการเปรียบเทียบกับ 4ppl3sApplesMy favorite fruit, by far, is Apples. I simply love them! .
เนื่องจากคําใน Apples สตริงที่สองเป็นเพียงส่วนเล็ก ๆ ของสตริงข้อความทั้งหมด การเปรียบเทียบนั้นจึงให้คะแนนความคล้ายคลึงกันต่ํากว่า
ตัวอย่างเช่น ชุดข้อมูลต่อไปนี้ประกอบด้วยคําตอบจากแบบสํารวจที่มีคําถามเพียงข้อเดียว ได้แก่ "ผลไม้ที่คุณชื่นชอบคืออะไร"
| ผลไม้ |
|---|
| บลูเบอร์รี่ |
| บลูเบอร์รี่เป็นสิ่งที่ดีที่สุด |
| สตรอเบอร์รี่ |
| สตรอเบอร์รี่ = <3 |
| แอปเปิ้ล |
| 'สเปลส์ |
| 4 พีแอล 3 วินาที |
| กล้วย |
| ผลไม้ที่ชื่นชอบคือกล้วย |
| บานาส |
| ผลไม้ที่ฉันชอบคือแอปเปิ้ล ฉันรักพวกเขา! |
แบบสํารวจมีกล่องข้อความเดียวเพื่อป้อนค่าและไม่มีการตรวจสอบความถูกต้อง
ตอนนี้คุณได้รับมอบหมายให้จัดกลุ่มค่า เมื่อต้องการทํางานนั้น ให้โหลดตารางผลไม้ก่อนหน้านี้ลงใน Power Query เลือกคอลัมน์ จากนั้นเลือกตัวเลือก ค่าคลัสเตอร์ ในแท็บ เพิ่มคอลัมน์ ใน Ribbon
กล่องโต้ตอบค่า คลัสเตอร์ จะปรากฏขึ้น ซึ่งคุณสามารถระบุชื่อของคอลัมน์ใหม่ได้ ตั้งชื่อคอลัมน์ใหม่นี้คลัสเตอร์ แล้วเลือก ตกลง
โดยค่าเริ่มต้น Power Query จะใช้เกณฑ์ความคล้ายคลึงกัน 0.8 (หรือ 80%) ค่าต่ําสุด 0.00 ทําให้ค่าทั้งหมดที่มีระดับความคล้ายคลึงกันตรงกัน และค่าสูงสุด 1.00 จะอนุญาตให้ตรงกันทุกประการเท่านั้น "การจับคู่แบบตรงทั้งหมด" ที่คลุมเครืออาจละเว้นความแตกต่าง เช่น ตัวพิมพ์ใหญ่ ลําดับคํา และเครื่องหมายวรรคตอน ผลลัพธ์ของการดําเนินการก่อนหน้านี้จะให้ตารางต่อไปนี้พร้อมคอลัมน์ คลัสเตอร์ ใหม่
ในขณะที่การจัดกลุ่มเสร็จสิ้น แต่ก็ไม่ได้ให้ผลลัพธ์ที่คาดหวังสําหรับทุกแถว แถวที่สอง (2) ยังคงมีค่า Blue berries are simply the bestแต่ควรจัดกลุ่มเป็น Blueberriesและสิ่งที่คล้ายกันจะเกิดขึ้นกับสตริงStrawberries = <3ข้อความ , และ fav fruit is bananasMy favorite fruit, by far, is Apples. I simply love them!.
เมื่อต้องการระบุว่าอะไรเป็นสาเหตุของการจัดกลุ่มนี้ ให้ดับเบิลคลิกที่ ค่าคลัสเตอร์ ในแผง ขั้นตอน ที่ใช้ เพื่อนํากล่องโต้ตอบ ค่าคลัสเตอร์ กลับมา ภายในกล่องโต้ตอบนี้ ให้ขยายตัวเลือกคลัสเตอร์คลุมเครือ เปิดใช้งานตัวเลือก แสดงคะแนนความคล้ายคลึงกัน แล้วเลือก ตกลง
การเปิดใช้งานตัวเลือก แสดงคะแนนความคล้ายคลึงกัน จะสร้างคอลัมน์ใหม่ในตารางของคุณ คอลัมน์นี้แสดงคะแนนความคล้ายคลึงกันที่แน่นอนระหว่างคลัสเตอร์ที่กําหนดไว้และค่าเดิม
เมื่อตรวจสอบอย่างใกล้ชิด Power Query ไม่พบค่าอื่นใดในเกณฑ์ความคล้ายคลึงกันสําหรับสตริงBlue berries are simply the bestข้อความ ,Strawberries = <3, และ fav fruit is bananasMy favorite fruit, by far, is Apples. I simply love them!.
กลับไปที่กล่องโต้ตอบค่าคลัสเตอร์อีกครั้งโดยดับเบิลคลิกที่ค่าคลัสเตอร์ในแผงขั้นตอนที่ใช้ เปลี่ยนเกณฑ์ความคล้ายคลึงกันจาก 0.8 เป็น 0.6 แล้วเลือก ตกลง
การเปลี่ยนแปลงนี้ทําให้คุณเข้าใกล้ผลลัพธ์ที่คุณต้องการมากขึ้น ยกเว้นสตริง My favorite fruit, by far, is Apples. I simply love them!ข้อความ เมื่อคุณเปลี่ยนค่า เกณฑ์ความคล้ายคลึงกัน จาก 0.8 เป็น 0.6 Power Query สามารถใช้ค่าที่มีคะแนนความคล้ายคลึงกันที่เริ่มต้นจาก 0.6 จนถึง 1
Note
Power Query ใช้ค่าที่ใกล้เคียงกับเกณฑ์มากที่สุดเพื่อกําหนดคลัสเตอร์เสมอ เกณฑ์กําหนดขีดจํากัดล่างของคะแนนความคล้ายคลึงกันที่ยอมรับได้ในการกําหนดค่าให้กับคลัสเตอร์
คุณสามารถลองอีกครั้งโดยเปลี่ยน คะแนนความคล้ายคลึงกัน จาก 0.6 เป็นตัวเลขที่ต่ํากว่าจนกว่าคุณจะได้ผลลัพธ์ที่คุณต้องการ ในกรณีนี้ ให้เปลี่ยนคะแนนความคล้ายคลึงกันเป็น 0.5 การเปลี่ยนแปลงนี้ให้ผลลัพธ์ที่แน่นอนตามที่คุณคาดหวังด้วยสตริงMy favorite fruit, by far, is Apples. I simply love them!ข้อความที่กําหนดให้กับคลัสเตอร์Apples
Note
ปัจจุบัน เฉพาะคุณลักษณะ ค่าคลัสเตอร์ ใน Power Query Online เท่านั้นที่มีคอลัมน์ใหม่ที่มีคะแนนความคล้ายคลึงกัน
ข้อควรพิจารณาพิเศษสําหรับตารางการแปลง
ตารางการแปลงช่วยให้คุณแมปค่าจากคอลัมน์ของคุณกับค่าใหม่ก่อนที่จะใช้อัลกอริทึมการจับคู่แบบคลุมเครือ
ตัวอย่างบางส่วนของวิธีการใช้ตารางการแปลง:
สําคัญ
เมื่อใช้ตารางการแปลง คะแนนความคล้ายคลึงกันสูงสุดสําหรับค่าจากตารางการแปลงคือ 0.95 บทลงโทษโดยเจตนาที่ 0.05 นี้ใช้เพื่อแยกแยะว่าค่าเดิมจากคอลัมน์ดังกล่าวไม่เท่ากับค่าที่เปรียบเทียบตั้งแต่มีการแปลงเกิดขึ้น
สําหรับสถานการณ์ที่คุณต้องการแมปค่าของคุณก่อน แล้วจึงทําการจับคู่แบบคลุมเครือโดยไม่มีบทลงโทษ 0.05 เราขอแนะนําให้คุณแทนที่ค่าจากคอลัมน์ของคุณ แล้วทําการจับคู่แบบคลุมเครือ