แชร์ผ่าน


การสุ่มตัวอย่างบรรทัดความหนาแน่นสูงใน Power BI

อัลกอริทึมการสุ่มตัวอย่างใน Power BI ปรับปรุงวิชวลที่สุ่มตัวอย่างข้อมูลความหนาแน่นสูง ตัวอย่างเช่น คุณอาจสร้างแผนภูมิเส้นจากผลการขายของร้านค้าปลีก โดยแต่ละร้านค้าจะมีใบเสร็จรับเงินมากกว่า 10,000 รายการในแต่ละปี แผนภูมิเส้นของข้อมูลการขายดังกล่าวจะสุ่มตัวอย่างข้อมูลจากข้อมูลสําหรับแต่ละร้านค้า และสร้างแผนภูมิเส้นหลายชุดซึ่งแสดงถึงข้อมูลพื้นฐาน ตรวจสอบให้แน่ใจว่าได้เลือกการแสดงข้อมูลที่มีความหมายเพื่อแสดงให้เห็นว่ายอดขายแตกต่างกันอย่างไรเมื่อเวลาผ่านไป แนวทางปฏิบัตินี้เป็นเรื่องปกติในการแสดงภาพข้อมูลความหนาแน่นสูง รายละเอียดของการสุ่มตัวอย่างข้อมูลความหนาแน่นสูงได้อธิบายไว้ในบทความนี้

สกรีนช็อตของแผนภูมิเส้นที่แสดงข้อมูลการสุ่มตัวอย่างความหนาแน่นสูง

Note

อัลกอริทึมการสุ่มตัวอย่างความหนาแน่นสูงที่อธิบายไว้ในบทความนี้พร้อมใช้งานทั้งใน Power BI Desktop และบริการของ Power BI

การสุ่มตัวอย่างเส้นความหนาแน่นสูงทํางานอย่างไร

ก่อนหน้านี้ Power BI ได้เลือกคอลเลกชันของจุดข้อมูลตัวอย่างในช่วงทั้งหมดของข้อมูลพื้นฐานในลักษณะที่กําหนด ตัวอย่างเช่น ด้วยข้อมูลความหนาแน่นสูงบนวิชวลที่ครอบคลุมหนึ่งปีปฏิทิน อาจมีจุดข้อมูลตัวอย่าง 350 จุดที่แสดงในวิชวล ซึ่งแต่ละจุดถูกเลือกเพื่อให้แน่ใจว่ามีการแสดงข้อมูลทั้งหมดในวิชวล เพื่อช่วยให้เข้าใจว่าสิ่งนี้เกิดขึ้นได้อย่างไร ให้จินตนาการถึงการพล็อตราคาหุ้นในช่วงเวลาหนึ่งปีและเลือกจุดข้อมูล 365 จุดเพื่อสร้างวิชวลแผนภูมิเส้น นั่นคือจุดข้อมูลหนึ่งจุดในแต่ละวัน

ในสถานการณ์นั้น ราคาหุ้นมีค่ามากมายในแต่ละวัน แน่นอนว่ามีจุดสูงสุดและต่ําสุดรายวัน แต่สิ่งเหล่านี้สามารถเกิดขึ้นได้ตลอดเวลาในระหว่างวันที่ตลาดหุ้นเปิดทําการ สําหรับการสุ่มตัวอย่างเส้นความหนาแน่นสูง หากตัวอย่างข้อมูลพื้นฐานถูกนํามาที่เวลา 10:30 น. และ 12:00 น. ในแต่ละวัน คุณจะได้รับสแนปช็อตตัวแทนของข้อมูลพื้นฐาน เช่น ราคา ณ เวลา 10:30 น. และ 12:00 น. อย่างไรก็ตาม สแนปช็อตอาจไม่จับจุดสูงสุดและต่ําสุดที่แท้จริงของราคาหุ้นสําหรับจุดข้อมูลที่เป็นตัวแทนนั้นในวันนั้น ในสถานการณ์นั้นและอื่น ๆ การสุ่มตัวอย่างเป็นตัวแทนของข้อมูลพื้นฐาน แต่ก็ไม่ได้จับประเด็นสําคัญเสมอไป ซึ่งในกรณีนี้จะเป็นราคาหุ้นสูงสุดและต่ําสุดรายวัน

ตามคําจํากัดความ ข้อมูลความหนาแน่นสูงจะถูกสุ่มตัวอย่างเพื่อสร้างการแสดงภาพอย่างรวดเร็วพอสมควรซึ่งตอบสนองต่อการโต้ตอบ จุดข้อมูลมากเกินไปบนวิชวลอาจทําให้วิชวลจมอยู่กับชะงักงันและสามารถเบี่ยงเบนความสนใจจากการมองเห็นแนวโน้มได้ วิธีการสุ่มตัวอย่างข้อมูลเป็นสิ่งที่ขับเคลื่อนการสร้างอัลกอริทึมการสุ่มตัวอย่างเพื่อมอบประสบการณ์การแสดงภาพที่ดีที่สุด ใน Power BI Desktop อัลกอริทึมให้การผสมผสานที่ดีที่สุดของการตอบสนอง การเป็นตัวแทน และการเก็บรักษาจุดสําคัญที่ชัดเจนในแต่ละส่วนเวลา

อัลกอริทึมการสุ่มตัวอย่างบรรทัดใหม่ทํางานอย่างไร

อัลกอริทึมสําหรับการสุ่มตัวอย่างเส้นความหนาแน่นสูงพร้อมใช้งานสําหรับแผนภูมิเส้นและวิชวลแผนภูมิพื้นที่ที่มีแกน x ต่อเนื่อง

สําหรับวิชวลความหนาแน่นสูง Power BI จะแบ่งส่วนข้อมูลของคุณออกเป็นส่วนที่มีความละเอียดสูงอย่างชาญฉลาด แล้วเลือกจุดสําคัญเพื่อแสดงแต่ละส่วน กระบวนการแบ่งส่วนข้อมูลความละเอียดสูงนั้นได้รับการปรับแต่งเพื่อให้แน่ใจว่าแผนภูมิผลลัพธ์นั้นไม่สามารถแยกแยะได้จากการแสดงจุดข้อมูลพื้นฐานทั้งหมด แต่เร็วกว่าและโต้ตอบได้มากกว่า

ค่าต่ําสุดและสูงสุดสําหรับวิชวลเส้นความหนาแน่นสูง

สําหรับการแสดงภาพใดๆ จะมีข้อจํากัดต่อไปนี้:

  • 3,500 คือจํานวนจุดข้อมูลสูงสุด ที่แสดง บนวิชวลส่วนใหญ่ โดยไม่คํานึงถึงจํานวนจุดข้อมูลพื้นฐานหรือชุดข้อมูล โปรดดู ข้อยกเว้น ในรายการต่อไปนี้ ตัวอย่างเช่น ถ้าคุณมีชุดข้อมูล 10 ชุดที่มีจุดข้อมูล 350 จุดแต่ละชุด วิชวลถึงขีดจํากัดจุดข้อมูลโดยรวมสูงสุดแล้ว หากคุณมีชุดข้อมูลหนึ่งชุด อาจมีจุดข้อมูลมากถึง 3,500 จุดหากอัลกอริทึมเห็นว่าเป็นการสุ่มตัวอย่างที่ดีที่สุดสําหรับข้อมูลพื้นฐาน

  • มี ชุดข้อมูลสูงสุด 60 ชุดสําหรับ วิชวลใดๆ หากคุณมีชุดข้อมูลมากกว่า 60 ชุด ให้แบ่งข้อมูลและสร้างวิชวลหลายรายการโดยแต่ละชุดข้อมูลมีชุดข้อมูลไม่เกิน 60 ชุด แนวทางปฏิบัติที่ดีคือการใช้ ตัวแบ่งส่วนข้อมูล เพื่อแสดงเฉพาะเซ็กเมนต์ของข้อมูล แต่สําหรับบางชุดข้อมูลเท่านั้น ตัวอย่างเช่น ถ้าคุณกําลังแสดงประเภทย่อยทั้งหมดในคําอธิบายแผนภูมิ คุณสามารถใช้ตัวแบ่งส่วนข้อมูลเพื่อกรองตามประเภทโดยรวมในหน้ารายงานเดียวกัน

จํานวนขีดจํากัดข้อมูลสูงสุดจะสูงกว่าสําหรับชนิดวิชวลต่อไปนี้ ซึ่งเป็น ข้อยกเว้น สําหรับขีดจํากัดจุดข้อมูล 3,500 จุด:

  • สูงสุด 150,000 จุดข้อมูลสําหรับวิชวล R
  • จุดข้อมูล 30,000 จุดสําหรับวิชวล Azure Map
  • จุดข้อมูล 10,000 จุดสําหรับการกําหนดค่าแผนภูมิกระจายบางรายการ (แผนภูมิกระจายมีค่าเริ่มต้นเป็น 3500)
  • 3,500 สําหรับวิชวลอื่นๆ ทั้งหมดที่ใช้การสุ่มตัวอย่างความหนาแน่นสูง วิชวลอื่นๆ บางรายการอาจแสดงภาพข้อมูลเพิ่มเติม แต่จะไม่ใช้การสุ่มตัวอย่าง

พารามิเตอร์เหล่านี้ช่วยให้แน่ใจว่าวิชวลใน Power BI Desktop แสดงผลได้อย่างรวดเร็ว ตอบสนองต่อการโต้ตอบกับผู้ใช้ และไม่ส่งผลให้เกิดค่าใช้จ่ายในการคํานวณที่ไม่เหมาะสมบนคอมพิวเตอร์ที่แสดงวิชวล

ประเมินจุดข้อมูลตัวแทนสําหรับวิชวลเส้นความหนาแน่นสูง

เมื่อจํานวนจุดข้อมูลพื้นฐานเกินจุดข้อมูลสูงสุดที่สามารถแสดงในวิชวล กระบวนการที่เรียกว่า binning จะเริ่มขึ้น การรวมกลุ่มข้อมูลพื้นฐานออกเป็นกลุ่มที่เรียกว่า ถังขยะ แล้วปรับแต่งถังขยะเหล่านั้นซ้ําๆ

อัลกอริทึมจะสร้างถังขยะให้ได้มากที่สุดเพื่อสร้างความละเอียดสูงสุดสําหรับวิชวล ภายในแต่ละช่อง อัลกอริทึมจะค้นหาค่าข้อมูลต่ําสุดและสูงสุดเพื่อให้แน่ใจว่าค่าที่สําคัญและสําคัญ เช่น ค่าผิดปกติ จะถูกบันทึกและแสดงในวิชวล ขึ้นอยู่กับผลลัพธ์ของการรวมและการประเมินข้อมูลที่ตามมาโดย Power BI ความละเอียดขั้นต่ําสําหรับแกน x สําหรับวิชวลจะถูกกําหนดเพื่อให้แน่ใจว่ามีความละเอียดสูงสุดสําหรับวิชวล

ดังที่ได้กล่าวไว้ก่อนหน้านี้ ความละเอียดขั้นต่ําสําหรับแต่ละชุดคือ 350 จุด และสูงสุดคือ 3,500 สําหรับวิชวลส่วนใหญ่ ข้อ ยกเว้น แสดงอยู่ในย่อหน้าก่อนหน้า

แต่ละช่องจะแสดงด้วยจุดข้อมูลสองจุด ซึ่งจะกลายเป็นจุดข้อมูลตัวแทนของช่องเก็บข้อมูลในวิชวล จุดข้อมูลคือค่าสูงและต่ําสําหรับช่องนั้น โดยการเลือกสูงและต่ํา กระบวนการ binning จะช่วยให้มั่นใจได้ว่าค่าสูงที่สําคัญหรือค่าต่ําอย่างมีนัยสําคัญจะถูกบันทึกและแสดงผลในวิชวล

หากฟังดูเหมือนเป็นการวิเคราะห์จํานวนมากเพื่อให้แน่ใจว่าค่าผิดปกติเป็นครั้งคราวถูกจับและแสดงอย่างถูกต้องในวิชวล คุณคิดถูกแล้ว นั่นคือเหตุผลที่แท้จริงสําหรับอัลกอริทึมและกระบวนการ binning

คําแนะนําเครื่องมือและการสุ่มตัวอย่างเส้นความหนาแน่นสูง

สิ่งสําคัญคือต้องทราบว่ากระบวนการ binning นี้ ซึ่งส่งผลให้ค่าต่ําสุดและสูงสุดในช่องเก็บข้อมูลที่กําหนดถูกบันทึกและแสดง อาจส่งผลต่อวิธีที่คําแนะนําเครื่องมือแสดงข้อมูลเมื่อคุณวางเมาส์เหนือจุดข้อมูล เพื่ออธิบายว่าสิ่งนี้เกิดขึ้นได้อย่างไรและทําไม เรามาดูตัวอย่างของเราเกี่ยวกับราคาหุ้นอีกครั้ง

สมมติว่าคุณกําลังสร้างวิชวลตามราคาหุ้น และคุณกําลังเปรียบเทียบหุ้นสองตัวที่แตกต่างกัน ซึ่งทั้งสองตัวใช้การสุ่มตัวอย่างความหนาแน่นสูง ข้อมูลพื้นฐานสําหรับแต่ละชุดข้อมูลมีจุดข้อมูลจํานวนมาก ตัวอย่างเช่น บางทีคุณอาจจับราคาหุ้นในแต่ละวินาทีของวัน อัลกอริธึมการสุ่มตัวอย่างเส้นความหนาแน่นสูงจะทําการรวมตัวสําหรับแต่ละชุดโดยไม่ขึ้นกับชุดอื่น

ตอนนี้สมมติว่าหุ้นตัวแรกพุ่งขึ้นในราคาที่ 12:02 น. จากนั้นก็กลับมาลดลงอย่างรวดเร็วในอีก 10 วินาทีต่อมา นั่นเป็นจุดข้อมูลที่สําคัญ เมื่อการรวมเกิดขึ้นสําหรับหุ้นนั้น จุดสูงสุดที่ 12:02 เป็นจุดข้อมูลตัวแทนสําหรับถังนั้น

อย่างไรก็ตาม สําหรับหุ้นตัวที่สอง 12:02 ไม่ใช่จุดสูงสุดหรือจุดต่ําสุดในถังขยะที่รวมเวลานั้นไว้ด้วย บางทีจุดสูงสุดและต่ําสุดสําหรับถังขยะที่มีเวลา 12:02 น. อาจเกิดขึ้นในอีกสามนาทีต่อมา ในสถานการณ์นั้น เมื่อแผนภูมิเส้นถูกสร้างขึ้นและคุณวางเมาส์เหนือ 12:02 คุณจะเห็นค่าในคําแนะนําเครื่องมือสําหรับหุ้นตัวแรก นี่เป็นเพราะมันกระโดดที่ 12:02 และค่านั้นถูกเลือกเป็นจุดข้อมูลสูงของถังนั้น อย่างไรก็ตาม คุณจะไม่เห็นค่าใดๆ ในคําแนะนําเครื่องมือเวลา 12:02 น. สําหรับหุ้นตัวที่สอง นั่นเป็นเพราะหุ้นที่สองไม่มีจุดสูงสุดหรือต่ําสุดสําหรับถังขยะที่มีเวลา 12:02 น. ดังนั้นจึงไม่มีข้อมูลที่จะแสดงสําหรับหุ้นตัวที่สอง ณ เวลา 12:02 น. ดังนั้นจึงไม่มีข้อมูลคําแนะนําเครื่องมือปรากฏขึ้น

สถานการณ์นี้เกิดขึ้นบ่อยครั้งกับคําแนะนําเครื่องมือ ค่าสูงและต่ําสําหรับช่องเก็บข้อมูลที่เฉพาะเจาะจงอาจไม่ตรงกับจุดค่าแกน x ที่ปรับขนาดเท่ากัน และคําแนะนําเครื่องมือไม่แสดงค่า

วิธีเปิดการสุ่มตัวอย่างเส้นความหนาแน่นสูง

โดยค่าเริ่มต้น อัลกอริทึ มจะเปิดอยู่ เมื่อต้องการเปลี่ยนการตั้งค่านี้ ให้ไปที่บานหน้าต่าง การจัดรูปแบบ ในการ์ด ทั่วไป และที่ด้านล่าง คุณจะเห็นแถบเลื่อน การสุ่มตัวอย่างความหนาแน่นสูง เลือกแถบเลื่อนเพื่อเปิดหรือปิด

สกรีนช็อตของการสุ่มตัวอย่างเส้นความหนาแน่นสูง ซึ่งแสดงตัวชี้ไปยังบานหน้าต่าง การจัดรูปแบบ ทั่วไป และการสุ่มตัวอย่างความหนาแน่นสูง

ข้อควรพิจารณาและข้อจำกัด

อัลกอริทึมสําหรับการสุ่มตัวอย่างบรรทัดความหนาแน่นสูงเป็นการปรับปรุงที่สําคัญของ Power BI แต่มีข้อควรพิจารณาบางประการที่คุณต้องรู้เมื่อทํางานกับค่าและข้อมูลที่มีความหนาแน่นสูง

  • เนื่องจากความละเอียดที่เพิ่มขึ้นและกระบวนการจัดกลุ่ม คําแนะนําเครื่องมือ อาจแสดงค่าก็ต่อเมื่อข้อมูลตัวแทนอยู่ในแนวเดียวกับเคอร์เซอร์ของคุณ สําหรับข้อมูลเพิ่มเติม โปรดดูส่วน คําแนะนําเครื่องมือและการสุ่มตัวอย่างเส้นความหนาแน่นสูง ในบทความนี้

  • เมื่อขนาดของแหล่งข้อมูลโดยรวมมีขนาดใหญ่เกินไปอัลกอริทึมจะกําจัดชุดข้อมูล (องค์ประกอบคําอธิบายแผนภูมิ) เพื่อรองรับข้อจํากัดสูงสุดในการนําเข้าข้อมูล

    • ในสถานการณ์นี้ อัลกอริทึมจะเรียงลําดับชุดคําอธิบายแผนภูมิตามตัวอักษร โดยเริ่มจากรายการขององค์ประกอบคําอธิบายแผนภูมิตามลําดับตัวอักษรจนกว่าจะถึงขีดจํากัดสูงสุดในการนําเข้าข้อมูล และไม่นําเข้าชุดข้อมูลเพิ่มเติม
  • เมื่อชุดข้อมูลพื้นฐานมีชุดข้อมูลมากกว่า 60 ชุด จํานวนชุดข้อมูลสูงสุด อัลกอริทึมจะเรียงลําดับชุดข้อมูลตามตัวอักษร และกําจัดชุดข้อมูลที่เกินชุดข้อมูลที่เรียงลําดับตามตัวอักษรที่ 60

  • ถ้าค่าในข้อมูล ไม่ใช่ชนิดตัวเลข หรือ วันที่/เวลา Power BI จะไม่ใช้อัลกอริทึมและจะเปลี่ยนกลับเป็นอัลกอริทึมการสุ่มตัวอย่างที่ไม่มีความหนาแน่นสูงก่อนหน้านี้

  • อัลกอริทึมไม่รองรับการตั้งค่า แสดงรายการที่ไม่มีข้อมูล

  • อัลกอริทึมไม่ได้รับการสนับสนุนเมื่อใช้การเชื่อมต่อแบบสดกับแบบจําลองที่โฮสต์ใน SQL Server Analysis Services รุ่น 2016 หรือรุ่นก่อนหน้า ได้รับการสนับสนุนในแบบจําลองที่โฮสต์ใน Power BI หรือ Azure Analysis Services