แชร์ผ่าน


คำแนะนำสำหรับการออกแบบกลยุทธ์การตรวจสอบและการแจ้งเตือนที่เชื่อถือได้

นำไปใช้กับคำแนะนำรายการตรวจสอบความน่าเชื่อถือของ Power Platform Well-Architected:

RE:08 วัดผลและเผยแพร่ตัวบ่งชี้คุณภาพของโซลูชัน เก็บข้อมูลสถานะการออนไลน์และข้อมูลความน่าเชื่อถืออื่นๆ อย่างต่อเนื่องจากทั่วทั้งปริมาณงาน รวมถึงจากแต่ละส่วนประกอบและโฟลว์หลัก

คู่มือนี้อธิบายถึงคำแนะนำสำหรับการออกแบบกลยุทธ์การตรวจสอบและการแจ้งเตือนที่เชื่อถือได้ ใช้กลยุทธ์นี้เพื่อให้ทีมปฏิบัติการของคุณทราบถึงสถานะคุณภาพของสภาพแวดล้อมของคุณ และทำให้แน่ใจว่าคุณจะบรรลุเป้าหมายด้านความน่าเชื่อถือที่กำหนดไว้สำหรับเวิร์กโหลดของคุณ

คำนิยาม

เงื่อนไข ข้อกำหนด
เกณฑ์ชี้วัด ค่าตัวเลขที่รวบรวมไว้ในช่วงเวลาปกติ เมตริกจะอธิบายลักษณะบางอย่างของระบบ ณ เวลาใดเวลาหนึ่ง
ไฟล์บันทึกทรัพยากร ข้อมูลที่ระบบสร้างขึ้นเกี่ยวกับสถานะของระบบ
การติดตาม ข้อมูลที่ให้ข้อมูลเกี่ยวกับเส้นทางที่คำขอเดินทางผ่านบริการและส่วนประกอบต่างๆ

กลยุทธ์การออกแบบที่สำคัญ

ก่อนที่คุณจะสร้างกลยุทธ์การตรวจสอบและการแจ้งเตือน ให้ดำเนินงานต่อไปนี้สำหรับเวิร์กโหลดของคุณโดยเป็นส่วนหนึ่งของการวางแผนความน่าเชื่อถือของคุณ:

สร้างกลยุทธ์การตรวจสอบและการแจ้งเตือนเพื่อทำให้มีการรับทราบกับทีมปฏิบัติการของคุณ เพื่อให้พวกเขาได้รับแจ้งถึงการเปลี่ยนแปลงในสภาพเวิร์กโหลดของคุณ และสามารถแก้ไขปัญหาได้อย่างรวดเร็ว โมเดลคุณภาพสำหรับโฟลว์สำคัญของคุณและสำหรับเวิร์กโหลดที่มีโฟลว์สำคัญควรกำหนดสถานะเป็นคุณภาพดี ด้อยคุณภาพ และไม่มีคุณภาพ ออกแบบลักษณะการตรวจสอบของคุณเพื่อตรวจหาการเปลี่ยนแปลงในสถานะเหล่านี้ทันที เมื่อสถานะคุณภาพเปลี่ยนจากคุณภาพดีเป็นด้อยคุณภาพหรือไม่มีคุณภาพ กลไกการแจ้งเตือนควรกระตุ้นให้เมาตรการกู้คืนอัตโนมัติทำงานและแจ้งเตือนไปยังทีมที่รับผิดชอบ

ใช้คำแนะนำต่อไปนี้เพื่อออกแบบกลยุทธ์การตรวจสอบและแจ้งเตือนที่ตรงกับความต้องการของธุรกิจของคุณ

คำแนะนำทั่วไป

เข้าใจความแตกต่างระหว่าง เมตริก, ไฟล์บันทึก และ การติดตาม

เปิดใช้งาน การบันทึก สำหรับทรัพยากรระบบคลาวด์ทั้งหมด ใช้ระบบอัตโนมัติและการกำกับดูแลในการปรับใช้งานของคุณเพื่อเปิดใช้งานการบันทึกการวินิจฉัยในสภาพแวดล้อมของคุณ

ส่งต่อไฟล์บันทึกการวินิจฉัยทั้งหมดไปยังระบบรับข้อมูลและแพลตฟอร์มการวิเคราะห์แบบรวมศูนย์ เช่น พื้นที่ทำงาน Log Analytics หากคุณมีข้อกำหนดด้านอำนาจข้อมูลระดับภูมิภาค คุณต้องใช้ระบบรับข้อมูลภายในสถานที่ในภูมิภาคที่อยู่ภายใต้ข้อกำหนดเหล่านั้น

การแลกเปลี่ยน: มีผลกระทบด้านต้นทุนสำหรับการจัดเก็บและการสืบค้นไฟล์บันทึก สังเกตว่าการวิเคราะห์และการเก็บรักษาไฟล์บันทึกของคุณส่งผลต่องบประมาณของคุณอย่างไร และกำหนดสมดุลการใช้งานที่ดีที่สุดเพื่อให้ตรงตามความต้องการของคุณ

หากเวิร์กโหลดของคุณอยู่ภายใต้กรอบงานการปฏิบัติตามข้อกำหนดตั้งแต่หนึ่งแบบขึ้นไป ไฟล์บันทึกส่วนประกอบบางส่วนที่จัดการข้อมูลที่ละเอียดอ่อนก็จะอยู่ภายใต้กรอบงานเหล่านั้นด้วย ส่งไฟล์บันทึกส่วนประกอบที่เกี่ยวข้องไปยังระบบข้อมูลความปลอดภัยและการจัดการเหตุการณ์ (SIEM) เช่น Microsoft Sentinel

สร้าง นโยบายการเก็บรักษาไฟล์บันทึก ที่รวมเอาข้อกำหนดการเก็บข้อมูลระยะยาวที่กรอบงานการปฏิบัติตามข้อกำหนดกำหนดไว้กับเวิร์กโหลดของคุณ

ใช้ การบันทึกแบบมีโครงสร้าง สำหรับข้อความไฟล์บันทึกทั้งหมดเพื่อเพิ่มประสิทธิภาพการสืบค้นข้อมูลไฟล์บันทึก

กำหนดค่าการแจ้งเตือนที่จะทริกเกอร์เมื่อค่าส่งผ่านค่าเกณฑ์วิกฤติที่เกี่ยวข้องกับการเปลี่ยนแปลงสถานะของโมเดลคุณภาพ เช่น สีเขียวเป็นสีเหลืองหรือสีแดง การกำหนดค่าเกณฑ์เป็นแนวทางปฏิบัติในการปรับปรุงอย่างต่อเนื่อง เมื่อเวิร์กโหลดของคุณเพิ่มขึ้น ค่าเกณฑ์ที่คุณกำหนดอาจเปลี่ยนแปลงไป

พิจารณาใช้การแจ้งเตือนเมื่อสถานะต่างๆ ดีขึ้น เช่น สีแดงเป็นสีเหลืองหรือสีแดงเป็นสีเขียว เพื่อให้ทีมปฏิบัติการสามารถติดตามเหตุการณ์เหล่านี้เพื่อใช้อ้างอิงในอนาคต

แสดงภาพคุณภาพของสภาพแวดล้อมของคุณแบบเรียลไทม์โดยใช้ แดชบอร์ดที่กำหนดเอง

ใช้ข้อมูลที่รวบรวมระหว่างเหตุการณ์ต่างๆ เพื่อปรับปรุง โมเดลคุณภาพ ของคุณอย่างต่อเนื่อง

รวม บริการด้านการตรวจสอบและการแจ้งเตือนบนแพลตฟอร์มระบบคลาวด์ รวมถึงคุณภาพของระดับแพลตฟอร์มเข้าด้วยกัน

รวมการตรวจสอบและการวิเคราะห์ขั้นสูงที่สร้างตามวัตถุประสงค์เฉพาะที่ผู้ให้บริการระบบคลาวด์ของคุณเสนอ เช่น เครื่องมือข้อมูลเชิงลึก ของ Azure Monitor

ใช้การตรวจสอบการสำรองข้อมูลและการกู้คืนเพื่อบันทึก:

  • สถานะการจำลองแบบข้อมูลเพื่อให้แน่ใจว่าเวิร์กโหลดของคุณบรรลุผลการกู้คืนภายในวัตถุประสงค์จุดกู้คืนเป้าหมาย (RPO)
  • การสำรองข้อมูลและการกู้คืนที่สำเร็จและล้มเหลว
  • ระยะเวลาการกู้คืนเพื่อแจ้ง การวางแผนการกู้คืนความเสียหาย

ตรวจสอบแอปพลิเคชันและเอเจนต์

บันทึกข้อมูลในขณะที่แอปพลิเคชันหรือเอเจนต์ทำงานในสภาพแวดล้อมการทำงานจริง คุณต้องการข้อมูลที่เพียงพอเพื่อวินิจฉัยสาเหตุของปัญหาในสถานะการทำงานจริง

บันทึกเหตุการณ์ที่ขอบเขตการบริการ รวม ID สหสัมพันธ์ที่รับส่งข้ามขอบเขตบริการ หากธุรกรรมส่งผ่านบริการต่างๆ และหนึ่งในนั้นล้มเหลว ID สหสัมพันธ์จะช่วยคุณติดตามคำขอในแอปพลิเคชันของคุณและระบุสาเหตุที่ธุรกรรมล้มเหลว

แยกแอปพลิเคชันและการบันทึกของเอเจนต์ออกจากการตรวจสอบ โดยทั่วไป เรกคอร์ดการตรวจสอบจะได้รับการเก็บรักษาไว้ตามข้อกำหนดการปฏิบัติตามหรือกฎระเบียบ และต้องครบถ้วน เพื่อป้องกันไม่ให้ธุรกรรมถูกปล่อยทิ้ง ให้เก็บไฟล์บันทึกการตรวจสอบแยกจากบันทึกการวินิจฉัย

ใช้การตรวจสอบกล่องสีขาวเพื่อใช้เครื่องมือแอปพลิเคชันหรือเอเจนต์ด้วยบันทึกความหมายและเมตริก รวบรวมเมตริกและบันทึกระดับแอปพลิเคชันและเอเจนต์ เช่น การใช้หน่วยความจำหรือเวลาแฝงของคำขอ จากแอปพลิเคชันหรือเอเจนต์ เพื่อแจ้งโมเดลสถานภาพและเพื่อตรวจหาและคาดการณ์ปัญหา

ใช้การตรวจสอบแบบกล่องดำเพื่อวัดผลบริการของแพลตฟอร์มและประสบการณ์ของลูกค้าที่เกิดขึ้น การตรวจสอบกล่องดำจะทดสอบแอปพลิเคชันที่มองเห็นได้จากภายนอกหรือลักษณะการทำงานของเอเจนต์โดยไม่มีความรู้ภายในของระบบ แนวทางนี้เป็นเรื่องปกติสำหรับการวัดผลด้วยตัวบ่งชี้ระดับการบริการที่เน้นลูกค้าเป็นศูนย์กลาง (SLI) วัตถุประสงค์ระดับการให้บริการ (SLO) และข้อตกลงระดับการให้บริการ (SLA)

ตรวจสอบข้อมูลและการจัดเก็บ

ตรวจสอบเมตริกความพร้อมใช้งานของคอนเทนเนอร์จัดเก็บข้อมูลของคุณ เมื่อเมตริกนี้ลดลงต่ำกว่า 100% แสดงว่าเขียนไม่สำเร็จ ความพร้อมใช้งานลดลงชั่วคราวอาจเกิดขึ้นเมื่อผู้ให้บริการระบบคลาวด์ของคุณจัดการโหลด ติดตามแนวโน้มความพร้อมใช้งานเพื่อดูว่ามีปัญหากับเวิร์กโหลดของคุณหรือไม่ ในบางกรณี การลดลงของเมตริกความพร้อมใช้งานสำหรับคอนเทนเนอร์การจัดเก็บข้อมูลบ่งชี้ถึงปัญหาคอขวดในเลเยอร์การประมวลผลที่เกี่ยวข้องกับคอนเทนเนอร์การจัดเก็บข้อมูล

มีเมตริกมากมายที่ต้องตรวจสอบฐานข้อมูล ในบริบทของความน่าเชื่อถือ เมตริกสำคัญที่ต้องติดตาม ได้แก่:

  • ระยะเวลาคิวรี
  • การหมดเวลา
  • เวลารอ
  • หน่วยความจำไม่เพียงพอ
  • การล็อก

ตัวอย่าง

การติดตามแบบกระจายในบริการที่หลากหลายใน Power Platform มีสถานการณ์ตัวอย่างและการแสดงภาพวิธีการติดตามเหตุการณ์ในบริการที่หลากหลาย คําแนะนํานี้มีแอปพลิเคชันที่ใช้ได้จริงและกรณีใช้งานสําหรับการติดตามแบบกระจาย และอธิบายวิธีการนําไปใช้ในบริการหลายอย่างใน Power Platform

การอำนวยความสะดวกของ Power Platform

ใช้พื้นที่ การตรวจสอบ ของศูนย์การจัดการ Power Platform เพื่อวัดและปรับปรุงเมตริกประสิทธิภาพการดําเนินงานของแอปและโฟลว์ ประสบการณ์การตรวจสอบพร้อมใช้งานสําหรับทั้งผู้สร้างและผู้ดูแลระบบ ผู้สร้างใช้ข้อมูลเพื่อปรับปรุงทรัพยากรของตน ผู้ดูแลระบบใช้เพื่อทำความเข้าใจคุณภาพการดำเนินงานโดยรวมในผู้เช่าหรือในสภาพแวดล้อมเฉพาะ วัตถุประสงค์ของการตรวจสอบพื้นที่ของศูนย์ดูแล Power Platform คือการให้ความสําคัญกับแหล่งข้อมูลที่ประสิทธิภาพการดําเนินงานลดลงและไฮไลท์แหล่งข้อมูลที่มีโอกาสในการปรับปรุง

Power Platform ผสานรวมกับ Application Insights ซึ่งเป็นส่วนหนึ่งของระบบนิเวศ Azure Monitor คุณสามารถใช้การผสานรวมนี้เพื่อ:

  • สมัครรับการวัดและส่งข้อมูลทางไกลที่บันทึกโดยแพลตฟอร์ม Dataverse ใน Application Insights เกี่ยวกับการวินิจฉัย ประสิทธิภาพ และการดำเนินการที่แอปพลิเคชันดำเนินการบนฐานข้อมูล Dataverse ของคุณและภายในแอปแบบจำลอง การวัดและส่งข้อมูลทางไกลนี้จะให้ข้อมูลที่คุณสามารถใช้เพื่อวินิจฉัยและแก้ไขปัญหาที่เกี่ยวข้องกับข้อผิดพลาดและประสิทธิภาพ

  • เชื่อมต่อแอปพื้นที่ทำงานของคุณกับ Application Insights เพื่อใช้การวิเคราะห์เหล่านี้เพื่อวินิจฉัยปัญหา ทำความเข้าใจว่าผู้ใช้ทำอะไรกับแอปของคุณจริงๆ ขับเคลื่อนการตัดสินใจทางธุรกิจได้ดีขึ้น และปรับปรุงคุณภาพของแอปของคุณ

  • กำหนดค่าการวัดและส่งข้อมูลทางไกล Power Automate ให้โฟลว์เข้าสู่ Application Insights คุณสามารถใช้การวัดและส่งข้อมูลทางไกลนี้เพื่อตรวจสอบการดำเนินการของโฟลว์ระบบคลาวด์และสร้างการแจ้งเตือนสำหรับความล้มเหลวในการเรียกใช้โฟลว์ระบบคลาวด์

  • บันทึกข้อมูลการวัดและส่งข้อมูลทางไกลจาก เอเจนต์ Microsoft Copilot Studio ของคุณเพื่อใช้ใน Azure Application Insights คุณสามารถใช้การวัดและส่งข้อมูลทางไกลนี้เพื่อตรวจสอบข้อความและเหตุการณ์ที่บันทึกไว้ซึ่งส่งไปและกลับจากเอเจนต์ หัวข้อที่จะทริกเกอร์ระหว่างการสนทนาของผู้ใช้ และเหตุการณ์การวัดและส่งข้อมูลทางไกลแบบกำหนดเองที่สามารถส่งได้จากหัวข้อของคุณ

กิจกรรมของบันทึกทรัพยากร Power Platform ในพอร์ทัลการปฏิบัติตามข้อบังคับของ Microsoft Purview กิจกรรมส่วนใหญ่จะจัดขึ้นภายใน 24 ชั่วโมงหลังกิจกรรม อย่าใช้ข้อมูลนี้สำหรับการตรวจสอบแบบเรียลไทม์ เรียนรู้เพิ่มเติม:

เวิร์กโหลด Power Platform ของคุณอาจรวมถึงทรัพยากร Azure หากต้องการเรียนรู้เพิ่มเติมเกี่ยวกับคำแนะนำในการตรวจสอบทรัพยากร Azure โปรดดู คำแนะนำสำหรับการออกแบบและการสร้างระบบการตรวจสอบ

ชุดเริ่มต้น CoE ของ Power Platform เป็นชุดของส่วนประกอบและเครื่องมือที่ออกแบบมาเพื่อช่วยคุณในการเริ่มต้นใช้งานการพัฒนากลยุทธ์สำหรับการปรับใช้และการสนับสนุน Power Platform ชุดโปรแกรมนี้มีระบบอัตโนมัติและเครื่องมือในการช่วยทีมสร้างการตรวจสอบและระบบอัตโนมัติที่จำเป็นในการสนับสนุน CoE

ฉันจะตรวจสอบความสมบูรณ์ของบริการออนไลน์ของฉันได้อย่างไร

รายการตรวจสอบความน่าเชื่อถือ

โปรดดูชุดคำแนะนำทั้งหมด