แชร์ผ่าน


กําหนดค่าการทดสอบใน Copilot Studio Kit

การทดสอบเป็นสิ่งจําเป็นสําหรับการตรวจสอบให้แน่ใจว่าตัวแทนแบบกําหนดเองของคุณใน Copilot Studio Kit ตอบสนองและทํางานตามที่คาดไว้ บทความนี้อธิบายวิธีการสร้าง จัดการ และตรวจสอบความถูกต้องของการทดสอบชนิดต่างๆ รวมถึงสถานการณ์แบบหลายเลี้ยว การดําเนินการแบบกลุ่มด้วย Excel และชุดการทดสอบที่ซ้ํากัน

ชนิดการทดสอบ

คุณสามารถสร้างการทดสอบหลายชนิดเพื่อตรวจสอบความถูกต้องของตัวแทนของคุณ

ประเภทการทดสอบ คำอธิบาย
คำตอบตรงกัน การทดสอบนี้เป็นประเภทการทดสอบที่ง่ายที่สุด ซึ่งจะเปรียบเทียบการตอบสนองของตัวแทนกับการตอบสนองที่คาดไว้โดยใช้ตัวดําเนินการเปรียบเทียบที่เลือก
ตามค่าเริ่มต้น จะมีการใช้การจับคู่ที่ตรงกัน ("เท่ากับ") ตัวดําเนินการเปรียบเทียบอื่นๆ ที่พร้อมใช้งานคือ "ไม่เท่ากับ" "ประกอบด้วย" "ไม่ประกอบด้วย" "เริ่มต้นด้วย" "ไม่ได้เริ่มต้นด้วย" "ลงท้ายด้วย" และ "ไม่ลงท้ายด้วย"
สิ่งที่แนบมา (เช่น การ์ดที่ปรับเปลี่ยนได้) เปรียบเทียบการตอบ JSON สิ่งที่แนบมาของเอเจนต์กับ JSON สิ่งที่แนบมาที่คาดไว้ (อาร์เรย์ทั้งหมดของสิ่งที่แนบมา)
ตามค่าเริ่มต้น จะมีการใช้การจับคู่ที่ตรงกัน ("เท่ากับ") ตัวดําเนินการเปรียบเทียบอื่นๆ ที่พร้อมใช้งานคือ "ไม่เท่ากับ" "ประกอบด้วย" "ไม่ประกอบด้วย" ตัวดําเนินการเปรียบเทียบพิเศษที่เรียกว่า "การตรวจสอบความถูกต้องของ AI" ใช้แบบจําลองภาษาเพื่อตรวจสอบเอกสารแนบตามคําแนะนําการตรวจสอบความถูกต้องที่ให้ไว้โดยผู้สร้าง ซึ่งคล้ายกับคําตอบที่สร้าง
การจับคู่หัวข้อ พร้อมใช้งานเฉพาะเมื่อมีการกำหนดค่าการเสริมข้อมูลใน Dataverse (เสริมด้วยการถอดความการสนทนา)
เมื่อขั้นตอนการเสริมสร้างข้อมูลเสร็จสมบูรณ์ การทดสอบนี้จะเปรียบเทียบชื่อหัวข้อที่คาดหวังและชื่อหัวข้อที่ถูกทริกเกอร์ การทดสอบการจับคู่หัวข้อยังสนับสนุน การจับคู่แบบหลายหัวข้อ กับตัวแทนที่กำหนดเองที่มีการเปิดใช้งานการดำเนินการแบบสร้างสรรค์ ในการจับคู่แบบหลายหัวข้อ หัวข้อจะถูกคั่นด้วยเครื่องหมายจุลภาค โดยแต่ละหัวข้อจะมีเครื่องหมายจุลภาคเป็นตัวคั่น ตัวอย่างเช่น: "Topic1,Topic2"
คำตอบที่ถูกสร้างโดยเทคโนโลยีการผลิต พร้อมใช้งานเมื่อมีการกําหนดค่าการเสริมสร้าง AI Builder (วิเคราะห์คําตอบที่ถูกสร้างขึ้น)
ใช้แบบจําลองภาษาขนาดใหญ่เพื่อประเมินว่าคําตอบที่สร้างโดย AI นั้นใกล้เคียงกับคําตอบตัวอย่างหรือให้คําแนะนําในการตรวจสอบความถูกต้องหรือไม่
เมื่อมีการกําหนดค่าด้วย Azure Application Insights การทดสอบเชิงลบ เช่น การควบคุมหรือไม่มีผลลัพธ์การค้นหา ยังสามารถทดสอบได้
หลายรอบ ประกอบด้วยกรณีการทดสอบอย่างน้อยหนึ่งกรณีของชนิดอื่น เช่น การจับคู่คําตอบ สิ่งที่แนบมา การจับคู่หัวข้อ และคําตอบที่สร้าง การทดสอบย่อยทั้งหมดในการทดสอบแบบหลายรอบภายในบริบทของการสนทนาเดียวกันตามลำดับที่กำหนด ใช้การทดสอบหลายรอบเพื่อทดสอบสถานการณ์แบบครบวงจร และทดสอบตัวแทนที่กําหนดเองด้วยการประสานงานเชิงสร้างสรรค์ เรียนรู้เพิ่มเติมในการทดสอบแบบหลายเลี้ยว
การตรวจสอบความถูกต้องของแผน ช่วยให้ผู้สร้างสามารถตรวจสอบว่าแผนแบบไดนามิกของตัวแทนแบบกําหนดเองมีเครื่องมือที่คาดหวัง ชนิดการทดสอบนี้มีไว้สําหรับเอเจนต์แบบกําหนดเองของ Copilot Studio ที่ได้เปิดการจัดเรียงแบบสร้างสรรค์ไว้ เรียนรู้เพิ่มเติมในการทดสอบการตรวจสอบแผน

สร้างชุดการทดสอบใหม่

ใช้ชุดการทดสอบเพื่อจัดกลุ่มการทดสอบหลายรายการเข้าด้วยกัน เมื่อคุณเรียกใช้การทดสอบ ให้เลือกชุดการทดสอบเพื่อเรียกใช้การทดสอบทั้งหมดในชุดนั้น

  1. เข้าถึงแอปพลิเคชัน Copilot Studio Kit
  2. ไปยังชุดการทดสอบ
  3. สร้างระเบียนชุดการทดสอบตัวแทนใหม่
  4. ป้อน ชื่อ
  5. เลือก บันทึก

สร้างการทดสอบใหม่

หลังจากที่คุณสร้างชุดการทดสอบ คุณสามารถเพิ่มการทดสอบได้ จากตารางย่อย การทดสอบ เลือก+ การทดสอบตัวแทนใหม่

สกรีนช็อตของอินเทอร์เฟซสร้างตัวแทนทดสอบในชุด Copilot Studio พร้อมปุ่มทดสอบตัวแทนใหม่ที่เน้น

ตารางต่อไปนี้อธิบายฟิลด์ต่างๆ

ชื่อคอลัมน์ Required คำอธิบาย
ชื่อ ได้ ชื่อของการทดสอบ ชื่อนี้สามารถเป็น ID การอ้างอิงภายใน เช่น TST-001
ชุดการทดสอบตัวแทน ได้ ชุดทดสอบหลักสําหรับการทดสอบ
ประเภทการทดสอบ ได้ หนึ่งใน ประเภทการทดสอบที่พร้อมใช้งาน
ส่งเหตุการณ์เริ่มต้นการสนทนา ไม่ ถ้าเปิดใช้งาน ตัวแทนจะได้รับเหตุการณ์ startConversation เพื่อเริ่มเชิงรุกการสนทนา แล้วประโยคเสริมการทดสอบจะถูกส่งหลังจากนั้น โดยทั่วไปการตั้งค่านี้จําเป็นเมื่อหัวข้อ เริ่มการสนทนา มีตรรกะที่ต้องเรียกใช้ก่อนที่จะตอบสนองต่อผู้ใช้หรือเปล่งคําพูดทดสอบ
ตําแหน่งที่คาดหวังของข้อความตอบสนอง ไม่ อย่าตั้งค่าถ้าคุณไม่แน่ใจ ตัวเลือกนี้ช่วยให้คุณสามารถจับภาพการตอบสนองของตัวแทนเฉพาะเมื่อส่งข้อความหลายข้อความ ตัวอย่างเช่น ถ้าเจ้าหน้าที่พูด "Hello" ก่อน จากนั้น "ฉันสามารถช่วยคุณได้อย่างไร", และคุณต้องการทดสอบข้อความที่สอง ให้ตั้งค่าเป็น 1 ลําดับเป็นแบบ 0 ดังนั้นข้อความแรกจะถูกทําดัชนีเป็น 0 การตอบกลับครั้งที่สองเป็น 1 และอื่น ๆ
การทดสอบคำพูด ได้ ข้อความที่คุณต้องการส่งไปยังเจ้าหน้าที่เป็นส่วนหนึ่งของการทดสอบ
การตอบสนองที่คาดไว้ ขึ้นอยู่กับ จำเป็นสำหรับประเภทการทดสอบแบบจับคู่การตอบสนอง การตอบสนองที่คาดหวังจากเอเย่นต์ สําหรับการทดสอบ คําตอบที่สร้าง ให้ตั้งค่าคําตอบตัวอย่างหรือคําแนะนําการตรวจสอบความถูกต้องของคุณเองสําหรับแบบจําลองภาษาขนาดใหญ่
ตัวแปรภายนอก JSON ไม่ ระเบียน JSON สําหรับ ค่าภายนอกหรือบริบท ที่คุณต้องการส่งผ่านไปยังตัวแทนเป็นส่วนหนึ่งของการทดสอบ ตัวอย่าง: { "Language": "fr" }
วินาทีก่อนรับคําตอบ ไม่ จํานวนวินาทีที่จะรอก่อนประเมินการตอบสนองจากบอท ในกรณีส่วนใหญ่ คุณสามารถปล่อยค่านี้ว่างไว้ แต่จะเป็นประโยชน์ในสถานการณ์ที่ตัวแทนเรียกใช้ API และการตอบสนองอาจใช้เวลานานกว่าปกติ
ผลลัพธ์ที่คาดหมายจากการสร้างคําตอบ ขึ้นอยู่กับ จำเป็นสำหรับประเภทการทดสอบของคำตอบที่สร้างขึ้น ควรตอบแล้วหรือยังไม่ได้ตอบ เมื่อเปิดใช้งานการเสริมสร้างข้อมูลเชิงลึกของแอปพลิเคชัน Azure คุณสามารถเลือก ควบคุม หรือ ไม่มีผลลัพธ์การค้นหาได้
ชื่อหัวข้อที่คาดหวัง ขึ้นอยู่กับ ข้อบังคับสําหรับชนิดการทดสอบการจับคู่หัวข้อ ชื่อของหัวข้อที่คุณคาดว่าจะถูกทริกเกอร์ การจับคู่หลายหัวข้อได้รับการสนับสนุนสำหรับตัวแทนที่กำหนดเองที่เปิดใช้งานการจัดลำดับแบบสร้าง สําหรับการจับคู่แบบหลายหัวข้อ ให้ใช้รายการที่คั่นด้วยเครื่องหมายจุลภาค ตัวอย่างเช่น: "Topic1,Topic2" อย่าเพิ่มช่องว่างเพิ่มเติม การจับคู่หลายหัวข้อช่วยให้มั่นใจว่าหัวข้อที่คาดหวังจะอยู่ในหัวข้อต่างๆ ในแผน
ไฟล์แนบที่คาดหวัง JSON ขึ้นอยู่กับ บังคับสําหรับชนิดการทดสอบสิ่งที่แนบมา (การ์ดที่ปรับเปลี่ยนได้ ฯลฯ) ไฟล์แนบแบบเต็มในรูปแบบอาร์เรย์ JSON ที่คุณคาดหวังจากการตอบสนองของเอเจนต์
เครื่องมือที่คาดว่าจะใช้ ขึ้นอยู่กับ ข้อบังคับสําหรับชนิดการทดสอบการตรวจสอบความถูกต้องของแผน รายการเครื่องมือที่คาดหวังซึ่งคั่นด้วยจุลภาค (ประกอบด้วยเครื่องมือ การดำเนินการ และตัวแทนที่เชื่อมต่อ) อย่าเพิ่มช่องว่างเพิ่มเติม คําสั่งซื้อไม่เกี่ยวข้อง ตัวอย่าง: "สภาพอากาศ,เปลี่ยนแปลงสภาพภูมิอากาศ"
เกณฑ์ผ่าน % ขึ้นอยู่กับ ข้อบังคับสําหรับชนิดการทดสอบการตรวจสอบความถูกต้องของแผน เปอร์เซ็นต์ของเครื่องมือที่คาดหมายที่ต้องอยู่ในแผนแบบไดนามิกสําหรับการทดสอบที่จะผ่าน ถ้าเปอร์เซ็นต์คือ 100 เครื่องมือที่คาดไว้ทั้งหมดต้องอยู่ในแผนแบบไดนามิกเพื่อให้การทดสอบสําเร็จ เครื่องมือเพิ่มเติมในแผนแบบไดนามิกไม่มีผลต่อผลลัพธ์การทดสอบ

การทดสอบหลายรอบ

สำหรับประเภทการทดสอบแบบหลายขั้นตอน คุณสามารถระบุการทดสอบย่อยอย่างน้อยหนึ่งครั้งของประเภท ปกติ การทดสอบแต่ละรายการมีลำดับและความสำคัญ ลำดับจะกำหนดการดำเนินการตามลำดับภายในบริบทการสนทนาเดียวกัน (ภายในการทดสอบแบบหลายรอบ) ความสำคัญกำหนดว่ากรณีทดสอบย่อยต้องผ่านเพื่อให้การดำเนินการทดสอบแบบหลายรอบดำเนินต่อไปได้

สกรีนช็อตของการตั้งค่าการทดสอบแบบหลายเลี้ยวในชุด Copilot Studio

การทดสอบย่อยใด ๆ ที่จําเป็นต้องมีการประเมินผลหลังการทดสอบ เช่น การจับคู่หัวข้อ หรือ คําตอบที่สร้างไว้ จะยังคงอยู่ในสถานะรอดําเนินการและการดําเนินการทดสอบจะดําเนินการต่อโดยไม่คํานึงถึงสถานะที่สําคัญ หากการทดสอบที่สําคัญใด ๆ ล้มเหลว การดําเนินการของการทดสอบแบบหลายเลี้ยวจะหยุดและผลลัพธ์จะถือว่าล้มเหลว หากกรณีการทดสอบย่อยที่สำคัญทั้งหมดประสบความสำเร็จ ผลลัพธ์ของการสนทนาหลายรอบจะประสบความสำเร็จเช่นกัน

สกรีนช็อตของมุมมองผลลัพธ์แบบหลายเลี้ยวในชุด Copilot Studio

ใช้ชุดทดสอบย่อยที่ไม่สำคัญเพื่อ "ป้อน" ข้อมูลให้กับเอเจนต์ที่กำหนดเองด้วยการควบคุมการทำงานร่วมกันแบบสร้างสรรค์ คุณยังสามารถใช้กรณีทดสอบเหล่านี้เมื่อการตอบกลับไม่สําคัญ และคุณต้องการสร้างการทดสอบที่สําคัญ

การทดสอบการตรวจสอบความถูกต้องของแผน

การตรวจสอบแผนมุ่งเน้นไปที่ความถูกต้องของเครื่องมือ แทนที่จะประเมินว่าตัวแทนกล่าวอะไร ชนิดของการทดสอบนี้จะตรวจสอบว่ามีการใช้เครื่องมือที่คาดหวังในระหว่างแผนหรือไม่

เมื่อกําหนดการทดสอบการตรวจสอบแผน คุณระบุ:

  • การกล่าวทดสอบ
  • รายการที่คั่นด้วยจุลภาคของเครื่องมือที่คาดไว้ที่จะรวมไว้ในแผนแบบไดนามิก
  • ค่าเกณฑ์ผ่าน ซึ่งแสดงถึงค่าเบี่ยงเบนที่จะทนต่อจากรายการมากน้อยเพียงใด

การทดสอบนี้ใช้สําเนาบทสนทนาและได้รับการประเมินหลังจากการทดสอบจริงเป็นกิจกรรมการเสริมสร้าง

โปรดสังเกตข้อมูลต่อไปนี้:

  • เครื่องมือที่คาดหวัง: คุณสามารถรวมเครื่องมือ การดําเนินการ และตัวแทนที่เชื่อมต่อในรายการที่คั่นด้วยจุลภาค ไม่อนุญาตให้มีช่องว่างเพิ่มเติม และลําดับไม่สําคัญ

  • เปอร์เซ็นต์เกณฑ์ผ่าน: เกณฑ์ผ่านระบุสัดส่วนที่จำเป็นของเครื่องมือที่คาดว่าจะต้องมีอยู่ในแผนแบบไดนามิกเพื่อให้การทดสอบประสบความสำเร็จ

การตรวจสอบแผนเป็นการทดสอบเชิงกําหนด: ซึ่งจะคํานวณค่าเบี่ยงเบนของเครื่องมือจริงจากเครื่องมือที่คาดหวังและเปรียบเทียบกับค่าเกณฑ์การส่งผ่าน หากค่าเบี่ยงเบนอยู่ภายในค่าเกณฑ์ การทดสอบจะผ่าน มิฉะนั้นจะล้มเหลว

สกรีนช็อตของชนิดการทดสอบการตรวจสอบแผนในชุด Copilot Studio

เรียนรู้เพิ่มเติม: ปรับพฤติกรรมของตัวแทนด้วย AI ที่สร้าง

ใช้ Excel เพื่อสร้างหรืออัปเดตการทดสอบจํานวนมาก

หลังจากสร้างชุดการทดสอบแล้ว คุณสามารถใช้ Excel เพื่อสร้างหรืออัปเดตการทดสอบจํานวนมากได้

  1. จากเรกคอร์ดชุดการทดสอบของคุณ ให้สลับมุมมองตารางย่อยจาก การทดสอบ เป็น ส่งออก/นําเข้ามุมมอง
  2. เลือก ส่งออกการทดสอบเอเจนต์ใน Excel Online
  3. เพิ่มและปรับเปลี่ยนการทดสอบตามความจําเป็น
  4. เลือก บันทึก

หากคุณกําลังนําเข้าการทดสอบย่อยแบบหลายรอบ คุณต้องสร้างหรือนําเข้าการทดสอบแบบหลายรอบหลักที่แท้จริงก่อน จากนั้นจึงนำเข้ากรณีการทดสอบย่อย

เรียนรู้เพิ่มเติมเกี่ยวกับการนําเข้าและส่งออก Excel ในแอปแบบจําลองข้อมูล Power Apps

ทําซ้ําการทดสอบและชุดการทดสอบ

คุณสามารถทําซ้ําทั้งชุดการทดสอบและการทดสอบแต่ละรายการได้

  • หากต้องการทําซ้ํากรณีการทดสอบเดียว ให้เปิดเรกคอร์ดการทดสอบตัวแทนและเลือก ทําซ้ํากรณีการทดสอบ การดําเนินการนี้มีประโยชน์เมื่อคุณสร้างตัวแปรของกรณีการทดสอบ เช่น การเปลี่ยนสถานที่ เวลา หรือยอดเงิน

  • หากต้องการทําซ้ําชุดการทดสอบทั้งหมด ให้เปิดเรกคอร์ดชุดการทดสอบและเลือก ทําซ้ําชุดการทดสอบ จากแถบคําสั่ง การดําเนินการนี้จะสร้างสําเนาของชุดการทดสอบและการทดสอบย่อยทั้งหมด

ขั้นตอนถัดไป