แชร์ผ่าน


ML อัตโนมัติใน Fabric (ตัวอย่าง)

การเรียนรู้ของเครื่องอัตโนมัติ (AutoML) ช่วยให้ผู้ใช้สามารถสร้างและปรับใช้แบบจําลองการเรียนรู้ของเครื่องโดยการทําให้ส่วนที่ใช้เวลานานและซับซ้อนมากที่สุดของกระบวนการพัฒนาแบบจําลองเป็นไปโดยอัตโนมัติ ตามแนวปฏิบัติแล้ว การสร้างแบบจําลองการเรียนรู้ของเครื่องจําเป็นต้องมีความเชี่ยวชาญในด้านวิทยาศาสตร์ข้อมูล การเลือกแบบจําลอง การปรับแต่งและการประเมิน hyperparameter ซึ่งเป็นกระบวนการที่ต้องใช้ทรัพยากรมากและมีแนวโน้มที่จะทดลองใช้และมีข้อผิดพลาด AutoML ทําให้ง่ายขึ้นโดยการเลือกอัลกอริทึมที่ดีที่สุดโดยอัตโนมัติ การปรับแต่ง hyperparameters และสร้างแบบจําลองที่ปรับให้เหมาะสมตามข้อมูลป้อนเข้าและผลลัพธ์ที่ต้องการ

ใน Microsoft Fabric, AutoML จะมีประสิทธิภาพมากยิ่งขึ้นด้วยการรวมระบบข้อมูลของแพลตฟอร์มอย่างราบรื่น ช่วยให้ผู้ใช้สามารถสร้าง ฝึก และปรับใช้แบบจําลองได้โดยตรงบน lakehouses ของพวกเขา ด้วย AutoML ผู้ใช้ทั้งทางเทคนิคและผู้ใช้ที่ไม่ใช่ทางเทคนิคสามารถสร้างแบบจําลองคาดการณ์ได้อย่างรวดเร็วทําให้การเรียนรู้ของเครื่องสามารถเข้าถึงผู้ชมที่กว้างขึ้นได้ ตั้งแต่การคาดการณ์จนถึงการตรวจจับสิ่งผิดปกติและปรับการดําเนินธุรกิจให้เหมาะสม AutoML ใน Fabric จะเร่งเส้นทางจากข้อมูลดิบไปยังข้อมูลเชิงลึกที่สามารถดําเนินการได้ ซึ่งช่วยให้ผู้ใช้ใช้ประโยชน์จาก AI ด้วยความพยายามและผลกระทบสูงสุดที่น้อยที่สุด

สำคัญ

คุณลักษณะนี้อยู่ในตัวอย่าง

AutoML ทํางานอย่างไร?

FLAML (Fast and Lightweight AutoML) ขับเคลื่อนความสามารถ AutoML ใน Fabric ให้ผู้ใช้สามารถสร้าง ปรับใช้ และปรับใช้แบบจําลองการเรียนรู้ของเครื่องได้อย่างราบรื่นภายในระบบข้อมูลของแพลตฟอร์ม

FLAML เป็นไลบรารี AutoML แบบโอเพนซอร์สที่ออกแบบมาเพื่อส่งมอบแบบจําลองที่แม่นยําอย่างรวดเร็วโดยมุ่งเน้นไปที่ประสิทธิภาพ ลดค่าใช้จ่ายในการคํานวณและปรับแต่ง hyperparameters แบบไดนามิก FLAML จะทําการเลือกแบบจําลองและการปรับให้เหมาะสมโดยใช้กลยุทธ์การค้นหาตามทรัพยากรเพื่อปรับสมดุลการสํารวจและการหาประโยชน์เพื่อระบุแบบจําลองที่ดีที่สุดโดยไม่ต้องใช้เวอร์ชันทดลองและข้อผิดพลาดที่ครบถ้วน พื้นที่การค้นหาที่ปรับตัวได้และอัลกอริทึมน้ําหนักเบาทําให้เหมาะสําหรับชุดข้อมูลขนาดใหญ่และสภาพแวดล้อมที่จํากัด ช่วยให้มั่นใจได้ถึงประสิทธิภาพที่ปรับขนาดได้และรวดเร็ว การผสานรวมนี้กับ Fabric ทําให้การเรียนรู้ของเครื่องสามารถเข้าถึงได้ทั้งผู้ใช้ทางเทคนิคและไม่ใช่ด้านเทคนิค เพื่อเร่งเส้นทางจากข้อมูลดิบไปยังข้อมูลเชิงลึกที่ดําเนินการได้

งานการเรียนรู้ของเครื่อง

AutoML ใน Fabric สนับสนุนงานการเรียนรู้ของเครื่องที่หลากหลายรวมถึงการจําแนกการถดถอยและการคาดการณ์ทําให้มีความยืดหยุ่นสําหรับการใช้งานที่ขับเคลื่อนด้วยข้อมูลต่างๆ

การจัดประเภทแบบไบนารี

การจัดประเภทไบนารีคืองานการเรียนรู้ของเครื่องแบบมีผู้ควบคุมที่เป้าหมายคือการจัดประเภทจุดข้อมูลลงในหนึ่งในสองประเภทที่แตกต่างกัน ซึ่งเกี่ยวข้องกับการฝึกแบบจําลองในข้อมูลที่มีป้ายชื่อ ซึ่งแต่ละอินสแตนซ์จะถูกกําหนดให้กับหนึ่งในสองประเภทที่เป็นไปได้และแบบจําลองจะเรียนรู้ที่จะคาดการณ์คลาสที่ถูกต้องสําหรับข้อมูลใหม่ที่ยังไม่มองเห็น ตัวอย่างเช่น:

  • การตรวจหาสแปม: จัดประเภทอีเมลเป็นสแปมหรือไม่จัดประเภทสแปม
  • การตรวจจับการฉ้อโกง: การตั้งค่าสถานะธุรกรรมทางการเงินเป็นการฉ้อฉลหรือถูกกฎหมาย
  • การตรวจคัดกรองโรค: การทํานายว่าผู้ป่วยมีสภาพเป็น (บวก) หรือไม่ (ลบ)

การจัดประเภทแบบหลายประเภท

การจัดประเภทแบบหลายประเภทสําหรับข้อมูลแบบตารางเกี่ยวข้องกับการกําหนดป้ายชื่อที่เป็นไปได้หนึ่งป้ายให้กับข้อมูลที่มีโครงสร้างแต่ละแถวตามคุณลักษณะในชุดข้อมูลนั้น นี่คือตัวอย่างบางส่วนที่เกี่ยวข้องกับชุดข้อมูลแบบตารางในโลกแห่งความจริง:

  • การแบ่งเซกเมนต์ลูกค้า: จัดประเภทลูกค้าเป็นเซกเมนต์ เช่น "ค่าสูง" "ค่าปานกลาง" หรือ "ค่าต่ํา" ตามข้อมูลประชากร การซื้อ และพฤติกรรม
  • การประเมินความเสี่ยงเงินกู้: การคาดการณ์ระดับความเสี่ยงของการสมัครสินเชื่อเป็น "ต่ํา" "ปานกลาง" หรือ "สูง" โดยใช้ข้อมูลผู้สมัครเช่นรายได้คะแนนเครดิตและสถานะการจ้างงาน
  • การคาดการณ์หมวดหมู่ผลิตภัณฑ์: กําหนดหมวดหมู่ผลิตภัณฑ์ที่เหมาะสมเช่น "อิเล็กทรอนิกส์" "เสื้อผ้า" หรือ "เฟอร์นิเจอร์" โดยยึดตามแอตทริบิวต์เช่นราคาแบรนด์และข้อมูลจําเพาะของผลิตภัณฑ์
  • การวินิจฉัยโรค: การระบุชนิดของโรคที่ผู้ป่วยอาจมีเช่น "โรคเบาหวานประเภท 1" "เบาหวานประเภท 2" หรือ "โรคเบาหวานทางเดินอาหาร" ตามมาตรวัดทางคลินิกและผลการทดสอบ

ตัวอย่างเหล่านี้เน้นว่าการจําแนกประเภทแบบหลายประเภทสามารถสนับสนุนการตัดสินใจในอุตสาหกรรมต่าง ๆ ได้อย่างไร ซึ่งผลลัพธ์สามารถใช้หนึ่งในหมวดหมู่พิเศษร่วมกันได้

การถดถอย

การถดถอยคือประเภทของการเรียนรู้ของเครื่องที่ใช้ในการคาดการณ์ตัวเลขที่ยึดตามข้อมูลอื่น ๆ ที่เกี่ยวข้อง ซึ่งมีประโยชน์เมื่อเราต้องการประมาณค่าเฉพาะ เช่น ราคา อุณหภูมิ หรือเวลา ตามปัจจัยที่แตกต่างกันที่อาจส่งผลต่อค่านั้น ต่อไปนี้คือตัวอย่างสถานการณ์บางส่วน:

  • การทํา นายราคา บ้านโดยใช้ข้อมูล เช่น ตารางฟุต จํานวนห้อง และตําแหน่งที่ตั้ง
  • การประมาณ ยอดขาย รายเดือนตามการใช้จ่ายทางการตลาด ฤดูกาล และแนวโน้มการขายในอดีต

การคาดการณ์

การคาดการณ์เป็นเทคนิคการเรียนรู้ของเครื่องที่ใช้ในการทํานายค่าในอนาคตตามข้อมูลในอดีต ซึ่งมีประโยชน์โดยเฉพาะอย่างยิ่งสําหรับการวางแผนและการตัดสินใจในสถานการณ์ที่แนวโน้มและรูปแบบที่ผ่านมาสามารถแจ้งให้ทราบว่าสิ่งใดจะเกิดขึ้นต่อไป การคาดการณ์จะใช้ข้อมูลตามเวลา—หรือที่เรียกว่า ข้อมูลชุดข้อมูลเวลา—และวิเคราะห์รูปแบบเช่น กาล แนวโน้ม และวงจรเพื่อทําการคาดการณ์ที่ถูกต้อง ต่อไปนี้คือตัวอย่างสถานการณ์บางส่วน:

  • การคาดการณ์ยอดขาย: การคาดการณ์ยอดขายในอนาคตตามยอดขายในอดีต กาล และแนวโน้มของตลาด
  • การคาดการณ์สินค้าคงคลัง: การกําหนดความต้องการในอนาคตสําหรับผลิตภัณฑ์โดยใช้ข้อมูลการซื้อและวงจรตามฤดูกาลก่อนหน้านี้

การคาดการณ์ช่วยให้องค์กรสามารถตัดสินใจอย่างมีข้อมูลไม่ว่าจะเป็นการสร้างความมั่นใจในสต็อกทรัพยากรการวางแผนหรือการเตรียมการเปลี่ยนแปลงทางการตลาดให้เพียงพอหรือไม่

ชุดข้อมูลการฝึกอบรมและการทดสอบ

การสร้าง ชุดข้อมูล การฝึกอบรมและการทดสอบเป็นขั้นตอนสําคัญในการสร้างแบบจําลองการเรียนรู้ของเครื่อง ชุดข้อมูลการฝึกอบรมถูกใช้เพื่อสอนแบบจําลอง เพื่อให้สามารถเรียนรู้รูปแบบจากข้อมูลที่ติดป้ายชื่อ ในขณะที่ชุดข้อมูลทดสอบจะประเมินประสิทธิภาพของแบบจําลองในข้อมูลใหม่ที่ยังไม่มองเห็น ช่วยในการตรวจสอบความถูกต้องและความสามารถในการทั่วไป การแยกข้อมูลด้วยวิธีนี้ช่วยให้แน่ใจว่าแบบจําลองไม่เพียงแค่จดจํา แต่สามารถทําให้ข้อมูลทั่วไปกับข้อมูลอื่น ๆ ได้

ใน Fabric เครื่องมือ AutoML ทําให้กระบวนการนี้ง่ายขึ้นโดยการแยกข้อมูลออกเป็นชุดการทดสอบและการฝึกอบรมโดยอัตโนมัติ ปรับแต่งการแยกตามแนวทางปฏิบัติที่ดีที่สุดสําหรับงานเฉพาะเช่นการจําแนกการถดถอยหรือการคาดการณ์

วิศวกรรมคุณลักษณะ

วิศวกรรมคุณลักษณะคือกระบวนการในการแปลงข้อมูลดิบเป็นคุณลักษณะที่มีความหมายซึ่งช่วยปรับปรุงประสิทธิภาพของแบบจําลองการเรียนรู้ของเครื่อง ซึ่งเป็นขั้นตอนที่สําคัญเนื่องจากคุณลักษณะที่ถูกต้องช่วยให้แบบจําลองเรียนรู้รูปแบบและความสัมพันธ์ที่สําคัญในข้อมูล ซึ่งนําไปสู่การคาดการณ์ที่ดีขึ้น ตัวอย่างเช่น ในชุดข้อมูลของวันที่ การสร้างคุณลักษณะเช่น "เป็นวันหยุด" สามารถแสดงแนวโน้มที่ปรับปรุงแบบจําลองการคาดการณ์ได้

ใน Fabric ผู้ใช้สามารถใช้ประโยชน์จาก auto_featurize ฟังก์ชันการทํางานเพื่อทําให้ส่วนหนึ่งของกระบวนการนี้ทํางานโดยอัตโนมัติ auto_featurize วิเคราะห์ข้อมูลและแนะนําหรือสร้างคุณลักษณะที่เกี่ยวข้อง เช่น การรวม การเข้ารหัสตามประเภท หรือการแปลงข้อมูล ซึ่งอาจเพิ่มประสิทธิภาพการคาดการณ์ของแบบจําลอง ฟังก์ชันนี้ช่วยประหยัดเวลาและทําให้วิศวกรรมคุณลักษณะภายในสามารถเข้าถึงสําหรับผู้ใช้ที่มีระดับประสบการณ์ที่แตกต่างกันทําให้สามารถสร้างแบบจําลองที่ถูกต้องและมีประสิทธิภาพมากขึ้น

ขั้นตอนถัดไป