Non classé • 18.02.2026

การเรียนรู้ของเครื่องและ chimiométrie : SVM และ Random Forest ที่นำไปใช้กับสเปกตรัม

Julie

machine learning et chimiométrie: svm et rf sur spectres

INDEX +

ในห้องทดลองของฉัน ฉันมักได้ยินคำถามเหมือนเดิมเสมอ: “จะทำให้ข้อมูลสเปกโทรสโกปีของเราใช้ประโยชน์สูงสุดด้วยโมเดลสมัยใหม่ได้อย่างไร?” นี่คือความทะเยอทะยานที่อยู่ในใจของ Machine Learning et chimiométrie ฉันขอเสนอทัวร์นำทางที่เป็นรูปธรรมและปราศจากศัพท์เทคนิคเกินจำเป็น เพื่อเปรียบเทียบ SVM และ Random Forest ที่นำไปใช้กับสเปกตรัม พร้อมด้วยคำติชมจากสนามและเคล็ดลับเล็กๆ เพื่อหลีกเลี่ยงกับดักที่ทำให้เสียเวลาเป็นสัปดาห์

Machine Learning et chimiométrie : SVM et Random Forest ที่ประยุกต์กับสเปกตรัม

สัญญาณสเปกตรัมมีเสน่ห์เฉพาะตัว: มีตัวแปรจำนวนมาก มักมีความสัมพันธ์กัน บางครั้งมีเสียงรบกวน และความสัมพันธ์ไม่เชิงเส้นที่แพร่หลายกับคุณสมบัติที่สนใจ ในกรอบนี้ SVM และ Random Forest ได้พบตำแหน่งของตนร่วมกับวิธีการดั้งเดิมของสาขา ทั้งในการจำแนกและในการถดถอย พวกมันจัดการกับมิติสูงได้ดี จับปฏิสัมพันธ์ และมอบทางเลือกที่แท้จริงเมื่อเส้นขอบตรงธรรมดาไม่เพียงพอ

ความคิดแรกของฉัน: ตรวจสอบโครงสร้างข้อมูลและขนาดชุดข้อมูล SVM โดดเด่นเมื่อมีตัวอย่างน้อยแต่มีมิติสูง ส่วน Random Forest มีความทนทานต่อการซ้ำซ้อนและค่าผิดปกติในระดับปานกลาง บนสเปกตรัม spectres NIR, MIR หรือ Raman แนวทางทั้งสองมักช่วยปรับปรุง baseline PLS ได้ หากใส่ใจการเตรียมข้อมูลและการประเมินอย่างรอบด้าน

Prétraitement et représentation des spectres pour SVM et Random Forest

ก่อนจะฝันถึงประสิทธิภาพที่เปล่งประกาย จำเป็นต้องมี prétraitement. การปรับฐานเส้น, การทำให้เรียบ, การทำให้เป็นมาตรฐาน: ขั้นตอนเหล่านี้กำหนดความสำเร็จ. ลิงก์ที่เป็นประโยชน์หากคุณเริ่มต้นหรืออยากสร้าง pipeline ของคุณ: การเตรียมข้อมูลสเปกตรัล. นี่ไม่ใช่หรูหรา แต่มันคือการประกันคุณภาพ

ในการทดลองของฉัน การทำ standardisation ด้วย SNV ทำให้ความผันผวนของ offset และสเกลมีเสถียรภาพมากขึ้น dérivée Savitzky-Golay ชี้ให้เห็นแถบละเอียดและลด artefacts ที่ลืนไหลลงมาอย่างช้าๆ; ต้องปรับให้เหมาะสมเพื่อไม่ลบข้อมูลทางเคมี การลดมิติด้วย PCA ก็อาจช่วยปรับปรุงเสถียรภาพเชิงตัวเลขของ SVM และเร่งการฝึก พร้อมกรองสัญญาณรบกวน

Nettoyage : การแก้ไขเส้นฐาน, การขจัดสัญญาณรบกวน, การกำจัด artefacts
Normalisation : การทำให้ค่าเป็นศูนย์และลดความแปรปรวน, SNV, การปรับสเกลตามช่วงหรือควอนทิ้ล
Renforcement des signaux : การทำให้เรียบ, การคำนวณอนุพันธ์, การเลือกบริเวณสเปกตรัมที่เกี่ยวข้อง
Projection : PCA หรือ autoencodeur เชิงเส้นเพื่อ ลดมิติ

Comparer SVM et Random Forest sur signaux spectraux

สำหรับช่วยนักเรียน ฉันมีตารางช่วยจำ มันไม่ทดแทนการทดลองจริง แต่ชี้นำในการตัดสินใจ สิ่งสำคัญคือการทดสอบบนเมทริกซ์จริงของคุณ เพราะบริบท (เครื่องมือ, ช่วงความเข้มข้น, เมทริกซ์) เปลี่ยนคำตัดสิน

Critère	SVM	Random Forest
ชนิดของความสัมพันธ์	เยี่ยมบนเส้นแบ่งที่ซับซ้อนด้วย kernel	จับปฏิสัมพันธ์และผลลัพธ์ไม่เชิงเส้น
ขนาดตัวอย่าง	มีประสิทธิภาพเมื่อมีตัวอย่างน้อยและตัวแปรมาก	สบายเมื่อการสุ่มตัวอย่างเริ่มมั่นคง
ความไวต่อเสียงรบกวน	อาจไวต่อพารามิเตอร์การควบคุม	ค่อนข้างทนทานด้วยการรวม
ความสามารถในการตีความ	ยากขึ้น ขึ้นกับ kernel	มาตรวัดความสำคัญ และต้นไม้บางส่วนอ่านได้
การตั้งค่าหลัก	C, gamma, การเลือก kernel	จำนวนต้นไม้, ความลึก, การสุ่มตัวอย่าง
ความเร็ว	อาจมีค่าใช้จ่ายสูงบนชุดข้อมูลใหญ่	ขนานได้ บางครั้งทำนายได้เร็ว

Quelques repères pratiques

เมื่อแถบสเปกตรัมกว้างและความสัมพันธ์ค่อนข้างอ่อน PLS ที่มั่นคงอาจพอเพียง เมื่อขอบเขตระหว่างคลาสบิดเบี้ยวหรือคำตอบไหลออกนอกเชิงเส้น SVM และการถดถอยจะได้เปรียบ โดยทั่วไปฉันลองทั้งสามกลุ่มด้วยมาตรฐานการประเมินเดียวกันเพื่อปล่อยให้ข้อมูลตัดสิน

Astuces d’optimisation des hyperparamètres en chimiométrie

ปีศาจซ่อนอยู่ใน ไฮเปอร์พารามิเตอร์. สำหรับ SVM การรวมค่าพารามิเตอร์ C และ นิวเคลียร์ RBF ควรใช้กริดที่ละเอียด หรือการค้นหาแบบสุ่มที่จำกัดอย่างเหมาะสม ค่า C ที่ใหญ่เกินไปทำให้จำทุกอย่าง ในขณะที่ gamma ที่มากเกินไปทำให้เส้นแบ่งกลายเป็นเส้นขอบที่ไม่สมเหตุสมผล

ฉันอธิบายแนวคิดด้วย มาร์จที่ยืดหยุ่น: ยอมรับข้อผิดพลาดเล็กน้อยหากเส้นขอบสามารถทั่วไปได้ดีขึ้น สำหรับฝั่ง forests ให้เพิ่มจำนวนต้นไม้จนกว่าจะมั่นคง ควบคุมความลึกและตัวแปรที่เลือกต่อการแยกเพื่อหลีกเลี่ยงการฟิตมากเกินไปของใบไม้ Bootstrap sampling และการรวมเป็นสิ่งที่ช่วยป้องกันกับดัก แต่ไม่สามารถป้องกันฐานข้อมูลที่เตรียมมาไม่ดีได้

Procédure recommandée

Définir une grille raisonnable, guidée par des essais rapides et la physique du problème.
Utiliser une validation imbriquée pour séparer le choix des paramètres et l’estimation du score.
Documenter chaque essai : prétraitements, paramètres, métriques, graine aléatoire.

Évaluer la performance et éviter les pièges

Le choix des métriques dépend du but. En classification : exactitude, F1, matrice de confusion, AUC. En régression : RMSEP, R2, biais, et parfois des bornes d’acceptation liées au procédé. Le cœur de l’affaire reste la validation croisée, adaptée au dessin expérimental : lots, jours, opérateurs, instruments.

Pour juger une calibration, j’utilise souvent RMSECV en première passe, puis une validation externe sur un jeu gelé. Les mélanges de matrices ou des lots jamais vus testent la vraie robustesse. Surveillez la fuite d’information : ne normalisez jamais sur l’ensemble complet avant de découper. Les répliques d’un même échantillon doivent rester dans le même pli pour ne pas tricher.

Erreurs fréquentes à éviter

สลับตัวอย่างจากชุดเดียวกันระหว่างการฝึกและการทดสอบ
ปรับพารามิเตอร์บนชุดทดสอบ แล้วรายงานคะแนนนั้น
ละเลยผลกระทบจาก drift เครื่องมือและการบำรุงรักษา
ละเลยการโอเวอร์ฟิตเมื่อมิติสูงมากกว่า n อย่างมาก

Retour d’expérience en laboratoire

โครงการที่น่าจดจำ: การทำนายความชื้นในผงเภสัชกรรมด้วย NIR หลังจากการทำความสะอาดพื้นฐาน, SNV และ derivative เล็กน้อย PLS คงที่ บนกรอบ Gaussian SVM ได้ปลดล็อกไม่เชิงเส้นที่ปรากฏระหว่าง 1 400 และ 1 900 nm โดย RMSE ภายนอกลดลงอย่างชัดเจน ผลประโยชน์ไม่มาจากโชคดี แต่จากขอบเขตที่อ่อนกว่าระหว่างพื้นที่ที่ดูดซับสูงและต่ำ

กรณีอื่น: การจำแนกกาแฟตามแหล่งกำเนิดด้วยสเปกตรัม MIR Random Forest ทนต่อการเลื่อนไปมาของช่วงระหว่างการเก็บเกี่ยวได้ดีกว่า ความสำคัญของตัวแปร ได้ชี้ให้เห็นบริเวณที่เกี่ยวกับสารระเหยที่สำคัญ ซึ่งมีประโยชน์ในการนำทางการเลือกช่วงคลื่นและการหารือกับผู้เชี่ยวชาญด้านเซ็นเซอร์

“เมื่อวิธีหนึ่งชนะ ฉันมักถามเสมอ: มันเข้าใจอะไรที่อีกอย่างพลาดไป? คำตอบมักอยู่ในขั้นตอนการเตรียมข้อมูลล่วงหน้าและรูปแบบการประเมิน.”

เตือนด้านโลจิสติกส์เล็กน้อย: การปรับปรุง 10% บนชุดข้อมูลชุดเดียวไม่มีค่าอะไรถ้าอีกหกเดือนต่อมาการทำงานไม่ดีบนชุดตัวอย่างใหม่ จงวางแผนการประเมินซ้ำเป็นระยะและเก็บตัวอย่างควบคุมไว้เพื่อวัดการเสื่อมสภาพ

Déploiement, robustesse et transfert entre instruments

การนำไปใช้งานจริงต้องมีระเบียบ สคริปต์การเตรียมล่วงหน้าที่ถูกตรึงไว้ เวอร์ชันที่ควบคุม เกณฑ์เตือน และขั้นตอนการ recalibration การ ถ่ายโอนโมเดลระหว่างเครื่องมืออาจกลายเป็นปัญหาหากความละเอียด ความตอบสนองทางสเปกตรัม หรือรูปทรงการวัดแตกต่างกัน วิธีการต่างๆ เช่น การ standardisation ตามล็อต การปรับ alignment ของ peaks หรือการแก้ไขแบบชิ้น-ต่อ-ชิ้น ช่วยให้พบความเท่าเทียมกัน

ฉันแนะนำให้รักษาชุดข้อมูลอ้างอิงระหว่างเครื่องมือและจำลองความแปรปรวนที่คาดไว้ล่วงหน้า ป่าไม้โดยทั่วไปจะยอมรับต่อการเลื่อนไปเล็กน้อย SVM มีประสิทธิภาพ แต่บางครั้งไวต่อการแปลสเปกตรัมเล็กๆ การติดตามสถิติประจำเดือนของเมตริกสำคัญช่วยให้หลีกเลี่ยงความประหลาดใจในการควบคุมคุณภาพ

Ce qu’il faut retenir

ข้อมูลสเปกตรัลต้องการการดูแล: pipeline การทำความสะอาด การแทนที่ข้อมูลที่เหมาะสม และการประเมินอย่างเข้มงวด SVM มอบความละเอียดอ่อนที่น่าประทับใจสำหรับเส้นขอบที่บิดเบี้ยวและชุดข้อมูลที่กะทัดรัด Random Forest มอบความทนทาน ความสามารถในการทำงานพร้อมกัน และการอ่านตัวแปร คู่ของมันจะชนะเมื่อเราจัดโครงสร้างแนวทาง ตั้งแต่การได้มาไปจนถึงการตรวจสอบภายนอก โดยมีเอกสารที่เป็นระเบียบ

หากคุณเริ่มโปรเจ็กต์ใหม่ เริ่มด้วยคำประกาศก่อนเกี่ยวกับ การเตรียมข้อมูลสเปกตรัล, กำหนดขั้นตอนการ การประเมินที่สามารถทำซ้ำได้, แล้วเปรียบ PLS, SVM และ forests บนสนามแข่งขันเดียว คุณจะมีสติในการเลือกวิธีที่ตอบโจทย์จริงๆ สำหรับวัตถุประสงค์ทางธุรกิจและความเป็นจริงของเครื่องมือในห้องปฏิบัติการ