Non classé 19.02.2026

การจำแนกแบบไม่ต้องมีผู้สอน (HCA) : วิธีเชิงเคมีเมตริก

Julie
classification non supervisée (hca) en chimiométrie: guide
INDEX +

คุณกำลังมองหาวิธีเปลี่ยนการวัดที่ซับซ้อนให้เป็นกลุ่มที่อ่านง่ายโดยไม่บังคับให้มีป้ายกำกับหรือไม่? นี่คือสิ่งที่การ classification non supervisée (HCA) ในห้องทดลองนำเสนออย่างแม่นยำ ฉันได้ใช้วิธีนี้มาหลายปีเพื่อสำรวจ signatures spectrales, จัดหมวดล็อตการผลิต และระบุพฤติกรรมที่ซ่อนอยู่ ด้านล่างนี้คุณจะพบคำอธิบายที่ชัดเจน ทางเลือกทางเมธอดที่เป็นรูปธรรม ประสบการณ์การใช้งาน และคู่มือการปฏิบัติ หากคุณเริ่มต้นใน chimiométrie, จุดมุ่งหมายง่ายๆ คือ: เพื่อเพิ่มความ discernment ก่อนที่จะทำโมเดล

ทำความเข้าใจการ Classification non supervisée (HCA) ใน chimiométrie

HCA หมายถึง Hierarchical Cluster Analysis. ในภาษาฝรั่งเศส มักเรียก CAH (Classification ascendante hiérarchique). หลักการ: รวมตัวอย่างที่คล้ายคลึงกันทีละขั้นตอน จนกว่าจะได้โครงสร้างที่แสดงออกมาผ่าน dendrogramme. ไม่มีคลาสใดถูกกำหนดไว้ตั้งแต่ต้น; โครงสร้างมาจากข้อมูลเอง.

ในการเคมีวิเคราะห์ การทำแผนที่นี้เผยให้เห็นกลุ่มของวัตถุดิบ, โปรไฟล์การผลิต หรือสภาวะการเสื่อมสภาพ บนสเปกตรัม NIR หรือ Raman รูปแบบที่อ่อนแต่มีความสอดคล้องกันจะเด่นชัดออกมา ฉันชอบเริ่มด้วยการสำรวจ HCA ก่อนการโมเดลลิ่งที่ทำนายผลลัพธ์: เราเข้าใจพื้นที่, ระบุกรณีพิเศษ, แล้วตัดสินใจกับแผนปฏิบัติการ.

Préparer les données avant une HCA robuste

คุณภาพของการรวบรวมข้อมูลขึ้นอยู่ก่อนกับ การเตรียมล่วงหน้า. ความแตกต่างของสัญญาณที่โดดเด่นมักบดบังข้อมูลละเอียด และความแปรผันของเครื่องมือทำให้เกิดการชิดกันเท็จ อย่างน้อย ให้ทำการศูนย์กลางและลดค่าของตัวแปร: การศูนย์กลาง-ลดค่า ทำให้แต่ละตัวแปรมีขนาดที่เท่าเทียมกัน ในสเปกโทรสโกปี, การปรับแนวฐานเส้น, การแก้ drift และการทำ normalization เป็นสิ่งที่สำคัญ.

บนสเปกตรัม NIR ที่มีลักษณะคล้ายแป้ง ฉันพบว่าการ normalization แบบ SNV SNV ที่ง่ายร่วมกับการทำ lissage-dérivée Savitzky–Golay ช่วยกำจัด texture และเผยความแตกต่างทางเคมี เพื่อเจาะลึกเพิ่มเติม prétraitement des données spectrales ควรอ่านอย่างละเอียด เนื่องจากแต่ละเมทริกซ์มีลักษณะเฉพาะ.

Gérer les valeurs aberrantes et les manques

ก่อนเริ่ม HCA ตรวจสอบค่ามากสุด คอลัมน์ที่แทบจะคงที่ และข้อมูลที่หายไป Outlier อาจลากกลุ่มไปยังสาขาที่ปลอมแปลง เป็นพฤติกรรมที่ฉันทำคือ การตรวจสอบด้วยกราฟ สถิติที่ทนทาน และหากจำเป็น การเติมข้อมูลอย่างระมัดระวัง HCA จะเชื่อถือได้เมื่อแหล่งที่มาของความแปรผันถูกเข้าใจ ไม่ใช่แค่ทำความสะอาด.

Distances et méthodes d’agrégation : choisir selon la chimie du problème

สององค์ประกอบสำคัญที่สร้างโครงสร้างลำดับชั้นของคุณ: การวัดความคล้ายคลึงและวิธีรวมกลุ่มเข้าด้วยกัน ความชอบของฉันเปลี่ยนไปตามธรรมชาติของตัวแปร, มาตราส่วน และเสียงรบกวน

การวัด / ความสัมพันธ์ เมื่อใดที่ใช้งาน ข้อดี / จุดที่น่าสังเกต
ระยะทางยูคลิด ข้อมูลที่ถูกศูนย์กลาง-ลดค่า, สัญญาณที่เปรียบเทียบได้ ใช้งานง่าย, มีความอ่อนไหวต่อแอมพลิจูดที่เหลือ
Manhattan (L1) มีค่าผิดปกติสูง, ความทนทาน ไวต่อ outliers น้อยลง, อาจทำให้เรียบเกินไป
สหสัมพันธ์ รูปร่างของโปรไฟล์สำคัญกว่าความเข้ม ไม่สนระดับ/มาตราส่วน ใช้ได้ดีสำหรับสเปกตรัมที่ผ่านการ normalization
Mahalanobis ตัวแปรที่สัมพันธ์กัน, covariance informative จำเป็นต้องประมาณค่า covariance อย่างน่าเชื่อถือ
การเชื่อมโยงง่าย / สมบูรณ์ / เฉลี่ย ควบคุมความกะทัดรัด vs. การเชื่อมโยง การเชื่อมโยงสมบูรณ์มักสนับสนุนคลัสเตอร์ที่แน่น
méthode de Ward ลด inertie intra-groupe มักอ่านง่ายที่สุดสำหรับ matrices centrées

ในการใช้งานประจำวัน ฉันผสม Ward กับระยะห่างยูคลิดบนข้อมูลที่ปรับสเกลอัตโนมัติ. สำหรับลายพิมพ์ chromatographic บางครั้ง ความสัมพันธ์ (สหสัมพันธ์) มอบมุมมองที่เกี่ยวกับรูปแบบของสัญญาณมากกว่าความสูงของมัน.

Interpréter le dendrogramme et fixer le nombre de classes

การตัด dendrogramme ไม่ใช่เพียงเส้นแนวนอนที่สุ่มบังเอิญ. ตรวจหาช่องว่างในระดับความสูงที่สะท้อนการรวมตัวที่มีค่าใช้จ่ายสูง; ลองตัดหลายจุดและเปรียบเทียบกับความจริงทางธุรกิจ. เมทริกส์ช่วย: การตรวจสอบความถูกต้องของคลัสเตอร์ด้วยความเสถียร bootstrap, การกระโดดของความไม่สอดคล้อง, silhouette ที่เหมาะสมกับการแบ่งสุดท้าย. สหสัมพันธ์ cophenétique (coefficient de corrélation cophenétique) บ่งชี้ว่าลำดับชั้นสะท้อนความแตกต่างเริ่มต้นได้ดีหรือไม่.

เมื่อสองทางเลือกที่แข่งขันกันปรากฏ ฉันกลับไปดูตัวอย่าง: อะไรที่ทำให้พวกมันแตกต่างทางกายภาพ? ในแฟ้มเภสัชกรรม การตัดที่ดีที่สุดแยกแยะแคปซูลตามความชื้นที่เหลืออยู่ ซึ่งได้รับการยืนยันด้วย Karl Fischer ต่อไป HCA ชนะเสมอเมื่อการตีความทางเคมีสอดคล้องกับการคำนวณ.

Cas pratiques issus du laboratoire

NIR et matières premières agro

บนแป้ง (farines), HCA แสดงให้เห็นสามครอบครัวที่เรียงตามปริมาณโปรตีน หลังจาก SNV และ derivative ของ Savitzky–Golay โครงสร้างชัดเจนขึ้นและเอื้อต่อการตั้งค่าควบคุมเข้ามีความละเอียดมากขึ้น.

Fermentations et suivi de lots

ในการ bioprocédés, HCA บนโปรไฟล์ตามเวลา (pH, DO, สัญญาณ spectroscopiques) แยกถังที่ปลอดภัยออกจากถังที่ไวต่อการปนเปื้อนแลคติก การเปิดการตรวจสอบตั้งแต่เนิ้ๆ ทำให้หลีกเลี่ยงการเสียหายของ batch.

Empreintes chromatographiques

สำหรับสารสกัดจากพืช สหสัมพันธ์ด้วยการเชื่อมโยงแบบครบถ้วนได้รวบรวมโปรไฟล์ตาม chémotype. การวิเคราะห์เป้าหมายของจุดที่สามารถแบ่งแยกได้ ทำให้การบันทึกคุณภาพง่ายขึ้น รายละเอียดเชิงปฏิบัติ: การทำ smoothing มากเกินไปบางครั้งทำให้มาร์คเกอร์สำคัญถูกบดบัง.

คุณค่าของ HCA ไม่ได้อยู่ที่ซอฟต์แวร์เท่าไร แต่ขึ้นอยู่กับความสามารถในการฟังเสียงจากกิ่งที่แยกออกมา สถิติเป็นเครื่องเสนอ ส่วนเคมีเป็นผู้ยืนยัน

HCA, ACP et k-means : quel outil quand ?

HCA สำรวจและโครงสร้าง. ACP (การวิเคราะห์องค์ประกอบหลัก) จะฉายภาพทิศทางของความแปรผัน; k-means กำหนดจำนวนกลุ่มและเพิ่มประสิทธิภาพความแน่นของกลุ่ม. ในทางปฏิบัติ ฉันทำต่อเนื่อง: ACP เพื่อดูภาพรวม, HCA เพื่ออ่าน proximities hiérarchiques, k-means เพื่อสร้างเสถียรภาพในการแบ่งสุดท้าย. เพื่อทบทวนพื้นฐาน ฉันอ้างอิงถึงแหล่งข้อมูลที่ชัดเจนนี้เกี่ยวกับ l’ACP en chimiométrie.

ในเมทริกซ์ที่มีเสียงรบกวนมาก ACP ก่อนหน้าเป็นฟิลเตอร์: ลดมิติให้เหลือองค์ประกอบที่เกี่ยวข้อง ทำให้ระยะห่างมีเสถียรภาพ. ในคลาสที่คาดหวังในกระบวนการผลิต, k-means เร็วและเพียงพอ; สำหรับการคัดกรองเชิงสำรวจ, HCA บอกเรื่องราวที่รวยขึ้น.

Procédure pas à pas pour déployer une HCA en routine

  • Définir l’objectif : contrôle d’entrée, investigation qualité, étude exploratoire.
  • Documenter l’acquisition : lots, étalonnages, limites du système.
  • Nettoyer et prétraiter : correction de bruit instrumental, normalisation, centrage-réduction, gestion des manques.
  • Réduire si besoin la dimension (ACP ou sélection de variables).
  • Choisir distance et lien selon la physico-chimie et l’UX d’interprétation.
  • Lancer l’HCA, examiner le dendrogramme, tester plusieurs coupes.
  • Valider : stabilité, pertinence métier, cohérence métrologique.
  • Documenter les règles de décision et intégrer dans le flux qualité.

Conseils de praticien

  • Conserver une version “brute” et une version prétraitée pour comparer.
  • ทดสอบ Ward + Euclidienne บนข้อมูลที่ปรับสเกลด้วยตนเองเป็นการตั้งค่าพื้นฐาน
  • Échantillonner des témoins dans chaque cluster pour vérification chimique.
  • Noter les transformations appliquées : traçabilité et reproductibilité priment.

Classification non supervisée (HCA) : bonnes pratiques et limites

L’HCA excelle pour dévoiler des proximités et initier des hypothèses. La méthode reste sensible aux échelles, aux variables redondantes et aux artefacts de mesure. Un choix judicieux de prétraitements, la confrontation systématique au contexte et quelques indicateurs de qualité évitent les pièges fréquents.

Si vous travaillez sur des spectres ou des profils capricieux, investissez du temps dans les réglages de prétraitement, puis confrontez votre dendrogramme à des mesures orthogonales. Cette discipline d’analyse transforme un outil exploratoire en véritable levier de décision.

chimiometrie.fr – Tous droits réservés.