Non classé • 19.02.2026

PCR ou PLS: Qual método de regressão quimiométrica escolher?

Julie

pcr ou pls : choisir une régression fiable rapidement

INDEX +

Você está em dúvida entre PCR e PLS para calibrar seus modelos? A questão retorna a cada semestre com meus alunos e nos workshops na indústria. “PCR ou PLS: Qual método de regressão quimiométrica escolher?” resume muito bem o dilema. Vou apresentar um guia prático, alimentado por experiências de campo, para decidir com serenidade, ganhar tempo e assegurar suas previsões.

PCR ou PLS: qual método de regressão quimiométrica escolher?

Ambas pertencem à família da regressão multivariada e lidam com conjuntos de dados com um grande número de variáveis correlacionadas, típicas da espectroscopia. A PCR constrói primeiro componentes em X, depois faz a regressão de Y sobre os scores da ACP. A PLS extrai direções diretamente correlacionadas com Y. Você já entendeu: mesmo destino, trajetórias distintas, e consequências concretas sobre a robustez, a explicabilidade e o desempenho.

Definições rápidas para começar bem

PCR: primeiro realiza-se uma análise em componentes Principais (ACP) sobre X, depois faz-se uma regressão linear de Y sobre os scores da ACP.
PLS: extrai-se variáveis latentes que maximizam a covariância entre X e Y, e então projeta-se a resposta nessas direções. Para bases sólidas, veja também o artigo “regressão PLS”.

O que cada abordagem otimiza

A PCR explica primeiro a variância de X, arriscando negligenciar uma parte da informação pertinente para Y. A PLS, por sua vez, busca direções preditivas de Y desde o início. Essa escolha metodológica influencia o número de componentes retidos, a gestão da colinearidade e a estabilidade dos coeficientes.

Critério	PCR	PLS
Objetivo	Maximizar a variância de X	Maximizar a covariância X–Y
Número de componentes	Às vezes maior	Geralmente mais compacto
Dados ruidosos	Pode diluir as informações úteis para Y	Apreende melhor as direções preditivas
Interpretabilidade	Fácil em relação à estrutura de X	Boas métricas de importância (ex. VIP)
Risco de sobreajuste	Relacionado ao número de componentes	A ser monitorado via validação cruzada
Multi-resposta	Menos natural	PLS2 muito adequado

Lembretes fundamentais e diferenças-chave

Na PCR, as primeiras componentes traduzem a estrutura dominante de X: espessura, variação de linha de base, intensidades globais. Se essas tendências não explicam Y, é preciso subir de patamar de componentes, correndo o risco de trazer ruído. Na PLS, os fatores são moldados para sustentar a relação X→Y; muitas vezes ganhamos parcimônia e pertinência, especialmente quando a resposta é fraca ou está oculta.

Enquanto a PCR se destaca para explorar a estrutura dos preditores, a PLS frequentemente oferece melhores primeiras previsões. Conservo a PCR para problemáticas pedagógicas, a exploração de scores e loadings, ou quando o X estrutura o problema por si só. Opção pela PLS quando cada amostra conta e a variância explicada de Y precisa subir rapidamente e de forma limpa.

Critérios de escolha de acordo com seus dados e seus objetivos

Ruídos e derivações: se seus espectros estão agitados, a PLS filtra naturalmente o que fala a Y. A PCR exige mais componentes para recuperar a relação.
Número de variáveis vs amostras: com p ≫ n, as duas técnicas se saem, mas a PLS permanece mais frugal em fatores úteis.
Restrições de explicabilidade: PCR para contar X, PLS para contar Y, com ferramentas como VIP e os pesos de regressão.
Várias respostas: PLS2 impõe-se quando modelamos simultaneamente vários analitos correlacionados.
Estabilidade em produção: a PLS costuma ser mais resiliente se as condições variarem levemente.

Dois sinais fracos que eu observo sempre: a estabilidade dos coeficientes entre as partições da validação cruzada e a reprodutibilidade da seleção do número de componentes. Um método vencedor não vacila de um conjunto de dados para outro.

Protocolos práticos de modelagem e validação

Pipeline recomendado

Limpeza e pré-tratamentos espectrais coerentes (SNV, derivadas Savitzky–Golay, correção de linha de base). Uniformize o que precisa ser uniformizado, não mexa no que carrega a informação analítica.
Segmentação dos conjuntos de dados: calibração, teste externo. Mantenha um verdadeiro “conjunto virgem” para estimar o RMSEP.
Escolha do número de fatores por validação cruzada estratificada. Uso a regra do “mínimo + 1 desvio-padrão” sobre o RMSECV para permanecer conservador.
Controles de qualidade: resíduos, influência, leverage, coerência das componentes. Observe a deriva dos coeficientes ao longo das dobras.

Métricas a seguir

Desempenho: RMSECV, RMSEP, R², Q². Compare sempre validação cruzada e teste externo.
Complexidade: número de fatores retidos, razão amostras/fatores.
Robustez: estabilidade dos efeitos, sensibilidade a valores extremos, diagnósticos de sobreajuste.

Um hábito que me salvou mais de uma vez: recalcular as previsões após remover 5 a 10% de amostras-chave e verificar o impacto na inclinação e na ordenada na origem. Se a relação desabar, o modelo não está pronto para a oficina.

Exemplos concretos do laboratório

Umidade por NIR em pós farmacêuticos

Base calibrada em 180 amostras, espectros 1100–2500 nm, derivada de primeira e SNV. Em PCR, 10 componentes necessários para alcançar um bom Q². Em PLS, 6 fatores são suficientes para atingir a mesma precisão, com as bandas OH esperadas destacadas pelos loadings. Escolha: PLS, menos parâmetros a manter e melhor generalização em lotes pilotos.

Fermentação e monitoramento de açúcares por Raman

Sinal fraco correlacionado ao ruído de fluorescência. A PCR tem dificuldade em estabilizar a inclinação além de 8 componentes. A PLS destaca, em 4 fatores, as vibrações características dos açúcares visados, mantendo uma variação explicada de Y elevada na validação externa. Decisão imediata: PLS.

Dosagem de um aditivo em um polímero por MIR

Região espectral limpa, relação quase linear e muito alta relação sinal-ruído. PCR, 3 componentes, oferece uma precisão equivalente à PLS e proporciona uma leitura didática das estruturas de X. Para a equipe de formulação, é um ganho pedagógico apreciável. Veredito: PCR.

Pièges courants et bonnes pratiques

Pré-tratar às cegas: evite o empilhamento de filtros sem justificativa. Teste um a um, documente o impacto.
Escolher muitos fatores: a curva de RMSECV que sobe é um sinal claro. Pare antes da zona de viés-variância desfavorável.
Vazamento de informação: normalizar separadamente calibração e teste; caso contrário, seus resultados serão excessivamente otimistas.
Ignorar valores atípicos: uma única amostra influente pode inverter coeficientes. Verifique leverage e T².
Confundir interpretação com causalidade: coeficientes elevados não provam uma relação físico-química. Combine com a experiência do negócio.

Interpretar e contar a história dos seus modelos

Com PCR, comento primeiro a estrutura de X através dos scores e loadings: segmentos espectrais dominantes, fenômenos físicos plausíveis, zonas de risco. Com PLS, apresento a importância das variáveis via o VIP e a estabilidade dos coeficientes. Em ambos os casos, forneço intervalos de incerteza e previsões para amostras cegas, pois é isso que interessa às equipes de qualidade.

Em uma reunião de direção, três slides são suficientes: objetivos analíticos, protocolo de validação cruzada e teste externo, depois a matriz de desempenho (R², RMSECV, RMSEP) acompanhada do número de fatores. A clareza vale mais do que um show de gráficos.

Últimas referências para decidir sem arrependimentos

Relações fracas, poucos amostras, necessidade rápida de previsão confiável: incline-se para PLS.
Estrutura de X interessante de documentar, sinal próprio, objetivo pedagógico: a PCR é soberana.
Multi-analitos correlacionados: PLS2 vai simplificar sua vida.
Tempo de manutenção limitado e parcimônia buscada: vantagem PLS, desde que haja um protocolo de validação sólido.

Em resumo, as duas abordagens são excelentes ferramentas, cada uma com sua personalidade. Incentivo minhas equipes a prototiparem as duas, com o mesmo pipeline de pré-tratamentos espectrais e de validação cruzada, e então decidirem com base em fatos: desempenho externo, estabilidade dos coeficientes, legibilidade para os operadores. E se a curiosidade lhe tentar, revise os fundamentos da ACP para a PCR, ou aperfeiçoe sua prática de PLS conforme seus casos de uso. Agora é a sua vez, suas amostras certamente já têm a resposta.