Com explico la diferència entre RPCA i PCA?


Resposta 1:

Edita: Doh, em vaig adonar que podríeu estar preguntant sobre Robust-PCA i no sobre regressió del component principal (també conegut com regressió PCA). Per al que val, aquí teniu una resposta sobre aquest darrer.

De vegades, durant la regressió, els grups de variables d’entrada (covariates) seran col·linerals (vegeu una altra pregunta sobre multicollinearietat). Això significa que els inputs molt previsius els uns dels altres impliquen un tipus de redundància des del punt de vista de la sortida: si podeu predir

yy

bé amb

xx

, no necessiteu una altra còpia de tancament de

xx

.

Malauradament, la regressió OLS ho veu i intenta compensar assignant una responsabilitat similar als inputs collinear. A l'exemple anterior, penseu en quants plans existents són gairebé òptims (en el sentit menys quadrat) ...

Infinit, oi? Qualsevol pla que passi pels punts, independentment de la rotació sobre els punts verds: Imagineu-vos una espècie d’eix ancorat a l’aire mitjà que passa pels punts verds i el pla vermell es pivota sobre ell.

Per empitjorar, pertorbant les dades una mica minúscules, els pesos de regressió finals, essencialment controlant el gradient del pla, podrien ser molt diferents. Això indica que el model és inestable.

Quina és una manera de principi de combinar variables d'entrada que es correlacionen? Doncs, aquí, què farà la regressió-PCA:

Primer, es farà PCA a les entrades (els punts blaus), és a dir, trobar una línia blava al pla XZ per projectar els punts blaus (de manera que es minimitzi la distància de projecció total). Aquesta línia actua ara com un nou eix: anomenem-ho

bb

,

i el problema de regressió original ara es resol en el marc de referència de

byb-y

, una regressió lineal d’una sola variable.

Així, doncs, deixem a PCA trobar aquelles agrupacions de variables similars, en lloc de deixar-lo a l’OLS amb el perill inherent d’inestabilitat il·lustrat anteriorment.

Finalment, per tornar a modificar la regressió a l'original

xzyx-z-y

l’espai, sigui quin sigui el coeficient de regressió a la variable derivada b (aquí és 0,5), es compartirà equitativament segons els pesos de l’eix derivat per PCA (per tant, els pesos RPCA finals seran

(0.25,0.25)(0.25, 0.25)

).