L1-նորմ հիմնական բաղադրիչների վերլուծություն

L1-PCA-ի համեմատությունը PCA-ի հետ: Նոմինալ տվյալներ (կապույտ կետեր); հեռավոր կետեր (կարմիր կետ); PC (սև գիծ); L1-PC (կարմիր գիծ); նոմինալ առավելագույն վարիացիայի գիծ (կետագծեր):

L1-նորմ հիմնական բաղադրիչի վերլուծությունը (L1-PCA) հանդիսանում է բազմաբնույթ տվյալների վերլուծության ընդհանուր մեթոդ^[1]։ L1-PCA հաճախ ավելի նախընտրելի է ստանդարտ L2-նորմ հիմնական բաղադրիչը վերլուծությունից (PCA), երբ վերլուծած տվյալները պարունակում են հեռավոր կետեր(outliers)^[2]^[3]^[4]։

Ինչպես L1-PCA- ն, այնպես էլ ստանդարտ PCA- ն փնտրում են ուղղահայաց ուղղություններ հիմնական բաղադրիչների համար, որոնք սահմանում են այն տեղը, որտեղ տվյալների ներկայացուցչությունը առավելագույնի հասցվում է ըստ ընտրված չափանիշի^[5]^[6]^[7]։ Ստանդարտ PCA-ն տվյալների ներկայացումը քանակականացնում է որպես L2- նորմայի տվյալների պրոյեկցիաների ագրեգատ կամ սկզբնական կետերի և նրանց պրոյեկցիաների Էվկլիդյան հեռավորության համարժեք ագրեգատ։ L1-PCA- ն օգտագործում է L1- նորմայի կետերի պրոյեկցիաները^[8]։ PCA և L1-PCA-ում հիմնական բաղադրիչների քանակը ավելի քիչ է, քան վերլուծված մատրիցի ռանգը։ Մատրիցը համընկնում է օրիգինալ կետերի միջոցով սահմանված տարածքի չափողականության հետ։ Այդ պատճառով, PCA- ն կամ L1-PCA- ն սովորաբար օգտագործվում են չափողականության իջեցման համար` տվյալների սեղմման կամ աղմուկը քչացնելու նպատակով։

Այնուամենայնիվ, ժամանակակից մեծ տվյալները հաճախ ներառում են հեռավոր կետեր(outlier)^[3]։ Ստանդարտ PCA- ն զգայուն է հեռավոր կետերի նկատմամբ^[9]։ Պատճառն այն է, որ L2-PCA-ի հիման վրա L2- նորմայի ձևավորումը քառակուսային շեշտադրում է կատարում յուրաքանչյուր կոորդինատի յուրաքանչյուր կետի մեծության վրա՝ ի վերջո գերագնահատելով ծայրամասային կետերը, ինչպիսիք են հեռավոր կետերը։ Մյուս կողմից, L1-norm-ի ձևակերպումից հետո L1-PCA- ն գծային շեշտադրում է կատարում յուրաքանչյուր կետի կոորդինատների վրա՝ արդյունավետորեն ՙՙզսպելով՚՚ հեռավոր կետերը^[10]։

Ձևակերպում

Դիտարկենք ցանկացած մատրիցա՝ $𝐗 = [𝐱_{1}, 𝐱_{2}, \dots, 𝐱_{N}] \in ℝ^{D \times N}$ , որը բաղկացած է $N$ հատ $D$ -չափանի կետերից։ Սահմանենք ռանգ՝ $r = r a n k (𝐗)$ ։ $K$ ամբողջ թվի համար, որը $1 \leq K < r$ , L1-PCA- ն ձևակերպումն է^[1]՝ Կաղապար:NumBlk

$K = 1$ համար, ( Կաղապար:Eqref ) պարզեցնում է L1-norm-ի հիմնական բաղադրիչը (L1-PC) $𝐗$ գտնելը՝ Կաղապար:EF ( Կաղապար:Eqref ) - ( Կաղապար:Eqref ) բանաձևերում L1-norm $‖ \cdot ‖_{1}$ վերադարձնում է իր արգումենտների բացարձակ արժեքների գումարը։ L2-norm $‖ \cdot ‖_{2}$ վերադարձնում է իր արգումենտների քառակուսային արժեքների գումարը։ Եթե փոխարինենք $‖ \cdot ‖_{1}$ ( Կաղապար:Eqref ) բանաձևում ` Frobenius / L2-նորմայով $‖ \cdot ‖_{F}$ -ով, ապա խնդիրը դառնում է ստանդարտ PCA և այն լուծվում է $𝐐$ մատրիցով, որ պարունակում է $K$ դոմինանտ եզակի $𝐗$ վեկտորներ (այսինքն, եզակի վեկտորներ, որոնք համապատասխանում են $K$ առավելագույն եզակի արժեքներին)։

( Կաղապար:Eqref ) բանաձևում առավելագույնի չափումը կարելի է ընդլայնել՝ Կաղապար:EF

Լուծում

Ցանկացած մատրիցայի համար՝ $𝐀 \in ℝ^{m \times n}$ , որտեղ $m \geq n$ , սահմանել $Φ (𝐀)$ որպես ամենամոտ (L2-norm իմաստով) մատրից $𝐀$ , որն ունի օրթոնորմալ սյուներ։ Այսինքն՝ Կաղապար:EF Procrustes թեորեմն^[11]^[12] ասում է, որ եթե $𝐀$ ունի SVD $𝐔_{m \times n} Σ_{n \times n} 𝐕_{n \times n}^{⊤}$ , ապա $Φ (𝐀) = 𝐔 𝐕^{⊤}$ .

Մարկոպուլոսը, Կարիստինոսը և Պադոսը^[1] ցույց տվեցին, որ, եթե $𝐁_{BNM}$ երկուական միջուկային նորմայի առավելագույնի բարձրացման (BNM) խնդրի ճշգրիտ լուծումն է, ապա՝ Կաղապար:EF ապա Կաղապար:EF ( Կաղապար:Eqref )-ում L1-PCA- ի ճշգրիտ լուծումն է։ Միջուկային նորմ $‖ \cdot ‖_{*}$ ( Կաղապար:Eqref )-ում վերադառնում է իր մատրիցային արգումենտի եզակի արժեքների ամփոփումը և կարող է հաշվարկվել ստանդարտ SVD- ի միջիններով։ Ավելին, այն պնդում է, որ հաշվի առնելով L1-PCA լուծումը, $𝐐_{L1}$ , BNM- ի լուծումը կարելի է ստանալ հետևյալ կերպ՝ Կաղապար:EF որտեղ $sgn (\cdot)$ վերադարձնում է իր մատրիցի արգումենտի ${\pm 1}$ նշանի մատրից (ընդհանուր կորստի բացակայության դեպքում մենք կարող ենք դիտարկել, որ $sgn (0) = 1$ ): Բացի այդ, դրանից հետևում է, որ $‖ 𝐗^{⊤} 𝐐_{L1} ‖_{1} = ‖ 𝐗 𝐁_{BNM} ‖_{*}$ . BNM- ը ( Կաղապար:Eqref ) -ում կոմբինատորիկայի խնդիր է՝ կապված անտիպոդալ երկուական փոփոխականների հետ։ Հետևաբար, դրա ճշգրիտ լուծումը կարելի է գտնել բոլոր $2^{N K}$ էլեմենտների սպառիչ գնահատման միջոցով $𝒪 (2^{N K})$ ասիմպտոտիկ արժեքով։ Հետևաբար, L1-PCA- ն նույնպես կարող է լուծվել BNM- ի միջոցով` $𝒪 (2^{N K})$ -ով։ Պարզվում է, որ L1-PCA- ն հնարավոր է օպտիմալ կերպով (ճշգրիտ) լուծել` $N$ -ում պոլինոմիալ բարդության դեպքում ֆիքսված $D$ չափողականության համար , $𝒪 (N^{r K - K + 1})$ .^[1]

Հատուկ դեպքում, երբ $K = 1$ ( $𝐗$ միակ L1-PC), BNM- ն ընդունում է երկուական-քառակուսային-մաքսիմումի (BQM) ձևը Կաղապար:EF Անցումը ( Կաղապար:Eqref ) -ից ( Կաղապար:Eqref ) -ին, երբ $K = 1$ , ճշմարիտ է, քանի որ $𝐗 𝐛$ -ի եզակի արժեքը հավասար է $‖ 𝐗 𝐛 ‖_{2} = \sqrt{𝐛^{⊤} 𝐗^{⊤} 𝐗 𝐛}$ , յուրաքանչյուրի $𝐛$ համար . Հետո, եթե $𝐛_{BNM}$ BQM-ի լուծումն է ( Կաղապար:Eqref ) -ում, այն ընդունում է հետևյալ տեսքը. Կաղապար:EF որը $𝐗$ -ի ճիշտ L1-PC- ն է, ինչպես սահմանված է ( Կաղապար:Eqref ) -ում։ Բացի այդ, $𝐛_{BNM} = sgn (𝐗^{⊤} 𝐪_{L1})$ և $‖ 𝐗^{⊤} 𝐪_{L1} ‖_{1} = ‖ 𝐗 𝐛_{BNM} ‖_{2}$ .

Ալգորիթմներ

Էքսպոնենցիալ բարդության ճիշտ լուծում

Ինչպես ցույց է տրված վերևում, L1-PCA-ի ճշգրիտ լուծումը կարելի է ստանալ հետևյալ երկաստիճան գործընթացով.

 1. Լուծեք խնդիրը ( Կաղապար:Eqref )-ում` ստանալու համար  $𝐁_{BNM}$  .
 2. Կիրառել SVD   $𝐗 𝐁_{BNM}$ -ի վրա և ստանալ  $𝐐_{L1}$  .

Պոլինոմիալ բարդության ճշգրիտ լուծում

L1-PCA- ն հնարավոր է օպտիմալ կերպով լուծել $𝒪 (N^{r K - K + 1})$ , երբ $r = r a n k (𝐗)$ հաստատուն է $N$ -ի նկատմամբ (միշտ ճիշտ է սահմանափակ $D$ չափողականության համար)^[1]^[13]։

Կոմպլեքս տվյալներ

L1-PCA- ն ընդհանրացվել է նաև կոմպլեքս տվյալների մշակման համար։ Կոմպլեքս L1-PCA-ի համար 2018-ին առաջարկվել է երկու արդյունավետ ալգորիթմ^[14]։

Կոդ

L1-PCA-ի համար MATLAB կոդը հասանելի է MathWorks- ում^[15] և այլ պահոցներում^[16]։

Ծանոթագրություններ

Կաղապար:Ծանցանկ

[mark2014-1] 1,0 ^1,1 ^1,2 ^1,3 ^1,4 Կաղապար:Cite journal

[2] Կաղապար:Cite journal

[Barnett_1994-3] 3,0 ^3,1 Կաղապար:Cite book

[4] Կաղապար:Cite book

[5] Կաղապար:Cite book

[6] Կաղապար:Cite book

[7] Կաղապար:Cite journal

[mark2017-8] Կաղապար:Cite journal

[9] Կաղապար:Cite journal

[kwak2008-10] Կաղապար:Cite journal

[11] Կաղապար:Cite journal

[12] Կաղապար:Cite journal

[13] Կաղապար:Cite book

[14] Կաղապար:Cite journal

[toolbox-15] Կաղապար:Cite web

[markCodes-16] Կաղապար:Cite web Կաղապար:Չաշխատող արտաքին հղում

[1]

[2]

[3]

[4]

[5]

[6]

[7]

[8]

[9]

[10]

[11]

[12]

[13]

[14]

[15]

[16]

L1-նորմ հիմնական բաղադրիչների վերլուծություն

Բովանդակություն

Ձևակերպում

Լուծում

Ալգորիթմներ

Էքսպոնենցիալ բարդության ճիշտ լուծում

Պոլինոմիալ բարդության ճշգրիտ լուծում

Կոմպլեքս տվյալներ

Կոդ

Ծանոթագրություններ

Նավարկման ցանկ

L1-նորմ հիմնական բաղադրիչների վերլուծություն

Ձևակերպում

Լուծում

Ալգորիթմներ

Էքսպոնենցիալ բարդության ճիշտ լուծում

Պոլինոմիալ բարդության ճշգրիտ լուծում

Կոմպլեքս տվյալներ

Կոդ

Ծանոթագրություններ

Նավարկման ցանկ

Որոնում