L1-նորմ հիմնական բաղադրիչների վերլուծություն

L1-նորմ հիմնական բաղադրիչի վերլուծությունը (L1-PCA) հանդիսանում է բազմաբնույթ տվյալների վերլուծության ընդհանուր մեթոդ[1]։ L1-PCA հաճախ ավելի նախընտրելի է ստանդարտ L2-նորմ հիմնական բաղադրիչը վերլուծությունից (PCA), երբ վերլուծած տվյալները պարունակում են հեռավոր կետեր(outliers)[2][3][4]։
Ինչպես L1-PCA- ն, այնպես էլ ստանդարտ PCA- ն փնտրում են ուղղահայաց ուղղություններ հիմնական բաղադրիչների համար, որոնք սահմանում են այն տեղը, որտեղ տվյալների ներկայացուցչությունը առավելագույնի հասցվում է ըստ ընտրված չափանիշի[5][6][7]։ Ստանդարտ PCA-ն տվյալների ներկայացումը քանակականացնում է որպես L2- նորմայի տվյալների պրոյեկցիաների ագրեգատ կամ սկզբնական կետերի և նրանց պրոյեկցիաների Էվկլիդյան հեռավորության համարժեք ագրեգատ։ L1-PCA- ն օգտագործում է L1- նորմայի կետերի պրոյեկցիաները[8]։ PCA և L1-PCA-ում հիմնական բաղադրիչների քանակը ավելի քիչ է, քան վերլուծված մատրիցի ռանգը։ Մատրիցը համընկնում է օրիգինալ կետերի միջոցով սահմանված տարածքի չափողականության հետ։ Այդ պատճառով, PCA- ն կամ L1-PCA- ն սովորաբար օգտագործվում են չափողականության իջեցման համար` տվյալների սեղմման կամ աղմուկը քչացնելու նպատակով։
Այնուամենայնիվ, ժամանակակից մեծ տվյալները հաճախ ներառում են հեռավոր կետեր(outlier)[3]։ Ստանդարտ PCA- ն զգայուն է հեռավոր կետերի նկատմամբ[9]։ Պատճառն այն է, որ L2-PCA-ի հիման վրա L2- նորմայի ձևավորումը քառակուսային շեշտադրում է կատարում յուրաքանչյուր կոորդինատի յուրաքանչյուր կետի մեծության վրա՝ ի վերջո գերագնահատելով ծայրամասային կետերը, ինչպիսիք են հեռավոր կետերը։ Մյուս կողմից, L1-norm-ի ձևակերպումից հետո L1-PCA- ն գծային շեշտադրում է կատարում յուրաքանչյուր կետի կոորդինատների վրա՝ արդյունավետորեն ՙՙզսպելով՚՚ հեռավոր կետերը[10]։
Ձևակերպում
Դիտարկենք ցանկացած մատրիցա՝ , որը բաղկացած է հատ -չափանի կետերից։ Սահմանենք ռանգ՝ ։ ամբողջ թվի համար, որը , L1-PCA- ն ձևակերպումն է[1]՝ Կաղապար:NumBlk
համար, ( Կաղապար:Eqref ) պարզեցնում է L1-norm-ի հիմնական բաղադրիչը (L1-PC) գտնելը՝ Կաղապար:EF ( Կաղապար:Eqref ) - ( Կաղապար:Eqref ) բանաձևերում L1-norm վերադարձնում է իր արգումենտների բացարձակ արժեքների գումարը։ L2-norm վերադարձնում է իր արգումենտների քառակուսային արժեքների գումարը։ Եթե փոխարինենք ( Կաղապար:Eqref ) բանաձևում ` Frobenius / L2-նորմայով -ով, ապա խնդիրը դառնում է ստանդարտ PCA և այն լուծվում է մատրիցով, որ պարունակում է դոմինանտ եզակի վեկտորներ (այսինքն, եզակի վեկտորներ, որոնք համապատասխանում են առավելագույն եզակի արժեքներին)։
( Կաղապար:Eqref ) բանաձևում առավելագույնի չափումը կարելի է ընդլայնել՝ Կաղապար:EF
Լուծում
Ցանկացած մատրիցայի համար՝ , որտեղ, սահմանել որպես ամենամոտ (L2-norm իմաստով) մատրից , որն ունի օրթոնորմալ սյուներ։ Այսինքն՝ Կաղապար:EF Procrustes թեորեմն[11][12] ասում է, որ եթե ունի SVD , ապա .
Մարկոպուլոսը, Կարիստինոսը և Պադոսը[1] ցույց տվեցին, որ, եթե երկուական միջուկային նորմայի առավելագույնի բարձրացման (BNM) խնդրի ճշգրիտ լուծումն է, ապա՝ Կաղապար:EF ապա Կաղապար:EF ( Կաղապար:Eqref )-ում L1-PCA- ի ճշգրիտ լուծումն է։ Միջուկային նորմ ( Կաղապար:Eqref )-ում վերադառնում է իր մատրիցային արգումենտի եզակի արժեքների ամփոփումը և կարող է հաշվարկվել ստանդարտ SVD- ի միջիններով։ Ավելին, այն պնդում է, որ հաշվի առնելով L1-PCA լուծումը, , BNM- ի լուծումը կարելի է ստանալ հետևյալ կերպ՝ Կաղապար:EF որտեղ վերադարձնում է իր մատրիցի արգումենտի նշանի մատրից (ընդհանուր կորստի բացակայության դեպքում մենք կարող ենք դիտարկել, որ ): Բացի այդ, դրանից հետևում է, որ . BNM- ը ( Կաղապար:Eqref ) -ում կոմբինատորիկայի խնդիր է՝ կապված անտիպոդալ երկուական փոփոխականների հետ։ Հետևաբար, դրա ճշգրիտ լուծումը կարելի է գտնել բոլոր էլեմենտների սպառիչ գնահատման միջոցով ասիմպտոտիկ արժեքով։ Հետևաբար, L1-PCA- ն նույնպես կարող է լուծվել BNM- ի միջոցով` -ով։ Պարզվում է, որ L1-PCA- ն հնարավոր է օպտիմալ կերպով (ճշգրիտ) լուծել` -ում պոլինոմիալ բարդության դեպքում ֆիքսված չափողականության համար , .[1]
Հատուկ դեպքում, երբ ( միակ L1-PC), BNM- ն ընդունում է երկուական-քառակուսային-մաքսիմումի (BQM) ձևը Կաղապար:EF Անցումը ( Կաղապար:Eqref ) -ից ( Կաղապար:Eqref ) -ին, երբ , ճշմարիտ է, քանի որ -ի եզակի արժեքը հավասար է , յուրաքանչյուրի համար . Հետո, եթե BQM-ի լուծումն է ( Կաղապար:Eqref ) -ում, այն ընդունում է հետևյալ տեսքը. Կաղապար:EF որը -ի ճիշտ L1-PC- ն է, ինչպես սահմանված է ( Կաղապար:Eqref ) -ում։ Բացի այդ, և .
Ալգորիթմներ
Էքսպոնենցիալ բարդության ճիշտ լուծում
Ինչպես ցույց է տրված վերևում, L1-PCA-ի ճշգրիտ լուծումը կարելի է ստանալ հետևյալ երկաստիճան գործընթացով.
1. Լուծեք խնդիրը ( Կաղապար:Eqref )-ում` ստանալու համար . 2. Կիրառել SVD -ի վրա և ստանալ .
Պոլինոմիալ բարդության ճշգրիտ լուծում
L1-PCA- ն հնարավոր է օպտիմալ կերպով լուծել , երբ հաստատուն է -ի նկատմամբ (միշտ ճիշտ է սահմանափակ չափողականության համար)[1][13]։
Կոմպլեքս տվյալներ
L1-PCA- ն ընդհանրացվել է նաև կոմպլեքս տվյալների մշակման համար։ Կոմպլեքս L1-PCA-ի համար 2018-ին առաջարկվել է երկու արդյունավետ ալգորիթմ[14]։
Կոդ
L1-PCA-ի համար MATLAB կոդը հասանելի է MathWorks- ում[15] և այլ պահոցներում[16]։
Ծանոթագրություններ
- ↑ 1,0 1,1 1,2 1,3 1,4 Կաղապար:Cite journal
- ↑ Կաղապար:Cite journal
- ↑ 3,0 3,1 Կաղապար:Cite book
- ↑ Կաղապար:Cite book
- ↑ Կաղապար:Cite book
- ↑ Կաղապար:Cite book
- ↑ Կաղապար:Cite journal
- ↑ Կաղապար:Cite journal
- ↑ Կաղապար:Cite journal
- ↑ Կաղապար:Cite journal
- ↑ Կաղապար:Cite journal
- ↑ Կաղապար:Cite journal
- ↑ Կաղապար:Cite book
- ↑ Կաղապար:Cite journal
- ↑ Կաղապար:Cite web
- ↑ Կաղապար:Cite webԿաղապար:Չաշխատող արտաքին հղում