|
Toshkent axborot texnologiyalari universiteti urganch filiali kompyuter injineringi fakulteti
|
bet | 7/8 | Sana | 22.05.2024 | Hajmi | 117,37 Kb. | | #250384 |
Bog'liq Vaisbek Davlatov Mustaqil ishi ishi
Kalman joylashgan Stochastic Gradient Descent (kSGD)[27] - bu chiziqli modellar, chiziqli bo'lmagan modellar, umumiylashtirilgan chiziqli modellar va ildiz kvadrat yo'qotuvchi neyron tarmoqlarni maxsus holat sifatida o'z ichiga olgan kvazi-ehtimollik modellar uchun statistik muammolarni o'rganish parametrlarini o'rganish uchun onlayn va oflayn algoritm. Onlayn o'quv vazifalari uchun kSGD chiziqli regressiya muammolari uchun Kallmann filtrining maxsus holati, chiziqli bo'lmagan regressiya muammolari uchun kengaytirilgan Kallmann filtrining maxsus holati bo'lib, uni ko'paytirilgan GaussβNyuton usuli deb hisoblash mumkin. Bundan tashqari, kSGD ning Kallmann filtri bilan aloqasi va tabiiy gradient tushishi[28] Kallmann filtri bilan aloqasi tufayli[29] kSGD ommabop tabiiy gradientli pastga tushish usulida katta yaxshilanishdir.
Boshqa usullarga qaraganda kSGD ning afzalliklari:
1) vazifaning ko'rsatkichlari soniga e'tiborsiz,[b]
2) mustahkam giperparametrli selektsiyaga ega,
3) To'xtash holati bor.
kSGD ning noqulayligi shundaki, algoritmda iteratsiyalar orasidagi zich kovariance matritsani yodlash talab etiladi va har bir iteratsiyada vektorning matrisa bo'yicha mahsulini topish kerak.
Algoritmni tasvirlash uchun taxmin qiling:
π
π
(
π€
)
{ Q_{i}(w)}, Π³Π΄Π΅
π€
β
π
π
{ w\in \mathbb {R} ^{p}}, bilan aniqlangan
(
π
π
,
π
π
)
β
π
Γ
π
π
{ (Y_{i},X_{i})\in \mathbb {R} \times \mathbb {R} ^{d}} ΡΠ°ΠΊ, ΡΠ°ΠΊ, ΡΡΡΠΎ
β
π€
π
π
(
π€
)
=
π
π
β
ΞΌ
(
π
π
,
π€
)
π
(
ΞΌ
(
π
π
,
π€
)
)
β
π€
ΞΌ
(
π
π
,
π€
)
{ \nabla _{w}Q_{i}(w)={\frac {Y_{i}-\mu (X_{i},w)}{V(\mu (X_{i},w)}}\nabla _{w}\mu (X_{i},w)}
Qayerda
ΞΌ
(
π
π
,
π€
)
{ \mu (X_{i},w)} oΚ»rtacha funksiyasi (yaΚΌni kutilgan qiymat
π
π
{ Y_{i}} oΚ»t
π
π
{ X_{i}}), an
π
(
ΞΌ
(
π
π
,
π€
)
)
{ V(\mu (X_{i},w))} β variance (ya'ni variance) funksiyasi
π
π
{ Y_{i}} Π΄Π»Ρ
π
π
{ X_{i}}). Keyin parametrni qayta hisoblang
π€
(
π‘
+
1
)
{ w(t+1)} va kovariant matritsani qayta hisoblash
π
(
π‘
+
1
)
{ M(t+1)} quyidagi ifodalar bilan belgilangan
π
=
β
π€
ΞΌ
(
π
π‘
+
1
,
π€
(
π‘
)
)
{ p=\nabla _{w}\mu (X_{t+1},w(t))}
π
=
ΞΌ
(
π
π‘
+
1
,
π€
(
π‘
)
)
{ m=\mu (X_{t+1},w(t))}
π£
=
π
(
π‘
)
π
{ v=M(t)p}
π
=
min
{
Ξ³
1
,
maksimal
{
Ξ³
2
,
π
(
π
)
}
}
+
π£
π
π
{ s=\min \lbrace \gamma _{1},\max \lbrace \gamma _{2},V(m)\rbrace \rbrace +v^{\mathsf {T}}p}
π€
(
π‘
+
1
)
=
π€
(
π‘
)
+
π
π‘
+
1
β
π
π
π£
{ w(t+1)=w(t)+{\frac {Y_{t+1}-m}{s}}v}
π
(
π‘
+
1
)
=
π
(
π‘
)
β
1
π
π£
π£
π
{ M(t+1)=M(t)-{\frac {1}{s}}vv^{\mathsf {T}}}
Qayerda
Ξ³
1
,
Ξ³
2
{ \gamma_{1},\gamma_{2}} giperparametrlardir. Aylantirish
π
(
π‘
)
{ M(t)} kovariant matritsaning aniqlanmagan bo'lib qolishiga sabab bo'lishi mumkin. Matritsani matritsa bo'yicha ko'paytirish orqali bu matritsadan qochish mumkin.
π
(
0
)
{ M(0)} har qanday musbat aniqlangan simmetrik matritsa bo'lishi mumkin, lekin odatda birlik matritsa olinadi. Patel[27] ta'kidlaganidek, chiziqli regressiyadan boshqa barcha muammolar algoritmning konvergensiyasini ta'minlash uchun qayta ishlashni talab qiladi, ammo hech qanday nazariy yoki amalga oshirish tafsilotlari berilmaydi. Bertsekas [30] tomonidan tahlil qilingan chiziqli bo'lmagan regressiya uchun yaqin aloqada bo'lgan oflayn multipaket usulida kovariant matritsani qayta hisoblashda konversiyani isbotlash uchun undirish koeffitsienti qo'llanilgan.
Ikkinchi tartibli usullar
Ma'lumki, standart (deterministik) NyutonβRaphson algoritmining stoxematik analogi ("ikkinchi tartibli" metod) stochastik yaqinlashish sharoitida iterativ optimallashtirishning asimptotik optimal yoki yaqin optimal shaklini beradi. Empirik risk funksiyasida Hesse matrislarini summa terminlarining bevosita hisoblashidan foydalanadigan usul Qush, Xansen, Nocedal va Singer tomonidan ishlab chiqilgan. Biroq, optimallashtirish uchun zarur Hesse matrisalar to'g'ridan-to'g'ri aniqlash amaliyotda mumkin emas mumkin. SGD algoritmining Hessian haqida to'g'ridan-to'g'ri ma'lumot talab qilmaydigan ikkinchi tartibli versiyasi uchun amaliy va nazariy ko'rinishdagi usullar Spall va boshqalar tomonidan berilgan.[32][33][34] (Ruppert tomonidan bir vaqtning o'zida qayta hisoblash o'rniga cheklangan farqlarga asoslangan kamroq samarali usul berilgan[35]). Bu usullar, hessian to'g'risidagi ma'lumotlarni to'g'ridan-to'g'ri talab qilmasa-da, yuqorida berilgan empirik risk funksiyasidagi summaning qiymatlariga yoki summaning shartlar gradientlari qiymatlariga (ya'ni SGDning kirishiga) asoslanadi. Ayniqsa, ikkinchi tartib optimalligi empirik xavf funktsiyasida yig'indi shartlarining Hesse matrislarini to'g'ridan-to'g'ri hisoblamasdan asimptotik tarzda erishiladi.
Xulosa
Koordinata pastga tushish - Bir vaqtning o'zida bitta koordinatani o'zgartiradi
Chiziqli klassifikatori
Onlayn mashina o'rganish
β’ Chiziqli regressiya uchun C++, Boost, Ublasda stochastik gradient tushishidan foydalanish
β’ Mashina o'rganish algoritmlari
β’ Gradient pastga tushish, neyron tarmoqlari qanday o'rganadi. 3Blue1Brown (16 oΠΊΡΡΠ±rΡ 2017).
β{ \circ } element bo'yicha ishdir.
Chiziqli regressiya muammosi uchun kSGD ning iteratsiyaga nisbatan ob'ektiv funksiyani (ya'ni umumiy xato va varyans) burish
π
{ k} ΚΌa n ΚΌa n n ΚΌa
1+Ξ΅ππΟ2
{ {\frac {1+\epsilon }{k}}p\sigma ^{2}} bog'liq bo'lgan ko'rsatkich bo'yicha 1 ga moyil bo'lish ehtimoli bilan
Ξ΅β(0,1)
{ \epsilon \in (0,1)}, Π³Π΄Π΅
Ο2
{ \sigma ^{2}} β qoldiqlarning dispersiyasi. Bundan tashqari, ma'lum bir tanlov uchun
Ξ³1,Ξ³2{ \gamma_{1},\gamma_{2}}, shuni ko'rsatish mumkinki, kSGD ning iteratsiyalarda target funksiyani chetga
π{ k} ΚΌa n ΚΌa n n ΚΌa (1+Ξ΅)22π2βπ€(0)βπ€ββ22
{ {\frac {(1+\epsilon )^{2}}{2k^{2}}}}\Vert w(0)-w_{*}\Vert _{2}^{2}} ga qarab ko'rsatkich bo'yicha 1 ga moyil bo'lgan ehtimollik bilan
Ξ΅β(0,1)
{ \epsilon \in (0,1)}, Π³Π΄Π΅
π€
β{ w_{*}} optimal sharoit hisoblanadi.
|
| |