|
Mashinani o’qitish tili fanidan
|
bet | 8/11 | Sana | 14.05.2024 | Hajmi | 345,07 Kb. | | #232474 |
Bog'liq GRADIENT TUSHISHAdaptiv usullar
Ishlashning sezilarli yaxshilanishlariga qaramay, impuls usullari muvozanatsiz namunalarda, ya'ni kamdan-kam uchraydigan belgilar mavjud bo‘lgan bunday ma’lumotlar to‘plamlarida o‘rnatilgan optimallashtirish mexanizmlarini o‘z ichiga olmaydi. Ushbu muammoning natijasi shundaki, bunday algoritmlarning konveks bo‘lmagan maqsadli funktsiya holatida mahalliy minimumlarga yaqinlashishga moyilligidir. Ushbu muammoni hal qilishning mumkin bo‘lgan variantlaridan biri adaptiv optik algoritmlar guruhida (Adagrad, RMSProp, Adadelta, Adam) amalga oshirilgan o‘quv tezligining dinamik modifikatsiyasi hisoblanadi. Balanssiz namunalarda tasniflash muammolarini hal qilish uchun neyron tarmoqlarni o‘qitish muammosi, xususan, *10,11+ manbalarda ko‘rib chiqilgan. Quyidagi algoritmlarning maqsadi ushbu muammoni bartaraf etish orqali optimallashtirish jarayonlarining samaradorligini oshirishdir.
Adaptiv gradient (Adagrad [12]) - bu neyron tarmog‘ining og‘irlik koeffitsientlarini yangilash tezligi dinamik ravishda moslashadigan algoritm, ya'ni kam sonda ko‘rsatilgan xususiyatlar qiymatlari uchun mazmunli yangilanishlar va tez – tez uchraydigan qiymatlar uchun zaif yangilanishlar amalga oshiriladi. Ushbu tamoyil Adagrad algoritmidagi o‘rganish tezligi aslida N ning har bir bosqichidagi wi parametrlarining har biri uchun alohida hisoblab chiqilganligi sababli amalga oshiriladi.
Og‘irlik koeffitsientlarini o‘zgartirish (7) qoidaga muvofiq amalga oshiriladi:
bu erda Gn diagonal matritsa bo‘lib, uning har bir diagonal elementi (i,i) indekslari bilan algoritm boshlanishidan N bosqichigacha hisoblangan wio‘zgaruvchisi bo‘yicha qisman hosilalarning kvadratlari yig‘indisidir, ε – 0 ga bo‘linishni oldini olish uchun tekislash omili.
Biz qoidani (7) vektor shaklida quyidagicha yozamiz:
Adagradning asosiy afzalliklaridan biri shundaki, u o‘rganish tezligini qo‘lda o‘zgartirishni sozlash zaruratini yo‘q qiladi. Biroq, uning kamchiliklari orasida shuni ta’kidlash mumkinki, neyronni o‘qitish jarayonida (8) qoidaning maxraji juda tez o‘sib, gradient kvadratlari yig‘indisini to‘playdi. Natijada, o‘rganish tezligi pasayishi va cheksiz kichiklashishi mumkin, ya'ni algoritm o‘qitish xususiyatlarini yo‘qotadi.
Adadelta [13] - bu Adagrad kengaytmasi bo‘lib, u o‘rganish tezligining tez pasayishi muammosini hal qiladi. Ushbu algoritmdagi gradient kvadratlarining yig‘indisi avvalgi barcha gradient kvadratlarining eksponent ravishda pasayib ketadigan o‘rtacha qiymatiga almashtiriladi, ya'ni qisman hosilalarning oxirgi qiymatlari ko‘proq hisobga olinadi.
Keyin vazn koeffitsientlarini yangilash qoidasi quyidagi ko‘rinishga ega bo‘ladi:
Maxraj gradientlarning o‘rtacha kvadratlarining ildizi bo‘lganligi sababli (root mean square), biz (10) formuladagi maxrajni quyidagicha belgilaymiz:
γ = 0.9 qiymatini berish orqali, biz RMSProp algoritmi uchun yangilanish qoidasini olamiz (Hinton, 2012, *14+). RMSProp va Adadelta algoritmlari deyarli bir vaqtning o‘zida va bir-biridan mustaqil ravishda ishlab chiqilgan va o‘xshash, faqat Adadeltadagi o‘qitish tezligi koeffitsienti vazn o‘zgarishining o‘rtacha kvadratlarining ildizi bilan almashtiriladi. Adadelta uchun vaznlarni yangilash qoidasi quyidagicha ko‘rinishga ega:
Adaptiv momentni baholash usuli (Adam, [15]) - bu o‘lchovni yangilash qoidasi Adam uchun ikki xil momentning taxminlaridan foydalanish asosida aniqlanadi ( (13) va (14) formulalar), birinchisi ilgari hisoblangan qisman hosila qiymatlaridan foydalanadi (moment usulida bo‘lgani kabi) va ikkinchisida ularning kvadratlari (rmsprop-da bo‘lgani kabi)dan foydalaniladi. Adam usuli β1, β2 giperparametrlari qiymatlarini tanlashga nisbatan ancha chidamli hisoblanadi va shuning uchun ko‘pincha standart usul sifatida taklif etiladi.
Hisoblangan momentlar (15) formulalar bo‘yicha tuzatiladi va keyin (16) formula bo‘yicha og‘irliklar qayta hisoblab chiqiladi:
Shunday qilib, mavjud zamonaviy gradient usullari optimallashtirish algoritmlari bilan bog‘liq muammolarni, masalan, mahalliy minimal konvergentsiya, noyob xususiyatlarni tan olmaslik va optimal o‘rganish tezligini moslashuvchan sozlash kabi muammolarni bartaraf etish uchun ko‘plab mexanizmlarga ega. Adaptiv usullar *16, 17+ manbalarda batafsil ko‘rib chiqilgan.
|
| |