|
Gradient tushish usulining turli xil dasturlari
|
bet | 6/11 | Sana | 14.05.2024 | Hajmi | 345,07 Kb. | | #232474 |
Bog'liq GRADIENT TUSHISHGradient tushish usulining turli xil dasturlari
Stoxastik gradient tushish algoritmi *6, 7+ har bir qadamda o‘qitish namunasining yagona i misolidan foydalangan holda neyron tarmoqning og‘irlik koeffitsientlarini yangilashni o‘z ichiga oladi.
bu erda (x(i) , y(i) ) – i-o‘tish uchun to‘plam.
SGD keraksiz hisob-kitoblarni amalga oshirmaydi, chunki klassik gradient tushishidan farqli o‘laroq, algoritm xatolarining funktsiyasi butun o‘quv namunasi bo‘yicha emas, balki faqat bitta misol bo‘yicha hisoblanadi va shuning uchun algoritm ancha tezroq o‘rganiladi, shuningdek, "parvozda" o‘rganish imkoniyatini beradi, ya'ni. yangi misollar to‘g‘ridan- to‘g‘ri tarmoq kirishiga berilishi mumkin o‘quv jarayonida.
Biroq, har bir SGD bosqichida gradientni hisoblash dastlabki ma’lumotlar to‘plamining turli misollari asosida amalga oshirilganligi sababli, og‘irlik koeffitsientlarining yangilanishi, 1-rasmda ko‘rsatilgandek, maqsad funktsiyasining tez-tez o‘zgarishi bilan birga keladi. Shunday qilib, bir tomondan, SGD potentsial eng yaxshi lokal minimumlarga tez o‘tish imkonini beradi, boshqa tomondan, katta tebranishlar konvergentsiyani sezilarli darajada sekinlashtiradi. Biroq, agar neyronni o‘qitish jarayoniga o‘rganish tezligining dinamik pasayishi kiritilsa, SGD klassik gradient tushishiga o‘xshash aniqlik bilan yechimga erishishi isbotlangan [7].
3-rasm. SGD usulida o‘rganish iteratsiyasiga qarab maqsadli funktsiyaning o‘zgarishi
Mini paketli gradient tushish
Mini-paketli gradient tushish klassik va stoxastik gradient usullarining afzalliklarini birlashtirgan n o‘quv misollaridan tashkil topgan har bir mini-paket uchun gradient hisobini ishlab chiqaradi:
50 dan 256 gacha bo‘lgan mini-paketdagi gradientni hisoblash odatda zamonaviy chuqur o‘rganish kutubxonalarida ishlatiladigan yuqori samarali matritsa operatsiyalari orqali juda samarali amalga oshiriladi. Shuningdek, alohida misollardan emas, balki asl namunadagi vektorlarning qisman to‘plamlaridan foydalangan holda, ushbu usul SGD bilan taqqoslaganda ancha barqaror yaqinlashishni ta’minlaydi.
|
| |