Stoxastik gradiyent tushush

Download 1.76 Mb.
bet	8/12
Sana	26.04.2023
Hajmi	1.76 Mb.
	#53953

1 ... 4 5 6 7 8 9 10 11 12

Bog'liq
6-ma’ruza. Ko’p o’zgaruvchili chiziqli regressiya Reja
nation paul 4000 essential english words 1, Qilichev Aktamjon

6.5. Stoxastik gradiyent tushush

" Stoxastik " so’zi tasodifiy ehtimollik bilan bog’liq tizim yoki jarayonni anglatadi. Shunday qilib, stoxastik gradiyent tushishida bir nechta namunalar butun ma’lumotlar to’plamiga emas, balki har bir iterasiya uchun tasodifiy tanlanadi. Gradiyent tushishi "to’plam" atamasiga ega, bu har bir iterasiya uchun gradiyentni hisoblash uchun ishlatiladigan ma’lumotlar to’plamidan olingan namunalarning umumiy sonini bildiradi. Oddiy gradiyent tushish kabi tushishni optimallashtirishda butun ma’lumotlar to’plami to’plam deb hisoblanadi. To’liq ma’lumotlar to’plamidan foydalanish haqiqatan ham kamroq shovqinli va kamroq tasodifiy minimal darajaga erishish uchun foydalidir , ammo ma’lumotlar to’plamimiz kattalashganda muammo paydo bo’ladi. Sizning ma’lumotlar to’plamingizda million namunangiz bor deylik, shuning uchun siz odatda gradiyent tushishni optimallashtirish texnikasidan foydalansangiz, gradiyent tushishni amalga oshirishda bitta takrorlashni bajarish uchun butun million namunadan foydalanishingiz kerak bo’ladi va bu har bir takrorlash uchun bajarilishi kerak minimal darajaga erishiladi. Natijada esa juda qimmatga tushadi.

Ushbu muammo stoxastik gradiyent tushish usuli bilan hal qilinadi. SGD har bir iterasiyani bajarish uchun faqat bitta namunadan foydalanadi, ya’ni bitta to’plamning kattaligi. Namuna tasodifiy aralashtiriladi va takrorlash uchun tanlanadi.
Stoxastik gradiyent tushishda algoritm parametrlarni hisoblash uchun bir yoki bir nechta o’quv misollaridan foydalanadi. Shunday qilib, birma-bir gradiyent tushishidan farqli o’laroq, biz parametrlarning bitta o’zgarishini hisoblashimizdan oldin, barcha gradiyent shartlarining yig’indisini kutish o’rniga (barcha o’quv ma’lumotlari uchun), SGD faqat bitta ma’lumot uchun gradiyent muddatini hisoblab chiqadi va parametrni yaxshilashga o’tishni boshlaydi. . Shunday qilib, SGD-da parametrlarning o’zgarishi ancha tezroq bo’ladi. SGD ga qaraganda kamroq hisoblash kuchiga ega bo’lgani uchun, biz vaznni yangilash uchun barcha mashg’ulotlar to’plamidan o’tmasligimiz kerak, bu juda katta ma’lumotlar to’plamlari bilan ishlash uchun yaxshi tanlovdir.
Algoritmni quyidagicha tavsiflash mumkin:
Men uchun (m) oralig’ida:
$ \ theta_j = \ theta_j - \ alpha (\ hat {y} ^ i -y ^ i) x_j ^ i $
SGD-da, har bir iterasiya uchun ma’lumotlar to’plamidan faqat bittasi tasodifiy tanlanganligi sababli, minimal darajaga erishish uchun algoritm ishlatadigan yo’l odatda tushish algoritmiga qaraganda shovqinli bo’ladi. Ammo bu juda muhim emas, chunki algoritm bosib o’tgan yo’l minimal darajaga etganimizda va o’rganish vaqtlari ancha qisqargani muhim emas. Taqqoslash uchun, gradiyent tushish yo’li bilan bosib o’tgan yo’l:

Gradiyent tushish yo’li bilan o’tgan yo’l

Stoxastik gradiyent tushish yo’li bosib o’tgan yo’l
Shuni ta’kidlash kerakki, SGD odatda gradiyent tushishiga qaraganda shovqinli bo’lganligi sababli, uning tushishidagi tasodifiylik tufayli minimal darajaga erishish uchun odatda ko’proq takrorlash talab etiladi. Minimal darajaga erishish uchun odatiy gradiyent tushishidan ko’ra ko’proq takrorlanishlar talab qilinishiga qaramay, u hali ham gradiyent tushishga qaraganda ancha arzon. Demak, ko’pgina holatlarda SGD o’rganish algoritmini optimallashtirish uchun gradiyent nasldan naslga o’tishni afzal ko’radi.

Download 1.76 Mb.

1 ... 4 5 6 7 8 9 10 11 12

Download 1.76 Mb.