|
Toshkent axborot texnologiyalari universiteti urganch filiali kompyuter injineringi fakulteti
|
bet | 5/8 | Sana | 22.05.2024 | Hajmi | 117,37 Kb. | | #250384 |
Bog'liq Vaisbek Davlatov Mustaqil ishi ishi AdaGrad
AdaGrad (adaptiv gradient algoritmi ), 2011[21][22]da chop etilgan, har bir parametr uchun alohida o'quv ko'rsatkichiga ega bo'lgan stochastik gradientli pastga tushish algoritmining o'zgartirilishi . ma'lumotlar kam va tegishli parametrlar ko'proq ma'lumotli sharoitlarda standart stochastik gradient pastga tushish usuli nisbatan konversiya tezligini oshiradi. Bunday dasturlarga misollar tabiiy tilga ishlov berish va namunani tanib olishdir.[21] Algoritm η asosiy o'rganish ko'rsatkichiga ega , lekin u tashqi mahsulot matritsasining diagonali bo'lgan {Gj,j } vektorining elementlari bilan ko'payadi.
G=∑τ=1tgτgτT
{ G=\sum _{\tau =1}^{t}g_{\get }g_{\get }^\mathsf {T}}}
Qayerda
𝑔
𝜏
=
∇
𝑄
𝑖
(
𝑤
)
{ g_{\tau }=\nabla Q_{i}(w)}, iteratsiyalarning gradienti
τ{ \tau }. Diagonal ifoda bilan belgilangan
𝐺
𝑗
,
𝑗
=
∑
𝜏
=
1
𝑡
𝑔
𝜏
,
𝑗
2
{ G_{j,j}=\sum _{\tau =1}^{t}g_{\were ,j}^{2}}.
Bu vektor har bir iteratsiyadan keyin yangilanadi. Qayta hisoblash formulasi
𝑤
:=
𝑤
−
η
d
i
a
g
(
𝐺
)
−
1
2
∘
𝑔
{ w:=w-\eta \,\mathrm {diag} (G)^{{\frac {1}{2}}}\circ g} [a]
yoki, parametr qayta hisoblash sifatida yozish,
𝑤
𝑗
:=
𝑤
𝑗
−
η
𝐺
𝑗
,
𝑗
𝑔
𝑗
.
{ w_{j}:=w_{j}-{\frac {\eta }{\sqrt {G_{j,j}}}}g_{j}.}
Har bir element
{
𝐺
(
𝑖
,
𝑖
)
}
{\{G_{(i,i)}\}} yagona parametrga qo'llaniladigan o'quv ko'rsatkichi uchun ko'paytiruvchi beradi
𝑤
𝑖
{ w_{i}}. Denominator bu omilda bo'lganligi sababli,
𝐺
𝑖
=
∑
𝜏
=
1
𝑡
𝑔
𝜏
2
{ {\sqrt {G_{i}}}={\sqrt {\sum _{\tau=1}^{t}g_{\tau }^^{2}}}}, oldingi derivativning L2 normasi bo'lib, katta parametrli o'zgarishlar kuchayadi, kichik o'zgarishlar olayotgan parametrlar esa oliy o'quv ko'rsatkichlarini oladi.
Algoritm konveks muammolari uchun ishlab chiqilgan bo'lsa-da, AdaGrad konveks bo'lmagan optimallashtirish uchun muvaffaqiyatli ishlatilgan.
|
| |