|
Toshkent axborot texnologiyalari universiteti urganch filiali kompyuter injineringi fakulteti
|
bet | 6/8 | Sana | 22.05.2024 | Hajmi | 117,37 Kb. | | #250384 |
Bog'liq Vaisbek Davlatov Mustaqil ishi ishi RMSProp
RMSProp (Root Mean Square Propagation) - har bir parametr uchun o'quv ko'rsatkichini moslashtirish usuli. Fikr og'irliklar uchun o'quv ko'rsatkichini o'sha og'irlik uchun so'nggi gradientlarning harakatlanuvchi o'rtacha ko'rsatkichlari bo'yicha bo'lishdir. Shunday qilib, birinchi harakatlanuvchi o'rtacha standart bo'yicha xisoblanadi
π£
(
π€
,
π‘
)
:=
Ξ³
π£
(
π€
,
π‘
β
1
)
+
(
1
β
Ξ³
)
(
β
π
π
(
π€
)
)
2
{ v(w,t):=\gamma v(w,t-1)+(1-\gamma )(\nabla Q_{i}(w)^{2}}
Qayerda
Ξ³{ \gamma } β unutish koeffitsienti.
π€
:=
π€
β
Ξ·
π£
(
π€
,
π‘
)
β
π
π
(
π€
)
{ w:=w-{\frac {\eta }{\sqrt {v(w,t)}}}\nabla Q_{i}(w)}
RMSProp turli dasturlarda o'quv ko'rsatkichlarining yaxshi moslashuvini ko'rsatdi. RMSPropni Rpropning umumiylashuvi sifatida ko'rish mumkin. Ushbu usul faqat to'liq paketlar bilan emas, balki miniketlar bilan ishlashga qodir [25].
Odam
Adam[26] (Adaptive Moment Estimation uchun qisqa) β RMSProp optimizerining yangilanishi. Ushbu optimallashtirish algoritmida ham gradient, ham gradient ikkinchi momentlarning harakatlanuvchi o'rtacha ko'rsatkichlari qo'llanadi. Agar parametrlar berilgan bo'lsa
π€
(
π‘
)
{ w^{(t)}}, va yo'qotish funksiyasi
πΏ
(
π‘
)
{ L^{(t)}}, Π³Π΄Π΅
π‘
{ t} joriy iteratsiya indeksini aks ettiradi (hisobot bilan boshlanadi
0
{ 0}), Odam algoritmi bo'yicha parametr qayta hisoblash formulalar bilan belgilangan
π
π€
(
π‘
+
1
)
β
Ξ²
1
π
π€
(
π‘
)
+
(
1
β
Ξ²
1
)
β
π€
πΏ
(
π‘
)
{ m_{w}^{(t+1)}\leftarrow \beta _{1}m_{w}^{(t)}+(1-\beta _{1})\nabla _{w}L^{(t)}}
π£
π€
(
π‘
+
1
)
β
Ξ²
2
π£
π€
(
π‘
)
+
(
1
β
Ξ²
2
)
(
β
π€
πΏ
(
π‘
)
)
2
{ v_{w}^{(t+1)}\leftarrow \beta _{2}v_{w}^(t)+(1-\beta _{2})(\nabla _{w}L^{(t)})^{2}}
π
^
π€
=
π
π€
(
π‘
+
1
)
1
β
Ξ²
1
π‘
+
1
{ {\hat {m}}_{w}={\frac {m_{w}^(t+1)}}{1-\beta _{1}^{t+1}}}
π£
^
π€
=
π£
π€
(
π‘
+
1
)
1
β
Ξ²
2
π‘
+
1
{ {\hat {v}}_{w}={\frac {v_{w}^(t+1)}}{1-\beta _{2}^{t+1}}}
π€
(
π‘
+
1
)
β
π€
(
π‘
)
β
Ξ·
π
^
π€
π£
^
π€
+
Ξ΅{ w^{(t+1)}\leftarrow w^{(t)}-\eta {\frac {{\hat {m}}_{w}}{{\sqrt {{\hat {v}}_{w}}}}+\epsilon }}}
Qayerda
Ξ΅{ \epsilon } 0 ga bo'linishni oldini olish uchun ishlatiladigan kichik qo'shimcha bo'lib, va
Ξ²
1
{ \beta _{1}} iga
Ξ²
2
{ \beta _{2}} mos ravishda gradientlar va gradient sekund momentlari uchun koeffitsientlarni unutmoqda. Kvadrat va kvadrat ildiz element bo'yicha hisoblangan.
|
| |