• Navlar va oʻzgartirishlar
  • Overt oʻzgarishlari (ISGD)
  • Impuls
  • Toshkent axborot texnologiyalari universiteti urganch filiali kompyuter injineringi fakulteti




    Download 117,37 Kb.
    bet4/8
    Sana22.05.2024
    Hajmi117,37 Kb.
    #250384
    1   2   3   4   5   6   7   8
    Bog'liq
    Vaisbek Davlatov Mustaqil ishi ishi

    Muhim dasturlar


    Stochastik gradient tushishi - bu turli xil modellarni tayyorlash uchun mashhur algoritmmashina o'rganish, xususan in (chiziqli)vektor usulini qo'llab-quvvatlashichidalogistika regressiyasi(Masalan,Vowpal Wabbit[inglizcha.]) va ichidagrafigi ehtimollik modellari[9]. Biror usul algoritm bilan birlashtirilgandaxatoning orqaga qaytarilishiBude-faktoo'rganishning standart algoritmisun'iy neyron tarmoqlar[10]. Uning qo'llanilishi ham ko'rinib turibdiGeofizikhamjamiyati, ayniqsa, Full Waveform Inversion (FWI) dasturlari uchun[11].
    Stochastik gradientli pastga tushish L-BFGS algoritmi bilan raqobat qiladi, u ham keng qo'llaniladi. Stochastik gradientli pastga tushish kamida 1960 yildan boshlab ADALINE nomi ostida chiziqli regressiya modellarini o'qitish uchun ishlatiladi.
    Yana bir stochastik gradientli pastga tushish algoritmi - bu eng kam o'rtacha kvadratlar adaptiv filtri  (LMS).

    Navlar va oʻzgartirishlar


    Stochastik gradientli pastga tushish algoritmining ko'plab o'zgartirishlari mavjud. Mashina o'rganishda, xususan, muammo o'quv ko'rsatkichlarini tanlashdir (qadam hajmi): katta qadamda algoritm bo'linib ketishi mumkin, kichik qadamda konversiya juda sekin Bunday jadvallar McQueenning k-vositalarni toʻplash boʻyicha ishlaridan beri maʼlum.[13] Baʼzi SGD variantlarda qadam tanlash boʻyicha baʼzi amaliy yoʻl-yoʻriqlar Spallning (2003) 4.4, 6.6 va 7.5 boʻlimlarida berilgan.[14]

    Overt oʻzgarishlari (ISGD)


    Yuqorida aytib o'tilganidek, klassik stochastik gradient tushishi odatda o'quv ko'rsatkichlariga sezgir
    η{ \eta }. Tez yaqinlashish tez yuqori o'rganish ko'rsatkichini talab qiladi, lekin bu raqamli xotirjamlikka olib kelishi mumkin. Muammoni asosan implikativ o'zgarishni ko'rib chiqish orqali hal qilish mumkin[15] bu yerda stochastik gradient hozirgi emas, balki keyingi iteratsiyada qayta hisob-kitob qilinadi
    𝑤 𝑛 𝑒 𝑤 :=𝑤 𝑜 𝑙 𝑑 – η ∇ 𝑄 𝑖 ( 𝑤 𝑛 𝑒 𝑤 ).
    { w^{new}:=w^{old}-\eta \nabla Q_{i}(w^{new}).}
    Bu tenglama yashirin, chunki
    𝑤 𝑛 𝑒 𝑤
    Tenglikning ikki tomonida { w^{new}} paydo bo'ladi. Bu proksimal gradient usulining stoxestik shaklidir, chunki qayta hisoblashni quyidagicha ifodalash mumkin
    𝑤 𝑛 𝑒 𝑤 :=arg⁡min𝑤{𝑄𝑖(𝑤)+12η||𝑤−𝑤𝑜𝑙𝑑||2}.
    {w^{new}:=\arg\min_{w}\{Q_{i}(w)+{\frac{1}{2\eta}}||w-^{old}||^{2}\}.}
    Misol sifatida xossaga ega bo'lgan eng kam kvadratlar usulini ko'rib chiqaylik
    𝑥1,…,𝑥𝑛∈𝑅𝑝{x_{1},\ldots ,x_{n}\in \mathbb {R} ^{p}} iga ќ ї nабляdеnїnїїmї
    𝑦1,…,𝑦𝑛∈𝑅{ y_{1},\ldots ,y_{n}\in \mathbb {R} }. Hal qilmoqchimiz:
    min
    𝑤∑𝑗=1𝑛(𝑦𝑗−𝑥𝑗′𝑤)2,{ \min _{w}\sum _{j=1}^{n}(y_{j}-x_{j}'w)^{2},}
    Qayerda
    𝑥𝑗′𝑤=𝑥𝑗1𝑤1+𝑥𝑗,2𝑤2+...+𝑥𝑗,𝑝𝑤𝑝
    { x_{j}'w=x_{j1}w_{1}+x_{j,2}w_{2}+...+x_{j,p}w_{p}} degan ma'noni anglatadi.
    Bunga e'tibor bering
    𝑥
    { x} birinchi element sifatida "1" ga ega bo'lishi mumkin. Klassik stochastik gradient tushishi quyidagicha ishlaydi
    𝑤𝑛𝑒𝑤=𝑤𝑜𝑙𝑑+η(𝑦𝑖−𝑥𝑖′𝑤𝑜𝑙𝑑)𝑥𝑖
    { w^{new}=w^{old}+\eta (y_{i}-x_{i}'w^{old})x_{i}}
    Qayerda
    𝑖
    { i} teng taqsimlanadi 1 va
    𝑛
    { n}. Nazariy jihatdan ushbu protsedura nisbatan yumshoq taxminlar bilan birlashsa-da, amalda protsedura juda beqaror bo'lishi mumkin. Xususan, agar
    η{ \eta } yolgʻon hayratda qoldi, u
    𝐼−η𝑥𝑖𝑥𝑖′
    { I-\eta x_{i}x_{i}'} katta absolyut eigenvalularga ega bo'lib, protsedura bir nechta iteratsiyalarda bo'linib ketishi mumkin. Aksincha, yopiq stochastik gradient tushishi (ISGD) formula sifatida ifodalanishi mumkin
    𝑤𝑛𝑒𝑤=𝑤𝑜𝑙𝑑+η1+η||𝑥𝑖||2(𝑦𝑖−𝑥𝑖′𝑤𝑜𝑙𝑑)𝑥𝑖.
    { w^{new}=w^{old}+{\frac {\eta }{1+\eta ||x_{i}||^{2}}}(y_{i}-x_{i}'w^{old})x_{i}.}
    Protsedura deyarli hamma uchun raqamli barqaror bo'lib qoladi
    η{ \eta } chunki o'quv ko'rsatkichi endi normallashgan. Eng kam kvadratlar usulida klassik va ochiq-oydin stochastik gradient tushishi o'rtasidagi bu taqqoslash eng kam o'rtacha kvadratlar (LMS) filtri va normallashtirilgan eng kam o'rtacha kvadratlar filtri (NLMS) o'rtasidagi taqqoslashga juda o'xshaydi.
    ISGD uchun analitik yechim faqat eng kam kvadratlar usulida mumkin bo'lsa-da, protsedurani turli xil modellarda samarali amalga oshirish mumkin. Xususan, faraz qilaylik
    𝑄𝑖 𝑤)
    { Q_{i}(w)} bog'liq
    𝑤{ w} faqat xossalarning chiziqli birikmasi sifatida
    𝑥𝑖{ x_{i}}, shuning uchun yozishimiz mumkin
    ∇𝑤𝑄𝑖(𝑤)=−𝑞(𝑥𝑖′𝑤)𝑥𝑖
    { \nabla _{w}Q_{i}(w)=-q(x_{i}'w)x_{i}}, гdе веще веществеnоnchoʻznnanа яфуnkkсия
    𝑞
    { q} ga bog'liq bo'lishi mumkin
    𝑥𝑖,𝑦𝑖{ x_{i},y_{i}}, yoʻq
    𝑤
    { w} bevosita, faqat orqali
    𝑥
    𝑖

    𝑤
    { x_{i}'w}. Eng kam kvadratlar usuli bu holatni qanoatlantiradi va shuning uchun logistik regressiya va eng umumiylashtirilgan chiziqli modellar bu holatni qondiradi. Masalan, eng kam kvadratlar usulida
    𝑞
    (
    𝑥
    𝑖

    𝑤
    )
    =
    𝑦
    𝑖

    𝑥
    𝑖

    𝑤
    { q(x_{i}'w)=y_{i}-x_{i}'w}, lekin logistik regressiyada
    𝑞
    (
    𝑥
    𝑖

    𝑤
    )
    =
    𝑦
    𝑖

    𝑆
    (
    𝑥
    𝑖

    𝑤
    )
    { q(x_{i}'w)=y_{i}-S(x_{i}'w)}, где
    𝑆
    (
    𝑢
    )
    =
    𝑒
    𝑢
    /
    (
    1
    +
    𝑒
    𝑢
    )
    { S(u)=e^{u}/(1+e^{u})} logistik funksiyadir. Poisson regressiyasida
    𝑞
    (
    𝑥
    𝑖

    𝑤
    )
    =
    𝑦
    𝑖

    𝑒
    𝑥
    𝑖

    𝑤
    { q(x_{i}'w)=y_{i}-e^{x_{i}'w}}, iga ʼ так далее.

    Bunday sharoitlarda ISGDni quyidagicha amalga oshirish oson. Yo'l qo'ying


    𝑓
    (
    𝜉
    )
    =
    η
    𝑞
    (
    𝑥
    𝑖

    𝑤
    𝑜
    𝑙
    𝑑
    +
    𝜉
    |
    |
    𝑥
    𝑖
    |
    |
    2
    )
    { f(\xi )=\eta q(x_{i}'w^{old}+\xi ||x_{i}||^{2})}, где
    ξ{ \xi } sonidir. U holda ISGD ga ekvivalent

    𝑤
    𝑛
    𝑒


    𝑤
    =
    𝑤
    𝑜
    𝑙
    𝑑
    +
    𝜉

    𝑥
    𝑖
    ,
    𝜉

    =
    𝑓
    (
    𝜉

    )
    .
    { w^{new}=w^{old}+\xi ^{\ast }x_{i},\\xi ^{\ast }=f(\xi ^{\ast}).}
    Oʻlchov koʻpaytuvchisi
    𝜉


    𝑅
    { \xi ^{\ast }\in \mathbb {R} } ni segmentni yarmiga bo'lish orqali topish mumkin, chunki aksariyat modellarda, masalan, yuqorida ko'rsatilgan umumiylashtirilgan chiziqli modellar, the
    𝑞
    { q} kamayadi, so'ngra qidiruv chegaralari
    𝜉
    ∗{ \xi ^{\ast }} будут
    [
    min
    (
    0
    ,
    𝑓
    (
    0
    )
    )
    ,
    maksimal
    (
    0
    ,
    𝑓
    (
    0
    )
    )
    ]
    { [\min(0,f(0)),\max(0,f(0))]}.

    Impuls


    So'nggi o'zgarishlarga Rumelhart, Hinton va Uilyamsning orqa propagation o'rganish bo'yicha maqolasida paydo bo'lgan harakat usuli kiradi. Harakat bilan stochastik gradient tushishi o'zgarishni eslaydi
    D
    𝑤
    { \Delta w} har bir iteratsiyada va keyingi o'zgarishni gradientning chiziqli birikmasi va oldingi o'zgarish sifatida aniqlaydi:[17][18]

    D
    𝑤
    :=


    α
    D
    𝑤

    η

    𝑄
    𝑖
    (
    𝑤
    )
    { \Delta w:=\alpha \Delta w-\eta \nabla Q_{i}(w)}
    𝑤
    :=
    𝑤
    +
    D
    𝑤
    { w:=w+\Delta w}
    olib keladigan

    𝑤
    :=


    𝑤

    η

    𝑄
    𝑖
    (
    𝑤
    )
    +
    α
    D
    𝑤
    { w:=w-\eta \nabla Q_{i}(w)+\alpha \Delta w}
    qaerda parametri
    𝑤
    { w}, u minimallashtiradi
    𝑄
    (
    𝑤
    )
    { Q(w)}, baholanishi kerak va
    η{ \eta } – qadam o'lchami (ba'zan mashina o'rganishda o'quv ko'rsatkichi deb ataladi).

    "Momentum" nomi fizikada harakatdan paydo bo'lishi — muvozanat vektori


    𝑤
    { w}, parametr bo'shlig'i orqali zarrachaning yo'li deb tushuniladi,[16] yo'qotish funksiyasining gradientidan tezlanishni boshdan kechiradi ("kuch"). Klassik stochastik gradient tushishidan farqli o'laroq, usul tebranishlarning oldini olish orqali harakatni bir xil yo'nalishda saqlashga harakat qiladi. Pulse kompyuter olimlari tomonidan bir necha o'n yildan beri sun'iy neyron tarmoqlarini o'qitishda muvaffaqiyatli qo'llanilmoqda.

    Oʻrtacha
    1980-yillarning oxirida Ruppert va Polak tomonidan mustaqil ravishda ishlab chiqilgan o'rtacha stochastik gradient tushishi an'anaviy stochastik gradient pastga tushish bo'lib, parametr vektorining o'rtacha ko'rsatkichini qayd etadi. Ya'ni, qayta hisoblash stochastik gradient tushishining odatdagi usulidagi kabi bo'ladi, lekin algoritm ham izdan


    𝑤
    ¯
    =


    1
    𝑡

    𝑖
    =
    0
    𝑡

    1
    𝑤
    𝑖
    { {\bar {w}}={\frac {1}{t}}\sum _{i=0}^{t-1}w_{i}} .
    Optimallashtirish tugallanganda o'rtacha parametr vektori o'rnini egallaydi w.



    Download 117,37 Kb.
    1   2   3   4   5   6   7   8




    Download 117,37 Kb.

    Bosh sahifa
    Aloqalar

        Bosh sahifa



    Toshkent axborot texnologiyalari universiteti urganch filiali kompyuter injineringi fakulteti

    Download 117,37 Kb.