• Boshqa usullarga qaraganda kSGD ning afzalliklari
  • Xulosa
  • Toshkent axborot texnologiyalari universiteti urganch filiali kompyuter injineringi fakulteti




    Download 117,37 Kb.
    bet7/8
    Sana22.05.2024
    Hajmi117,37 Kb.
    #250384
    1   2   3   4   5   6   7   8
    Bog'liq
    Vaisbek Davlatov Mustaqil ishi ishi

    Tabiiy gradient tushishi va kSGD


    Kalman joylashgan Stochastic Gradient Descent (kSGD)[27] - bu chiziqli modellar, chiziqli bo'lmagan modellar, umumiylashtirilgan chiziqli modellar va ildiz kvadrat yo'qotuvchi neyron tarmoqlarni maxsus holat sifatida o'z ichiga olgan kvazi-ehtimollik modellar uchun statistik muammolarni o'rganish parametrlarini o'rganish uchun onlayn va oflayn algoritm. Onlayn o'quv vazifalari uchun kSGD chiziqli regressiya muammolari uchun Kallmann filtrining maxsus holati, chiziqli bo'lmagan regressiya muammolari uchun kengaytirilgan Kallmann filtrining maxsus holati bo'lib, uni ko'paytirilgan Gauss–Nyuton usuli deb hisoblash mumkin. Bundan tashqari, kSGD ning Kallmann filtri bilan aloqasi va tabiiy gradient tushishi[28] Kallmann filtri bilan aloqasi tufayli[29] kSGD ommabop tabiiy gradientli pastga tushish usulida katta yaxshilanishdir.


    Boshqa usullarga qaraganda kSGD ning afzalliklari:


    1) vazifaning ko'rsatkichlari soniga e'tiborsiz,[b]


    2) mustahkam giperparametrli selektsiyaga ega,
    3) To'xtash holati bor.
    kSGD ning noqulayligi shundaki, algoritmda iteratsiyalar orasidagi zich kovariance matritsani yodlash talab etiladi va har bir iteratsiyada vektorning matrisa bo'yicha mahsulini topish kerak.

    Algoritmni tasvirlash uchun taxmin qiling:


    𝑄
    𝑖
    (
    𝑀
    )
    { Q_{i}(w)}, Π³Π΄Π΅
    𝑀
    ∈
    𝑅
    𝑝
    { w\in \mathbb {R} ^{p}}, bilan aniqlangan
    (
    π‘Œ
    𝑖
    ,
    𝑋
    𝑖
    )
    ∈
    𝑅
    Γ—
    𝑅
    𝑑
    { (Y_{i},X_{i})\in \mathbb {R} \times \mathbb {R} ^{d}} Ρ‚Π°ΠΊ, Ρ‚Π°ΠΊ, Ρ‚Ρ‚Ρ‚ΠΎ

    βˆ‡
    𝑀
    𝑄


    𝑖
    (
    𝑀
    )
    =
    π‘Œ
    𝑖
    βˆ’
    ΞΌ
    (
    𝑋
    𝑖
    ,
    𝑀
    )
    𝑉
    (
    ΞΌ
    (
    𝑋
    𝑖
    ,
    𝑀
    )
    )
    βˆ‡
    𝑀
    ΞΌ
    (
    𝑋
    𝑖
    ,
    𝑀
    )
    { \nabla _{w}Q_{i}(w)={\frac {Y_{i}-\mu (X_{i},w)}{V(\mu (X_{i},w)}}\nabla _{w}\mu (X_{i},w)}
    Qayerda
    ΞΌ
    (
    𝑋
    𝑖
    ,
    𝑀
    )
    { \mu (X_{i},w)} oΚ»rtacha funksiyasi (yaΚΌni kutilgan qiymat
    π‘Œ
    𝑖
    { Y_{i}} oΚ»t
    𝑋
    𝑖
    { X_{i}}), an
    𝑉
    (
    ΞΌ
    (
    𝑋
    𝑖
    ,
    𝑀
    )
    )
    { V(\mu (X_{i},w))} – variance (ya'ni variance) funksiyasi
    π‘Œ
    𝑖
    { Y_{i}} для
    𝑋
    𝑖
    { X_{i}}). Keyin parametrni qayta hisoblang
    𝑀
    (
    𝑑
    +
    1
    )
    { w(t+1)} va kovariant matritsani qayta hisoblash
    𝑀
    (
    𝑑
    +
    1
    )
    { M(t+1)} quyidagi ifodalar bilan belgilangan

    𝑝
    =
    βˆ‡


    𝑀
    ΞΌ
    (
    𝑋
    𝑑
    +
    1
    ,
    𝑀
    (
    𝑑
    )
    )
    { p=\nabla _{w}\mu (X_{t+1},w(t))}
    π‘š
    =
    ΞΌ
    (
    𝑋
    𝑑
    +
    1
    ,
    𝑀
    (
    𝑑
    )
    )
    { m=\mu (X_{t+1},w(t))}
    𝑣
    =
    𝑀
    (
    𝑑
    )
    𝑝
    { v=M(t)p}
    𝑠
    =
    min
    {
    Ξ³
    1
    ,
    maksimal
    {
    Ξ³
    2
    ,
    𝑉
    (
    π‘š
    )
    }
    }
    +
    𝑣
    𝑇
    𝑝
    { s=\min \lbrace \gamma _{1},\max \lbrace \gamma _{2},V(m)\rbrace \rbrace +v^{\mathsf {T}}p}
    𝑀
    (
    𝑑
    +
    1
    )
    =
    𝑀
    (
    𝑑
    )
    +
    π‘Œ
    𝑑
    +
    1
    βˆ’
    π‘š
    𝑠
    𝑣
    { w(t+1)=w(t)+{\frac {Y_{t+1}-m}{s}}v}
    𝑀
    (
    𝑑
    +
    1
    )
    =
    𝑀
    (
    𝑑
    )
    βˆ’
    1
    𝑠
    𝑣
    𝑣
    𝑇
    { M(t+1)=M(t)-{\frac {1}{s}}vv^{\mathsf {T}}}
    Qayerda
    Ξ³
    1
    ,
    Ξ³
    2
    { \gamma_{1},\gamma_{2}} giperparametrlardir. Aylantirish
    𝑀
    (
    𝑑
    )
    { M(t)} kovariant matritsaning aniqlanmagan bo'lib qolishiga sabab bo'lishi mumkin. Matritsani matritsa bo'yicha ko'paytirish orqali bu matritsadan qochish mumkin.
    𝑀
    (
    0
    )
    { M(0)} har qanday musbat aniqlangan simmetrik matritsa bo'lishi mumkin, lekin odatda birlik matritsa olinadi. Patel[27] ta'kidlaganidek, chiziqli regressiyadan boshqa barcha muammolar algoritmning konvergensiyasini ta'minlash uchun qayta ishlashni talab qiladi, ammo hech qanday nazariy yoki amalga oshirish tafsilotlari berilmaydi. Bertsekas [30] tomonidan tahlil qilingan chiziqli bo'lmagan regressiya uchun yaqin aloqada bo'lgan oflayn multipaket usulida kovariant matritsani qayta hisoblashda konversiyani isbotlash uchun undirish koeffitsienti qo'llanilgan.
    Ikkinchi tartibli usullar
    Ma'lumki, standart (deterministik) Nyuton–Raphson algoritmining stoxematik analogi ("ikkinchi tartibli" metod) stochastik yaqinlashish sharoitida iterativ optimallashtirishning asimptotik optimal yoki yaqin optimal shaklini beradi. Empirik risk funksiyasida Hesse matrislarini summa terminlarining bevosita hisoblashidan foydalanadigan usul Qush, Xansen, Nocedal va Singer tomonidan ishlab chiqilgan. Biroq, optimallashtirish uchun zarur Hesse matrisalar to'g'ridan-to'g'ri aniqlash amaliyotda mumkin emas mumkin. SGD algoritmining Hessian haqida to'g'ridan-to'g'ri ma'lumot talab qilmaydigan ikkinchi tartibli versiyasi uchun amaliy va nazariy ko'rinishdagi usullar Spall va boshqalar tomonidan berilgan.[32][33][34] (Ruppert tomonidan bir vaqtning o'zida qayta hisoblash o'rniga cheklangan farqlarga asoslangan kamroq samarali usul berilgan[35]). Bu usullar, hessian to'g'risidagi ma'lumotlarni to'g'ridan-to'g'ri talab qilmasa-da, yuqorida berilgan empirik risk funksiyasidagi summaning qiymatlariga yoki summaning shartlar gradientlari qiymatlariga (ya'ni SGDning kirishiga) asoslanadi. Ayniqsa, ikkinchi tartib optimalligi empirik xavf funktsiyasida yig'indi shartlarining Hesse matrislarini to'g'ridan-to'g'ri hisoblamasdan asimptotik tarzda erishiladi.

    Xulosa


    Koordinata pastga tushish - Bir vaqtning o'zida bitta koordinatani o'zgartiradi
    Chiziqli klassifikatori
    Onlayn mashina o'rganish
    β€’ Chiziqli regressiya uchun C++, Boost, Ublasda stochastik gradient tushishidan foydalanish
    β€’ Mashina o'rganish algoritmlari
    β€’ Gradient pastga tushish, neyron tarmoqlari qanday o'rganadi. 3Blue1Brown (16 oктябrя 2017).
    ∘{ \circ } element bo'yicha ishdir.
    Chiziqli regressiya muammosi uchun kSGD ning iteratsiyaga nisbatan ob'ektiv funksiyani (ya'ni umumiy xato va varyans) burish
    π‘˜
    { k} ΚΌa n ΚΌa n n ΚΌa
    1+Ξ΅π‘˜π‘Οƒ2
    { {\frac {1+\epsilon }{k}}p\sigma ^{2}} bog'liq bo'lgan ko'rsatkich bo'yicha 1 ga moyil bo'lish ehtimoli bilan
    Ρ∈(0,1)
    { \epsilon \in (0,1)}, Π³Π΄Π΅
    Οƒ2
    { \sigma ^{2}} β€” qoldiqlarning dispersiyasi. Bundan tashqari, ma'lum bir tanlov uchun
    Ξ³1,Ξ³2{ \gamma_{1},\gamma_{2}}, shuni ko'rsatish mumkinki, kSGD ning iteratsiyalarda target funksiyani chetga
    π‘˜{ k} ΚΌa n ΚΌa n n ΚΌa (1+Ξ΅)22π‘˜2‖𝑀(0)βˆ’π‘€βˆ—β€–22
    { {\frac {(1+\epsilon )^{2}}{2k^{2}}}}\Vert w(0)-w_{*}\Vert _{2}^{2}} ga qarab ko'rsatkich bo'yicha 1 ga moyil bo'lgan ehtimollik bilan
    Ρ∈(0,1)
    { \epsilon \in (0,1)}, Π³Π΄Π΅
    𝑀
    βˆ—{ w_{*}} optimal sharoit hisoblanadi.



    Download 117,37 Kb.
    1   2   3   4   5   6   7   8




    Download 117,37 Kb.

    Bosh sahifa
    Aloqalar

        Bosh sahifa



    Toshkent axborot texnologiyalari universiteti urganch filiali kompyuter injineringi fakulteti

    Download 117,37 Kb.