• Oʻz-oʻzini oʻrganish
  • Oʻrganishni mustahkamlash




    Download 0,64 Mb.
    bet4/8
    Sana19.05.2024
    Hajmi0,64 Mb.
    #244208
    1   2   3   4   5   6   7   8
    Bog'liq
    Mustaqil ish

    Oʻrganishni mustahkamlash
    Videooʻyinlarni oʻynash kabi ilovalarda aktyor bir qator harakatlarni amalga oshiradi va har biridan keyin atrof-muhitdan umuman oldindan aytib boʻlmaydigan javob oladi. Oʻqitishni mustahkamlashda maqsad uzoq muddatli (kutilgan yigʻilgan) xarajatlarni minimallashtiradigan harakatlarni amalga oshirish uchun tarmoqni tortish (siyosatni ishlab chiqish) hisoblanadi. Vaqtning har bir nuqtasida agent biror harakatni amalga oshiradi va atrof-muhit baʼzi (odatda nomaʼlum) qoidalarga koʻra kuzatuv va bir lahzalik xarajatlarni keltirib chiqaradi. Har qanday vaziyatda agent xarajatlarni aniqlash uchun yangi harakatlarni oʻrganish yoki tezroq davom etish uchun oldingi oʻrganishdan foydalanishga qaror qiladi.
    Rasmiy ravishda atrof-muhit davlatlar bilan Markov qaror jarayoni (MDP) sifatida modellashtirilgan 𝑠1,...,𝑠𝑛∈𝑆  va harakatlar 𝑎1,...,𝑎𝑚∈𝐴 . Holatga oʻtishlar nomaʼlum boʻlgani uchun uning oʻrniga ehtimollik taqsimotlari qoʻllaniladi: lahzali xarajatlar taqsimoti 𝑃(𝑐𝑡|𝑠𝑡) , kuzatish taqsimoti 𝑃(𝑥𝑡|𝑠𝑡)  va oʻtish taqsimoti 𝑃(𝑠𝑡+1|𝑠𝑡,𝑎𝑡) , siyosat esa kuzatishlar berilgan harakatlar boʻyicha shartli taqsimlash sifatida belgilanadi.
    SNT bunday ilovalarda oʻrganish komponenti boʻlib xizmat qiladi. SNT bilan birgalikda dinamik dasturlash (neyrodinamik dasturlash) SNT qobiliyati tufayli transport vositalarini marshrutlash, videooʻyinlar, tabiiy resurslarni boshqarishva tibbiyot[kabi muammolarga qoʻllanilgan. nazorat masalalarini echish uchun sonli yaqinlashish uchun diskretizatsiya tarmogʻining zichligini kamaytirishda ham aniqlik yoʻqotilishini kamaytirish.
    Oʻz-oʻzini oʻrganish
    Neyron tarmoqlarda oʻz-oʻzini oʻrganish 1982-yilda Crossbar Adaptive Array (CAA) deb nomlangan oʻz-oʻzini oʻrganishga qodir neyron tarmogʻi bilan birga kiritilgan. Bu faqat bitta kirish, vaziyat s va faqat bitta chiqish, harakat (yoki xatti-harakatlar) boʻlgan tizimdir. Unda na tashqi maslahat kiritish, na atrof-muhitdan tashqi mustahkamlash kiritish mavjud. Tizim idrok va hissiyot oʻrtasidagi oʻzaro taʼsir orqali boshqariladi.Xotira matritsasi W =||w(a, s)|| ni hisobga olgan holda, har bir iteratsiyada oʻzaro bogʻliqlikni oʻz-oʻzidan oʻrganish algoritmi quyidagi hisoblashni amalga oshiradi:

    Download 0,64 Mb.
    1   2   3   4   5   6   7   8




    Download 0,64 Mb.