O’zbekiston respublikasi raqamli texnologiyalar vazirligi

Download 0.58 Mb.
bet	6/8
Sana	07.04.2023
Hajmi	0.58 Mb.
	#49458

1 2 3 4 5 6 7 8

Bog'liq
Mustaqil ish (2)
Geografiya to\'garak 5 6 sinf 68 soat 2021 2022 yil uchun, 9-fizika-test (1), Mehnat muhofazaa fanini o\'rganishda muommolarni yechishda ilmiy taqdiqot ishlari ahamiyati, 10 11ga aralash, 12, Ethical issue, MY FAMILY, Ochiq-dars-bayonnomasi-4, 660, futboll.tayyor, Azamat , 123, Документ Microsoft Word (2), Kasb-hunar-ish-reja-1-kurs

Oʻrganishni mustahkamlash
Oʻz-oʻzini oʻrganish

Narx funksiyasi

Xarajat funksiyasini ad hoc aniqlash mumkin boʻlsa-da, koʻpincha tanlov funksiyaning kerakli xususiyatlari (masalan, qavariqlik) yoki modeldan kelib chiqqanligi sababli aniqlanadi (ehtimollik modelida modelning orqa ehtimoli teskari sifatida ishlatilishi mumkin).

Oʻrganishni mustahkamlash

Video oʻyinlarni oʻynash kabi ilovalarda aktyor bir qator harakatlarni amalga oshiradi va har biridan keyin atrof-muhitdan umuman oldindan aytib boʻlmaydigan javob oladi. Oʻqitishni mustahkamlashda maqsad uzoq muddatli (kutilgan yigʻilgan) xarajatlarni minimallashtiradigan harakatlarni amalga oshirish uchun tarmoqni tortish (siyosatni ishlab chiqish) hisoblanadi. Vaqtning har bir nuqtasida agent biror harakatni amalga oshiradi va atrof-muhit baʼzi (odatda nomaʼlum) qoidalarga koʻra kuzatuv va bir lahzalik xarajatlarni keltirib chiqaradi. Har qanday vaziyatda agent xarajatlarni aniqlash uchun yangi harakatlarni oʻrganish yoki tezroq davom etish uchun oldingi oʻrganishdan foydalanishga qaror qiladi.
Rasmiy ravishda atrof-muhit davlatlar bilan Markov qaror jarayoni (MDP) sifatida modellashtirilgan �1,...,��∈� va harakatlar �1,...,��∈� . Holatga oʻtishlar nomaʼlum boʻlgani uchun uning oʻrniga ehtimollik taqsimotlari qoʻllaniladi: lahzali xarajatlar taqsimoti �(��|��) , kuzatish taqsimoti �(��|��) va oʻtish taqsimoti �(��+1|��,��) , siyosat esa kuzatishlar berilgan harakatlar boʻyicha shartli taqsimlash sifatida belgilanadi.
SNT bunday ilovalarda oʻrganish komponenti boʻlib xizmat qiladi. SNT bilan birgalikda dinamik dasturlash (neyrodinamik dasturlash) SNT qobiliyati tufayli transport vositalarini marshrutlash, video oʻyinlar, tabiiy resurslarni boshqarishva tibbiyot kabi muammolarga qoʻllanilgan. nazorat masalalarini echish uchun sonli yaqinlashish uchun diskretizatsiya tarmogʻining zichligini kamaytirishda ham aniqlik yoʻqotilishini kamaytirish.

Oʻz-oʻzini oʻrganish

Neyron tarmoqlarda oʻz-oʻzini oʻrganish 1982-yilda Crossbar Adaptive Array (CAA) deb nomlangan oʻz-oʻzini oʻrganishga qodir neyron tarmogʻi bilan birga kiritilgan. Bu faqat bitta kirish, vaziyat s va faqat bitta chiqish, harakat (yoki xatti-harakatlar) boʻlgan tizimdir. Unda na tashqi maslahat kiritish, na atrof-muhitdan tashqi mustahkamlash kiritish mavjud. Tizim idrok va hissiyot oʻrtasidagi oʻzaro taʼsir orqali boshqariladi. Xotira matritsasi W =||w(a, s)|| ni hisobga olgan holda, har bir iteratsiyada oʻzaro bogʻliqlikni oʻz-oʻzidan oʻrganish algoritmi quyidagi hisoblashni amalga oshiradi:
In situation s perform action a;
Receive consequence situation s';
Compute emotion of being in consequence situation v(s');
Update crossbar memory w'(a,s) = w(a,s) + v(s').
CAA ikkita muhitda mavjud boʻlib, biri oʻzini tutadigan xulq-atvor muhiti va ikkinchisi genetik muhit boʻlib, u erdan dastlab va faqat bir marta xulq-atvor muhitida duch keladigan vaziyatlar haqida dastlabki his-tuygʻularni oladi. Genetik muhitdan genom vektorini (turlar vektorini) olgandan soʻng, CAA kerakli va nomaqbul vaziyatlarni oʻz ichiga olgan xulq-atvor muhitida maqsadga intiladigan xatti-harakatni oʻrganadi.

Download 0.58 Mb.

1 2 3 4 5 6 7 8

Download 0.58 Mb.