Международная научно-техническая конференция «Практическое применение технических и цифровых технологий и их инновационных решений», татуфф, Фергана, 4 мая 2023 г




Download 6,64 Mb.
Pdf ko'rish
bet143/312
Sana22.05.2024
Hajmi6,64 Mb.
#249488
1   ...   139   140   141   142   143   144   145   146   ...   312
Bog'liq
3 tom

Использованные литературы: 
1.
Айдын, М.(2010). Социология знаний, Открывающая книга, 
Стамбул. 
2.
Альмод,Я.(2012).Ибн 
Араби 
и 
Деррида; 
Суфизм 
и 
деконструкция,(Перевод: К. Филиз), Подробные публикации, 
Стамбул. 
3.
Арон, Р.(1994).Этапы социологической мысли,(Перевод: К. 
Алемдар),Информационные издания, Стамбул. 


Oliy va o‘rta ta’lim tizimida pedagogik – psixologik muammolarning zamonaviy yechimlari 
Международная научно-техническая конференция «Практическое применение технических и 
цифровых технологий и их инновационных решений», ТАТУФФ, Фергана, 4 мая 2023 г. 
279
MA’LUMOTNI O‘QITISHDA AGENTLI O‘QITISH USULLARIDAN 
FOYDALANISH. 
Boynazarov Otabek Murot o‘g‘li 
IIV Malaka oshirish instituti, Axborot texnologiyalari sikli o‘qituvchisi 
Hozirgi kunda dunyo olimlari qiymatga asoslangan boshqaruv nafaqat 
ma’lumotlarni o‘qitish uchun, balki jarayonlar uchun ham tezlik bilan ishlashni 
nazarda tutadi. Tizim muvaffaqiyatli ishlashi va vaqt eng asosiy faktir 
hisoblanadi. Tezroq ma’lumotlar olish uchun maqsadlariga erishish kalitiga 
aylanadi. Shu tufayli olimlar agentli o‘qitish tizimlaridan samarali foydalanishga 
qiziqishi paydo bo'ldi. Ushbu boshqaruv usuli yuqori ma’lumootlarni o‘qitishga
qo‘yiladigan talablarni ko‘tarildi va o‘zgartiradi. Qiymatga asoslangan usullarga 
biri bu RL texnikasining umumiy qiymatlarga asoslangan algoritmlar 
hisoblanadi. Qiymatga asoslangan algoritmlarda maqsad odatda quyidagicha
tenglamada aniqlangan Q harakat-qiymat funksiyasining bahosini topish 
hisoblanadi. Q-learning [1] mashhur qiymatga asoslangan RL algoritmi bo‘lib, 
unda qiymat funksiyasi keyingi holatning taxminiy qiymatini yuklash va 
foydalanish orqali kutilgan uzoq muddatli mukofotni optimallashtirish uchun 
takroriy ravishda yangilashdan iborat. Xususan, holatidan 
ga o‘tgandan 
so‘ng harakati orqali Q-learning quyidagi yangilanishni quyidagicha amalga 
oshiradi: 
Bu yerda - o'rganish darajasi, - chegirma omili va r - atrof-muhitdan 
olingan darhol mukofot. 0 ga yaqin bo'lgan qiymati ma’lumotni uzog‘ini 
ko‘rmaydigan agentni yaratadi, ya‘ni darhol mukofot qiymatiga ko‘proq 
ahamiyat beradi, 1 ga yaqin qiymatdan foydalanish agentni uzoq muddatli 
mukofotlar uchun ko'proq optimallashtirishga majbur qilishdan iborat hisobladi.


Современные решения проблем системы высшего, среднего образования и их решения
Международная научно-техническая конференция «Практическое применение технических и 
цифровых технологий и их инновационных решений», ТАТУФФ, Фергана, 4 мая 2023 г. 
280
Q-learning amal qilinayotgan siyosatidan qat‘iy nazar, 
optimal 
harakat-qiymati funksiyasini to‘g‘ridan-to‘g‘ri yaqinlashtirish imkonini beradi, 
chunki u keyingi holatning maksimal harakat qiymatidan foydalangan holda 
bilib olishimiz mumkindir. 
Bu yerda muhim muammolardan biri agentning o‘rganishni 
kuchaytirishda shu paytgacha to‘plangan bilimlaridan foydalanish va potentsial 
yuqoriroq mukofotlar beradigan harakat tanlovlarini, ya‘ni qidiruv-
ekspluatatsiya dilemmasini topish uchun tadqiq qilish o‘rtasidagi kelishuv 
hisobladi. 
Xususiyat gradienti [2] qiymatga asoslangan usullarda bajarilganidek, 
qiymat funktsiyalariga asoslangan xususiyatni bilvosita xulosa qilish o‘rniga
tomonidan parametrlangan 
siyosatini to‘g‘ridan-to‘g‘ri o‘rganadigan 
mustahkamlovchi o‘rganish algoritmlari oilasi bo‘lib, Xususiyat gradienti 
usullari agentning atrof-muhit bilan oʻzaro taʼsir qilish tajribasidan (yaʼni 
kuzatilgan holatlar, harakatlar va mukofotlar) foydalangan holda ga nisbatan 
maqsadning 
gradientlarini hisoblab chiqadi va ushbu gradient yoʻnalishida 
qadam qoʻyish orqali B parametrlarini yangilaydi: 
maqsad funksiyasi kutilgan daromad kabi samaradorlik 
o‘lchovining ba’zi shakllarini ifodalaydi: [3]dan 
uning parametrlari bo‘yicha farqlanadigan bo‘lsa, xususiyatini 
qanday parametrlashtirish kerakligi haqida odatda hech qanday cheklovlar yo‘q. 
Xususiyat gradient usullari oilasi ichida aktyor-tanqidiy usullar deb ataladigan 


Oliy va o‘rta ta’lim tizimida pedagogik – psixologik muammolarning zamonaviy yechimlari 
Международная научно-техническая конференция «Практическое применение технических и 
цифровых технологий и их инновационных решений», ТАТУФФ, Фергана, 4 мая 2023 г. 
281
yana bir kuchli ta’lim usullari sinfi bor. Ushbu usullar aktyor deb ataladigan 
xususiyatni, shuningdek tanqidchi deb ataladigan qiymat funktsiyasini 
o‘rgangan. [2]. Xususiyat gradienti usullari shuning uchun faqat aktyorlar uchun 
usullar sifatida ham tanilgan. Faqat aktyorlar uchun usullar bilan solishtirganda, 
tanqidchidan foydalanish odatda gradientlardagi tafovutni kamaytiradi va 
shuning uchun ko‘pincha barqarorroq siyosat yangilanishiga erishadi. Yagona 
maqsadli sozlamalar uchun ikkala sinfda ham bitta, ham ko‘p agentli sozlamalar 
uchun mashhur zamonaviy usullar mavjud. jarayon taqsimotining hosilasini 
talab qilmasdan, xususiy parametriga nisbatan maqsadning gradientiga 
mutanosib bo‘lgan quyidagi analitik ifodani taqdimi quyidagicha: 
Bu iboraning birinchi atamasi maqsadli siyosati boʻyicha yuzaga kelgan 
holatlar boʻyicha yigʻindini ifodalaydi. 

Download 6,64 Mb.
1   ...   139   140   141   142   143   144   145   146   ...   312




Download 6,64 Mb.
Pdf ko'rish

Bosh sahifa
Aloqalar

    Bosh sahifa



Международная научно-техническая конференция «Практическое применение технических и цифровых технологий и их инновационных решений», татуфф, Фергана, 4 мая 2023 г

Download 6,64 Mb.
Pdf ko'rish