4.Sun’iy neyron to’rlarini o’rganish jarayonidagi falajlik sabablari
Reja:
Sun'iy Neyron to'rlar.
Sun'iy Neyron to'rlarni o’rganish.
Falajlik sabablari.
Sun'iy neyron tarmoqlari (ANN) quyidagi rasmga o'xshash ko'p qatlamli to'liq ulangan neyron tarmoqlardir. Ular kirish qatlami, bir nechta yashirin qatlamlar va chiqish qatlamidan iborat. Bir qatlamdagi har bir tugun keyingi qatlamdagi har bir boshqa tugunga ulanadi. Yashirin qatlamlar sonini ko'paytirish orqali tarmoqni chuqurroq qilamiz.
Agar biz yashirin yoki chiqish tugunlaridan biriga kattalashtirsak, biz quyidagi rasmga duch kelamiz.
Berilgan tugun o'z kirishlarining tortilgan yig'indisini oladi va uni chiziqli bo'lmagan faollashtirish funktsiyasi orqali o'tkazadi. Bu tugunning chiqishi, keyinchalik keyingi qatlamda boshqa tugunning kirishiga aylanadi. Signal chapdan o'ngga oqadi va yakuniy chiqish barcha tugunlar uchun ushbu protsedurani bajarish orqali hisoblanadi. Ushbu chuqur neyron tarmoqni o'rgatish barcha qirralar bilan bog'liq og'irliklarni o'rganishni anglatadi.
Berilgan tugun uchun tenglama quyidagicha ko'rinadi. Chiziqli bo'lmagan aktivlashtirish funksiyasidan o'tgan erkli o'zgaruvchilarning tortilgan yig'indisi. U vektorli nuqta mahsuloti sifatida ifodalanishi mumkin, bu erda n-tugun uchun kirishlar soni.
Men soddaligi uchun qiyshiq muddatini yozilmaydi. Bias-bu barcha tugunlarga kirish va har doim 1 qiymatiga ega. Bu faollashtirish funktsiyasining natijasini chapga yoki o'ngga siljitish imkonini beradi. Shuningdek, u modelga barcha kirish xususiyatlari 0 bo'lganda mashq qilishga yordam beradi. Agar bu hozir murakkab tuyulsa, siz noto'g'ri shartlarni e'tiborsiz qoldirishingiz mumkin. To'liqlik uchun yuqoridagi tenglama kiritilgan tarafkashlik bilan quyidagicha ko'rinadi.
Hozircha biz oldinga o'tishni tasvirlab berdik, ya'ni kirish va chiqish qanday hisoblanganligini og'irliklari berilgan. Trening tugagandan so'ng, biz bashorat qilish uchun faqat oldinga o'tishni boshlaymiz. Ammo biz birinchi navbatda og'irliklarni o'rganish uchun modelimizni o'rgatishimiz kerak va mashg'ulot tartibi quyidagicha ishlaydi:
Barcha tugunlar uchun og'irliklarni tasodifiy boshlang. Biz boshqa maqolada kashf etadi aqlli boshlash usullari bor.
Har bir mashg'ulot misoli uchun joriy og'irliklar yordamida oldinga o'tishni bajaring va chapdan o'ngga o'tadigan har bir tugunning chiqishini hisoblang. Yakuniy chiqish-bu oxirgi tugunning qiymati.
Yakuniy natijani o'quv ma'lumotlaridagi haqiqiy maqsad bilan Solishtiring va yo'qotish funktsiyasi yordamida xatoni o'lchang.
O'ngdan chapga orqaga o'tishni bajaring va backpropagation yordamida xatoni har bir alohida tugunga tarqating. Har bir vaznning xatoga qo'shgan hissasini hisoblang va gradient tushish yordamida og'irliklarni mos ravishda sozlang. Xato gradyanlarini oxirgi qatlamdan boshlab qayta tarqating.
Gradient kelib chiqishi bilan Backpropagation tom ma'noda chuqur o'rganish modellari ortidagi "sehr" dir. Bu juda uzoq mavzu va ba'zi hisob-kitoblarni o'z ichiga oladi, shuning uchun biz ushbu amaliy chuqur o'rganish seriyasining o'ziga xos xususiyatlariga kirmaymiz. Gradient tushishini batafsil tushuntirish uchun bu erga murojaat qiling. Backpropagation-ning asosiy ko'rinishi bu erda mavjud. Batafsil matematik davolash uchun bu erda va bu erda murojaat. Va yanada rivojlangan optimallashtirish algoritmlari uchun bu erga murojaat qiling.
Standart ML dunyosida ushbu oldinga yo'naltirilgan arxitektura ko'p qatlamli perceptron sifatida tanilgan. ANN va perceptron o'rtasidagi farq shundaki, ANN sigmasimon kabi chiziqli bo'lmagan faollashtirish funktsiyasidan foydalanadi, ammo perceptron qadam funktsiyasidan foydalanadi. Va bu chiziqsizlik Annga o'zining katta kuchini beradi.
Sezgi
Ko'p allaqachon davom bo'lyapdi, hatto asosiy oldinga dovoni bilan. Keling, buni soddalashtiraylik va uning orqasidagi sezgi tushunaylik.
Aslida ANNNING har bir qatlami nima qiladi-bu kirishni bir vektor fazosidan boshqasiga chiziqli bo'lmagan o'zgartirish.
Misol sifatida yuqoridagi 1-rasmdagi Anndan foydalanamiz. Bizda 3D fazodagi vektorga mos keluvchi 3 o'lchovli erkli o'zgaruvchi mavjud. Keyin biz uni har biri 4 tugunli ikkita yashirin qatlamdan o'tkazamiz. Va yakuniy chiqish 1D vektor yoki skalar.
Shunday qilib, agar biz buni vektorli transformatsiyalar ketma-ketligi sifatida tasavvur qilsak, avval 3D kiritishni 4D vektor fazosiga moslashtiramiz, so'ngra yangi 4D fazoga yana bir o'zgartirishni amalga oshiramiz va yakuniy transformatsiya uni 1d ga kamaytiradi. bu shunchaki matritsa ko'paytmalari zanjiri. Oldinga o'tish ushbu matritsali nuqta mahsulotlarini bajaradi va natijaga aktivizatsiya funktsiyasini element bo'yicha qo'llaydi. Quyidagi rasmda faqat ishlatilayotgan og'irlik matritsalari ko'rsatilgan (aktivlashishlar emas).
Fikr
Hozircha biz chuqur modellar nima va ular qanday ishlashi haqida gaplashdik, lekin nima uchun biz birinchi navbatda chuqur ketishimiz kerak?
Biz ANN qatlami o'z erkli o'zgaruvchilarini bir vektor fazodan ikkinchisiga chiziqli bo'lmagan o'zgartirishni amalga oshirishini ko'rdik. Agar biz tasniflash muammosini misol qilib olsak, qaror chegarasini chizish orqali sinflarni ajratmoqchimiz. Berilgan shakldagi kirish ma'lumotlari ajratilmaydi. Har bir qatlamda chiziqli bo'lmagan o'zgarishlarni amalga oshirish orqali biz kirishni yangi vektor maydoniga loyihalashtira olamiz va sinflarni ajratish uchun murakkab qaror chegarasini chizamiz.
Keling, aniq bir misol bilan tasvirlangan narsalarni tasavvur qilaylik. Quyidagi ma'lumotlarni hisobga olsak, u chiziqli ravishda ajratilmasligini ko'rishimiz mumkin.
Xulosa qilib aytganda, Annlar juda moslashuvchan, ammo kuchli chuqur o'rganish modellari. Ular universal funktsiya taxminchilari, ya'ni ular har qanday murakkab funktsiyani modellashtirishi mumkin. Yaqinda bir nechta sabablarga ko'ra ularning mashhurligi bo'yicha aql bovar qilmaydigan o'sish kuzatildi: bu modellarni tayyorlashga imkon beradigan aqlli fokuslar, hisoblash quvvatining katta o'sishi, ayniqsa Gpu'lar va tarqatilgan treninglar va o'quv ma'lumotlarining katta miqdori. Bularning barchasi chuqur o'rganishga imkon berdi.
Bu qisqa joriy etish edi, chuqur asab to'r qamrab qaysi onlayn buyuk darslarda tonna bor. Malumot uchun, men juda bu qog'oz tavsiya. Bu chuqur o'rganish va bo'lim fantastik obzori ekan 4 Enn qamrab olgan. Yana bir katta yozuvlar onlayn mavjud.
Falaj. Ba'zi hollarda, tarmoq o'rganish paytida tarozi modifikatsiyasi tarmoqdagi haqiqiy o'zgarishlarga olib kelmaydigan holatga tushishi mumkin. Bunday "tarmoq falaji" jiddiy muammodir: bir marta paydo bo'lganda, u o'quv vaqtini bir necha darajaga oshirishi mumkin.
Paralitik neyronlarning katta qismi katta net qiymatlarini berish uchun etarlicha katta og'irliklarni olganda paydo bo'ladi. Natijada, out qiymati chegara qiymatiga yaqinlashadi va siqish funktsiyasining hosilasi nolga yaqinlashadi. Ko'rib turganimizdek, vazn o'zgarishi miqdorini hisoblashda teskari tarqalish algoritmi ushbu hosilani formulada koeffitsient sifatida ishlatadi. Paralitik ta'sirlangan neyronlar uchun lotinning nolga yaqinligi vazn o'zgarishini nolga yaqinlashtiradi.
Agar shunga o'xshash sharoitlar tarmoqning ko'plab neyronlarida paydo bo'lsa, unda o'rganish deyarli to'xtab qolishi mumkin.
Trening davomida tarmoq falaj bo'ladimi yoki yo'qligini bashorat qila oladigan nazariya yo'q. Kichik qadam o'lchamlari falajga olib kelishi ehtimoli kamroq ekanligi eksperimental ravishda aniqlandi, ammo bitta vazifa uchun kichik qadam boshqasi uchun katta bo'lishi mumkin. Falajning narxi yuqori bo'lishi mumkin. Modellashtirishda ko'p soatlik mashina vaqti falajdan chiqib ketishi mumkin.
|