|
O‘zbekiston respublikasi oliy ta‘lim, fan va innovatsiyalar vazirligi muhammad al-xorazmiy nomidagi
|
bet | 2/4 | Sana | 21.05.2024 | Hajmi | 2,51 Mb. | | #247220 |
Bog'liq Mustaqil ishO`qituvchisiz o’qitish algoritmlari nima?
Katta ma'lumotlar okeanini, mijozlarning xohishlaridan ob-havo sharoitlarigacha bo'lgan aylanma ma'lumotlar massasini tasavvur qiling. Ammo etiketli xaritadan farqli o'laroq, bu ma'lumotlarda aniq toifalar yoki oldindan belgilangan tuzilmalar mavjud emas. Ushbu noma'lum hududni qanday tushunishimiz mumkin? Nazoratsiz oʻqitish algoritmlarini kiriting – yorliqsiz maʼlumotlar ichida yashirin naqshlar va munosabatlarni aniqlashda ustunlik qiluvchi mashina oʻrganish sohasidagi kuchli vositalar. Ushbu taqdimotda biz nazoratsiz o'qitish algoritmlarining ajoyib dunyosiga kirib boramiz, ularning asosiy tushunchasi, maqsadlari va yorliqsiz ma'lumotlar ichida yashiringan sirlarni ochadigan qiziqarli ilovalarni o'rganamiz.
3-rasm. Noma’lumlarni ajratish.
An'anaga ko'ra, mashinani o'rganish algoritmlari belgilangan ma'lumotlarga tayangan. Ushbu ma'lumotlar o'quv qo'llanmasi kabi ishlaydi, bu erda har bir ma'lumot nuqtasi aniq tasniflanadi (masalan, "spam" deb tasniflangan elektron pochta yoki "mushuk" deb belgilangan rasm). Algoritm ushbu teglardan o'rganadi va bu bilimlardan yangi, ko'rinmaydigan ma'lumotlar uchun bashorat qilish uchun foydalanadi. Biroq, nazoratsiz o'rganish algoritmlari boshqacha yondashuvni qo'llaydi. Ular etiketlanmagan ma'lumotlar bilan taqdim etiladi, bu erda ma'lumotlar nuqtalarida oldindan belgilangan toifalar mavjud emas. Bu bir quti aralash o‘yinchoqlar berilganga o‘xshaydi, hech qanday yo‘riqnoma va yorliqsiz. Qiyinchilik kashfiyotlardan biriga aylanadi - ma'lumotlarning o'zida yashirin naqshlar va munosabatlarni aniqlash.
O`qituvchisiz o`qitishning asosiy usullari.
Nazoratsiz ta'lim olami juda katta va uning ixtiyorida turli xil texnikalar mavjud. Ushbu usullar kuchli vositalar kabi ishlaydi, bu bizga yorliqsiz ma'lumotlar ichida yashirin xazinalarni ochishga imkon beradi. Ushbu taqdimotda biz nazoratsiz o'rganish algoritmlarining kuchini ko'rsatadigan uchta asosiy texnikani ko'rib chiqamiz: klasterlash, o'lchamlarni qisqartirish va assotsiatsiya qoidalarini o'rganish. Klasterlash - bu o'xshash ma'lumotlar nuqtalarini umumiy xususiyatlar asosida birlashtiradigan usul.
Tasavvur qiling-a, aralash o'yinchoqlar to'plamini saralash: mashinali mashinalar, qo'g'irchoqli qo'g'irchoqlar. Ma'lumotlar dunyosida klasterlash ma'lumotlar nuqtalari uchun xuddi shunday qiladi.
Ilovalar:
Bozor segmentatsiyasi: maqsadli marketing kampaniyalari uchun o'xshash sotib olish odatlariga ega bo'lgan mijozlarni guruhlash.
Tasvirni aniqlash: tasvirdagi ob'ektlarni aniqlash uchun o'xshash rang va teksturaga ega piksellarni klasterlash.
Anomaliyalarni aniqlash: Anomaliyalarni ko'rsatishi mumkin bo'lgan o'rnatilgan klasterlardan tashqarida joylashgan ma'lumotlar nuqtalarini aniqlash.
O'yinchoqlar bilan to'ldirilgan tartibsiz xonani tasavvur qiling. Klasterlash bu o'yinchoqlarni guruhlarga ajratishga o'xshaydi - mashinalar bilan mashinalar, qo'g'irchoqlar bilan qo'g'irchoqlar. Nazoratsiz ta'lim sohasida klasterlash algoritmlari xuddi shunday vazifani bajaradi. Ular umumiy xususiyatlar asosida etiketlanmagan ma'lumotlarni tahlil qiladi va ma'lumotlar nuqtalarini birgalikda guruhlaydi. Bu xususiyatlar raqamli qiymatlardan (masalan, narx yoki o'lcham) matn ma'lumotlari (mijozlarning sharhlari kabi) bo'lishi mumkin. Shu kabi ma'lumotlar nuqtalarini guruhlash jarayoni turli ilovalar uchun qimmatli tushunchalarni ochib beradi. Masalan, bozor segmentatsiyasida xaridorlar ma’lumotlarini xarid qilish odatlari asosida klasterlash korxonalarga maqsadli marketing kampaniyalarini rivojlantirishga yordam beradi. Rasmni aniqlashda o'xshash rang va tuzilishga ega piksellarni klasterlash algoritmlarga tasvir ichidagi ob'ektlarni aniqlash imkonini beradi. Hatto anomaliyalarni aniqlash ham klasterlashdan foyda ko'rishi mumkin, chunki o'rnatilgan klasterlardan tashqarida joylashgan ma'lumotlar nuqtalari g'ayrioddiy hodisalar yoki chegaralarni ko'rsatishi mumkin.
Toifalash algoritmlari
Nazoratsiz o'rganish yorliqsiz ma'lumotlar ichidagi yashirin sirlarni ochadi va klaster algoritmlari bu jarayonda asosiy rol o'ynaydi. Ushbu algoritmlar tinimsiz tashkilotchilar kabi ishlaydi, ma'lumotlar nuqtalarini umumiy xususiyatlar asosida guruhlarga ajratadi. Ushbu taqdimotda biz uchta eng mashhur klasterlash algoritmlarini ko'rib chiqamiz: K-Means, Ierarxik Klasterlash va DBSCAN. Ularning kuchli tomonlari va ilovalarini tushunib, biz yorliqlanmagan ma'lumotlardan qimmatli tushunchalarni olish uchun klasterlash kuchini ochishimiz mumkin. K-Means klasterlash - bu ma'lumotlar nuqtalarini oldindan belgilangan klasterlar soniga (K) bo'ladigan markazlashtirilgan algoritmga asoslangan.
Algoritm quyidagicha ishlaydi:
Boshlang'ich markazlarni tanlash: K ma'lumotlar nuqtalari tasodifiy ravishda boshlang'ich klaster markazlari (markazlar) sifatida tanlanadi.
Ma'lumotlar nuqtalarini belgilash: Har bir ma'lumot nuqtasi eng yaqin markazga tayinlanadi.
Markazlarni qayta hisoblash: markazlar har bir klasterga tayinlangan ma'lumotlar nuqtalarining o'rtacha qiymati asosida qayta hisoblab chiqiladi.
2 va 3-bosqichlarni takrorlash: 2 va 3-bosqichlar markazlar sezilarli darajada o'zgarmaguncha (konvergentsiya) takrorlanadi. Rangli to'plar bilan to'ldirilgan xonani tasavvur qiling. K-means klasterlash bu to'plarni ranglar o'xshashligi asosida oldindan belgilangan savat soniga (K) saralashga o'xshaydi. Bu oddiy, ammo samarali algoritm bo‘lib, uni ko‘plab klasterlash vazifalari uchun mashhur tanlovga aylantiradi. Bu qanday ishlaydi:
Boshlang'ich markazlarni tanlash: Algoritm K ma'lumotlar nuqtalarini boshlang'ich klaster markazlari (markazlar) sifatida tasodifiy tanlash bilan boshlanadi. Ushbu markazlar har bir klasterning "yadrolarini" ifodalaydi.
Ma'lumotlar nuqtalarini belgilash: Ma'lumotlar to'plamidagi har bir ma'lumot nuqtasi masofa ko'rsatkichi (masalan, Evklid masofasi) asosida eng yaqin markazga tayinlanadi.
Markazlarni qayta hisoblash: Barcha ma'lumotlar nuqtalari tayinlangandan so'ng, markazlar qayta hisoblab chiqiladi. Bu har bir klasterga tayinlangan ma'lumotlar nuqtalarining o'rtacha qiymatini olishni o'z ichiga oladi, asosan markazni tayinlangan guruh markaziga o'zgartiradi.
2 va 3-bosqichlarni takrorlash: 2 va 3-bosqichlar takroriy takrorlanadi. Har bir iteratsiya bilan centroidlar tozalanadi va ma'lumotlar nuqtalari yangilangan markazlarga yaqinligidan kelib chiqqan holda qayta tayinlanadi. Bu jarayon centroidlar sezilarli darajada o'zgarmaguncha davom etadi (konvergentsiya), bu klasterlarning barqarorlashganini ko'rsatadi.
4-rasm. Daraxt ildizlari ierarxiyasi.
Har bir filial bir-biriga bog'liq shaxslar guruhini ifodalovchi oila daraxtini tasavvur qiling. Ierarxik klasterlash shunga o'xshash tarzda ishlaydi, lekin oila a'zolari o'rniga ma'lumotlar nuqtalarini ularning o'xshashligi asosida guruhlaydi. Ushbu algoritm klasterlar ierarxiyasini, ma'lumotlar nuqtalari orasidagi munosabatlarni tasvirlaydigan daraxtga o'xshash tuzilmani yaratadi. Ikkita asosiy yondashuv mavjud:
Aglomerativ: Ushbu yondashuv har bir ma'lumot nuqtasidan alohida klaster sifatida boshlanadi. Keyin u masofaviy ko'rsatkich (masalan, Evklid masofasi) asosida ikkita eng o'xshash klasterni iterativ ravishda birlashtiradi. Ushbu birlashtirish jarayoni bitta klaster qolguncha davom etadi va daraxtdagi yuqori darajalar umumiy klasterlarni ifodalovchi ierarxiyani hosil qiladi.
Bo'linuvchi: Bu yondashuv bitta klasterdagi barcha ma'lumotlar nuqtalaridan boshlanadi. Keyin u eng muhim ichki o'xshashlikni ko'rsatadigan klasterni takroriy ravishda ikkita bola klasteriga ajratadi. Ushbu bo'linish jarayoni kerakli klasterlar soniga erishilgunga qadar davom etadi va daraxtdagi pastki darajalar aniqroq klasterlarni ifodalovchi ierarxiyani hosil qiladi.
|
| |