|
Geyser segmentatsiyasi bo'yicha Kmeans
|
bet | 6/6 | Sana | 20.05.2024 | Hajmi | 2,97 Mb. | | #245177 |
Bog'liq loyiha ishi 2 Geyser segmentatsiyasi bo'yicha Kmeans
Biz birinchi navbatda kmeans algoritmini 2D maʼlumotlar toʻplamida amalga oshiramiz va uning qanday ishlashini koʻramiz. Ma'lumotlar to'plamida 272 ta qator va 2 ustun mavjud. Maʼlumotlar Yellostoun milliy bogʻida (Vyoming, AQSh) Old Faithful geyzerining otilishi orasidagi kutish vaqti va otilish davomiyligini qamrab oladi. Biz ma'lumotlar nuqtalari ichida K kichik guruhlarini topishga harakat qilamiz va ularni mos ravishda guruhlaymiz.
Biz bu maʼlumotlardan foydalanamiz, chunki u 2 oʻlchovli maʼlumotlar toʻplami boʻlgani uchun klasterlarni chizish va vizual tarzda aniqlash oson. Bizda 2 ta klaster borligi aniq. Keling, avval ma'lumotlarni standartlashtiramiz va K=2 bo'lgan standartlashtirilgan ma'lumotlarda kmeans algoritmini ishga tushiramiz.
Tirsak usuli bizga ma'lumotlar nuqtalari va ularga tayinlangan klasterlarning markazlari o'rtasidagi kvadrat masofa (SSE) yig'indisiga asoslangan yaxshi k soni klaster bo'lishi haqida fikr beradi . SSE tekislanib, tirsak hosil qila boshlagan joyda k ni tanlaymiz . Biz geyser ma'lumotlar to'plamidan foydalanamiz va k ning turli qiymatlari uchun SSEni baholaymiz va egri chiziq qayerda tirsak hosil qilishi va tekislanishi mumkinligini ko'ramiz.
a(i): Shu nuqtaning bir xil klasterdagi barcha boshqa nuqtalar bilan oʻrtacha masofasi. b(i) ni hisoblang: klasterga eng yaqin klasterdagi barcha nuqtalar bilan ushbu nuqtaning o'rtacha masofasi. Quyidagi formuladan foydalanib s(i) - siluet koeffitsienti yoki i nuqtani hisoblang.
Foydalanilgan adabiyotlar
https://ru.wikipedia.org/wiki/%D0%9A%D0%BB%D0%B0%D1%81%D1%82%D0%B5%D1%80%D0%BD%D1%8B%D0%B9_%D0%B0%D0%BD%D0%B0%D0%BB%D0%B8%D0%B7
https://developers.google.com/machine-learning/clustering/overview?hl=ru
https://www.youtube.com/watch?v=WWGjq9j6HJc&t=326s
https://www.youtube.com/watch?v=Gp8bdGo_Q4w
|
| |