• A hasonlóságelemzésről
  • Az optimális megoldások keresése - szignifikancia vizsgálatok
  • Eredmények
  • Következtetések
  • Az ideális klaszterszám felismerése hasonlóságelemzések keretében




    Download 13.86 Mb.
    bet11/14
    Sana01.04.2020
    Hajmi13.86 Mb.
    #9749
    1   ...   6   7   8   9   10   11   12   13   14



    1. ábra: A robotszem által értelmezni vélt alakzatok a 2-10 klaszter tartományban (forrás: „R”-modellek)

    Mint az első sor egyre növekvő számú ponthalmazt feldolgozó ábrái alapján belátható, már a két (piros-fekete) halmazba sorolás is karakterisztikusan eltérő megközelítésekhez vezet (vö. majdnem vízszintes és majdnem függőleges ideális tagolás a pontok számának növekedésével váltakozik.)


    A hasonlóságelemzésről


    Feladat/kérdés: lehetséges-e, hogy minden egyes klaszterszám (objektum) egyformán ideális a szakirodalom alapján már feltárt, klaszter-idealitást mérni képes mutatószámok (indexek, attribútumok) és ezek iránya alapján?
    A feladatfelvetés oka: Tételezzük fel, hogy egy n-elemű (tetszőleges dimenziójú) ponthalmaz esetén a lehetséges klaszterek száma 2-től n-ig terjed és minden klaszterszám m darab mutatószámmal jellemezhető. A klaszterszám = 1 esetét nem minden mutatószám kapcsán lehet értelmezni. Így a klaszterezés keretében ab ovo nem kerül vizsgálatra, vajon szabad-e egyáltalán azt feltételezni, van-e ideális klaszterszám? Ezért belátható, hogy abban az esetben, ha minden klaszterszám az m dimenziós értékelés eredményeként előállított aggregált jóságindex tekintetében azonossá tehető, akkor a klaszterszám = 1 is egyenrangúként értelmezhető, és ez is egyenértékű a többi klaszterszámmal (egy fajta matematikai szinonimaként).

    Vagyis az első kísérletben keressük a „lehet-e minden klaszterszám másként egyformán értékes” kérdésre a választ, mely kérdés analógiája/szinonimája, a szabad/lehet/illik/kell-e egyáltalán klasztereket kialakítani kérdésnek?


    A hasonlóságelemzés (intuíciógenerálás) egy olyan matematikai apparátus5, mely több algoritmusból áll, s melyek között az COCO-Y0 kódjelű algoritmus lépcsős függvényeket vezérlő paramétertömbbel igyekszik elérni optimalizálás keretében, hogy minden egyes, a vizsgált objektumok számának megfelelő, a nyers mutatószámokat attribútumonként helyettesítő rangsorszám helyére olyan jóságindex-réteg (csereérték) kerüljön, melyek attribútumonként szigorúan monoton módon csökkenők és összegük minden objektum esetében azonossá válik.
    Jelen esetben az első kísérlethez tehát 19 objektum került kiválasztásra (2 <= klaszterszám <= 20) az előző fejezetben megadott 12 R-ben kezelhető attribútum kapcsán. A modell konstansa 1000 volt, mely már kellő mozgásteret biztosít a lépcsősfüggvény paramétereit online szolgáltatásként kereső LP-nek6.

    Az optimális megoldások keresése - szignifikancia vizsgálatok


    Az "outlier" a többitől lényegesen különböző elem. Ezek megtalálására legtöbbször a boxplot ábrát alkalmazzák. Ezen kívül vannak statisztikai tesztek is ezek kiszűrésére. Két teszt került aktiválásra az R keretében7:

    • dixon.test

    • grubbs.test

    Ezek a legnagyobb vagy a legkisebb elemet vizsgálják, vagyis azt, hogy ezek tekintetők-e outlier-nek. Számításaink során a kérdés az volt, hogy a legnagyobb érték tekinthető-e kiugrónak. A két teszt egyikével sem sikerült sehol sem szignifikáns eltérést kimutatni a maximumok esetében, még az első lépésben azonnali optimumot kimutatni képes legsűrűbb ponthalmaz esetében sem.

    További elméleti vizsgálódást igényel, hogy a hasonlóságelemzés által szolgáltatott becslések, melyek kapcsán elvárás, hogy a norma (1000) érték alatt eltérések összege legyen egyenlő a norma feletti eltérések összegével, képes lehet-e egyáltalán a fenti tesztek keretében szignifikánsan outlier kimutatására?


    Eredmények

    Hitelesen ideális klaszterszámok az egyre növekvő elemszámú halmazok esetén:


    4 16 5 vagy 6 3 3 (7)





    1. ábra: Az ideális klaszterszámok

    (Forrás: saját számítások, ahol a legsűrűbb adathalmaz modelljéből az antagonisták kizárása után, melyet a felső kép alapján lehet megállapítani, a legjobbnak tűnő klaszterszám a 7-es)
    Az 5. ábra kapcsán szemrevételezéssel (bár nem egyértelműen) feltételezhető 8-9-10 csoportos alakzatot a rendszer úm. direktben nem látja.


    1. ábra: Az 5, ill. a legsűrűbb 4 modell eredője (Forrás: saját ábrázolás, ahol annál ideálisabb egy klaszterszám, minél zöldebbek a jelek ennek sorában…)

    Az eredő modellek (vö. 8. ábra), vagyis a szub-optimális klaszterszámok együttes értékelése (mind az 5, ill. a legsűrűbb 4 modell) nyomán az ideális klaszterszám végül is minden torzító hatás minimalizálása után a 9-es érték lett, mely megfelel)

    A legsűrűbb ponthalmaz kivételével a többi modell első lépésben a rendelkezésre álló mutatók egy részének felhasználása mellett a minden klaszter másként egyforma elv mellett állt ki, s csak a fennmaradó mutatók modellbe kényszerítésekor alakultak ki a fenti lefutások.
    A legkevesebb elemszámútól a legnagyobb elemszámig terjedő esetekben a második lépésben felhasznált mutatószámok az alábbiak voltak:

    kut11: X(A7) X(A9) X(A10) X(A11) X(A12)

    kut12: X(A3) X(A5) X(A7)

    kut13: X(A4) X(A5)

    kut14: X(A5) X(A6) X(A7) X(A11) X(A12)

    kut15: nem volt 2. lépés


    Mint látható: az X(A7) a leggyakrabban hasznosított mutató a végső döntés kikényszerítéséhez. Vagyis a minimalizálandó s_dbw mutató tűnik a legnagyobb információértékkel bírónak az eddigi, minden részlet tekintetében függvényszimmetria-vizsgálatokkal hitelesített kísérletek alapján.
    Az 5. ábra és az első kísérlet értelmezése elvileg elvárná, hogy itt és most kijelentésre kerüljön végre: mi is volt az 5. ábra készítésekor az egyre növekvő pontszámból álló pontfelhők inicializáló csoportjainak száma, de ez ismét oda engedi torkollni a gondolatmenetet, hogy egy már ismert válaszú kérdést miért is akarna bárki még egyszer feltenni. Ennek ellenére válaszolni a tényközlés kényszere okán muszáj: az inicializáló csoportközéppontok száma 9 volt, ahogy ezt az aggregáló értelmezés a 8. ábra alapján fel is ismerte.

    Következtetések


    A cikk elején feltett kérdésre, vagyis az optimális klaszterszám kontextustól független mibenlétére a hasonlóságelemzés képesnek tűnik minden zavaró jel együttes értelmezése után világos válaszokkal szolgálni elvileg a teljes értelmezési palettán (vö. minden másként egyforma, alternatív győztesek/holtversenyek, ill. egyetlen egy hiteles győztes). A klasszikus szignifikancia vizsgálatok a hasonlóságelemzési becslések kapcsán nem vezetnek szignifikáns különbségek felismerésére…


    Download 13.86 Mb.
    1   ...   6   7   8   9   10   11   12   13   14




    Download 13.86 Mb.

    Bosh sahifa
    Aloqalar

        Bosh sahifa



    Az ideális klaszterszám felismerése hasonlóságelemzések keretében

    Download 13.86 Mb.