ábra: A robotszem által értelmezni vélt alakzatok a 2-10 klaszter tartományban (forrás: „R”-modellek)
Mint az első sor egyre növekvő számú ponthalmazt feldolgozó ábrái alapján belátható, már a két (piros-fekete) halmazba sorolás is karakterisztikusan eltérő megközelítésekhez vezet (vö. majdnem vízszintes és majdnem függőleges ideális tagolás a pontok számának növekedésével váltakozik.)
A hasonlóságelemzésről
Feladat/kérdés: lehetséges-e, hogy minden egyes klaszterszám (objektum) egyformán ideális a szakirodalom alapján már feltárt, klaszter-idealitást mérni képes mutatószámok (indexek, attribútumok) és ezek iránya alapján?
A feladatfelvetés oka: Tételezzük fel, hogy egy n-elemű (tetszőleges dimenziójú) ponthalmaz esetén a lehetséges klaszterek száma 2-től n-ig terjed és minden klaszterszám m darab mutatószámmal jellemezhető. A klaszterszám = 1 esetét nem minden mutatószám kapcsán lehet értelmezni. Így a klaszterezés keretében ab ovo nem kerül vizsgálatra, vajon szabad-e egyáltalán azt feltételezni, van-e ideális klaszterszám? Ezért belátható, hogy abban az esetben, ha minden klaszterszám az m dimenziós értékelés eredményeként előállított aggregált jóságindex tekintetében azonossá tehető, akkor a klaszterszám = 1 is egyenrangúként értelmezhető, és ez is egyenértékű a többi klaszterszámmal (egy fajta matematikai szinonimaként).
Vagyis az első kísérletben keressük a „lehet-e minden klaszterszám másként egyformán értékes” kérdésre a választ, mely kérdés analógiája/szinonimája, a szabad/lehet/illik/kell-e egyáltalán klasztereket kialakítani kérdésnek?
A hasonlóságelemzés (intuíciógenerálás) egy olyan matematikai apparátus5, mely több algoritmusból áll, s melyek között az COCO-Y0 kódjelű algoritmus lépcsős függvényeket vezérlő paramétertömbbel igyekszik elérni optimalizálás keretében, hogy minden egyes, a vizsgált objektumok számának megfelelő, a nyers mutatószámokat attribútumonként helyettesítő rangsorszám helyére olyan jóságindex-réteg (csereérték) kerüljön, melyek attribútumonként szigorúan monoton módon csökkenők és összegük minden objektum esetében azonossá válik.
Jelen esetben az első kísérlethez tehát 19 objektum került kiválasztásra (2 <= klaszterszám <= 20) az előző fejezetben megadott 12 R-ben kezelhető attribútum kapcsán. A modell konstansa 1000 volt, mely már kellő mozgásteret biztosít a lépcsősfüggvény paramétereit online szolgáltatásként kereső LP-nek6.
Az optimális megoldások keresése - szignifikancia vizsgálatok
Az "outlier" a többitől lényegesen különböző elem. Ezek megtalálására legtöbbször a boxplot ábrát alkalmazzák. Ezen kívül vannak statisztikai tesztek is ezek kiszűrésére. Két teszt került aktiválásra az R keretében7:
Ezek a legnagyobb vagy a legkisebb elemet vizsgálják, vagyis azt, hogy ezek tekintetők-e outlier-nek. Számításaink során a kérdés az volt, hogy a legnagyobb érték tekinthető-e kiugrónak. A két teszt egyikével sem sikerült sehol sem szignifikáns eltérést kimutatni a maximumok esetében, még az első lépésben azonnali optimumot kimutatni képes legsűrűbb ponthalmaz esetében sem.
További elméleti vizsgálódást igényel, hogy a hasonlóságelemzés által szolgáltatott becslések, melyek kapcsán elvárás, hogy a norma (1000) érték alatt eltérések összege legyen egyenlő a norma feletti eltérések összegével, képes lehet-e egyáltalán a fenti tesztek keretében szignifikánsan outlier kimutatására?
Eredmények
Hitelesen ideális klaszterszámok az egyre növekvő elemszámú halmazok esetén:
4 16 5 vagy 6 3 3 (7)
ábra: Az ideális klaszterszámok
(Forrás: saját számítások, ahol a legsűrűbb adathalmaz modelljéből az antagonisták kizárása után, melyet a felső kép alapján lehet megállapítani, a legjobbnak tűnő klaszterszám a 7-es)
Az 5. ábra kapcsán szemrevételezéssel (bár nem egyértelműen) feltételezhető 8-9-10 csoportos alakzatot a rendszer úm. direktben nem látja.
ábra: Az 5, ill. a legsűrűbb 4 modell eredője (Forrás: saját ábrázolás, ahol annál ideálisabb egy klaszterszám, minél zöldebbek a jelek ennek sorában…)
Az eredő modellek (vö. 8. ábra), vagyis a szub-optimális klaszterszámok együttes értékelése (mind az 5, ill. a legsűrűbb 4 modell) nyomán az ideális klaszterszám végül is minden torzító hatás minimalizálása után a 9-es érték lett, mely megfelel)
A legsűrűbb ponthalmaz kivételével a többi modell első lépésben a rendelkezésre álló mutatók egy részének felhasználása mellett a minden klaszter másként egyforma elv mellett állt ki, s csak a fennmaradó mutatók modellbe kényszerítésekor alakultak ki a fenti lefutások.
A legkevesebb elemszámútól a legnagyobb elemszámig terjedő esetekben a második lépésben felhasznált mutatószámok az alábbiak voltak:
kut11: X(A7) X(A9) X(A10) X(A11) X(A12)
kut12: X(A3) X(A5) X(A7)
kut13: X(A4) X(A5)
kut14: X(A5) X(A6) X(A7) X(A11) X(A12)
kut15: nem volt 2. lépés
Mint látható: az X(A7) a leggyakrabban hasznosított mutató a végső döntés kikényszerítéséhez. Vagyis a minimalizálandó s_dbw mutató tűnik a legnagyobb információértékkel bírónak az eddigi, minden részlet tekintetében függvényszimmetria-vizsgálatokkal hitelesített kísérletek alapján.
Az 5. ábra és az első kísérlet értelmezése elvileg elvárná, hogy itt és most kijelentésre kerüljön végre: mi is volt az 5. ábra készítésekor az egyre növekvő pontszámból álló pontfelhők inicializáló csoportjainak száma, de ez ismét oda engedi torkollni a gondolatmenetet, hogy egy már ismert válaszú kérdést miért is akarna bárki még egyszer feltenni. Ennek ellenére válaszolni a tényközlés kényszere okán muszáj: az inicializáló csoportközéppontok száma 9 volt, ahogy ezt az aggregáló értelmezés a 8. ábra alapján fel is ismerte.
Következtetések
A cikk elején feltett kérdésre, vagyis az optimális klaszterszám kontextustól független mibenlétére a hasonlóságelemzés képesnek tűnik minden zavaró jel együttes értelmezése után világos válaszokkal szolgálni elvileg a teljes értelmezési palettán (vö. minden másként egyforma, alternatív győztesek/holtversenyek, ill. egyetlen egy hiteles győztes). A klasszikus szignifikancia vizsgálatok a hasonlóságelemzési becslések kapcsán nem vezetnek szignifikáns különbségek felismerésére…
|