Szakirodalmi háttér
A magyar nyelvű szakirodalom az „ideális klaszterszám” keresési kifejezés saját szervereinken való említésén túl (-site:gau.hu) csak 8 találatot mutat csak fel3.
ábra: Találati lista (Forrás: Google)
Bár nem szokás magát a találati listát megadni, de jelen speciális esetben a találatok alacsony száma és a rövid nézet önmagyarázó jellege kapcsán ez mégis racionális, hiszen, mint jól érzékelhető, a téma marginálisnak tűnik a szakmai közönség számára.
A probléma csak az, hogy az ideális klaszterszám fogalmi rendezettsége nélkül lényegében minden klaszterezés ingatag lábakon áll. Ha ugyanis valaki tudja, milyen csoportszám az ideális, akkor miért is igyekszik ezt egy kalibrálatlan és/vagy esetlegesen nem kellően kiforrott eljárással „legitimálni”. Ha pedig nem tudja, akkor egy validálatlan mérőműszertől mit is vár a szakmai közösség?
Gondolatkísérletek
Az alábbiakban a bevezetésben jelzett SZIGMA-cikk kapcsán már elvégezett számításokból kiindulva további gondolatkísérletek kerültek inicializálásra a mindenkor felismerni vélt összefüggésekre láncszerűen támaszkodva. A SZIGMA-cikk már megalapozta azt a gondolatot, miszerint számos attribútum létezik/kreálható, melyek értéke minden egyes klaszterszám esetén meghatározható, vagyis az ideális klaszterszámot formálisan egy több-tényezős értékelési rendszer (OAM) alapján illene felismerni tudni. Ezzel a cikk jelezte azt is, hogy a klaszterezés kapcsán hiányzik a boltívből a zárókő, vagyis a teljes klaszterezési folyamat a modellszámításoktól a számítások értelmezéséig nem kapcsolódik láncszerűen egymáshoz, s a jelenlegi klaszterezést kínáló szoftverek nem kívánnak/nem tudnak az optimális klaszterszám fogalmával dolgozni.
kísérlet
A SZIGMA-cikk kapcsán az első kísérletet inicializáló értelmezésekben kizárásra kerül, hogy elsőként pl. koncentrikus csoportképzés kerüljön a fókuszba. Az első kísérlet mereven követni szándékozott a SZIGMA-cikkben jelzett k-közép módszert a klaszterképzés kapcsán. Vagyis olyan klaszterek feltárása volt fontos, melyekre igaz, hogy a létező pontok közül kiválasztott n db klaszterközépponthoz mért távolságát kell az egyéb ismert és valamely klaszterközépponthoz sorolt pontok esetében minimalizálni. (Tehát már az az eset sem került ebben a kísérletben vizsgálatra, amikor is a klaszterközéppontok fiktívek, vagyis nem a létező pontok közül választott pontokról van szó ezek esetében – vö. a fentebb említett koncentrikus klaszterek képzésének általános esete).
Az adatvagyonról
Elemszám: fokozatosan növekvő (1000-2000-4000-10000-20000 darab pont)
Dimenziók száma: 2 (x1, x2)
Tartalma: véletlen számok, ahol a véletlen hatása az egymásba csúszó középpontjukkal és maximális X,Y irányú kiterjedésükkel jellemzett ponthalmazok pontjainak kiválasztásáig terjedt ki, a középpontokra és a 2D-s kiterjedésekre nem.
1000 2000 4000 10000 20000
5. ábra: Véletlenszerű pontfelhők eltérő pontmennyiségekkel (Forrás: saját ábrázolás)
Mint jól látható, az egyes szcenáriók egyre több pontot tartalmaznak, de ebben a kísérletben a kevesebb pontot tartalmazó esetek pontjai csak véletlenszerűen szerepelhetnek az egyre nagyobb egyedszámú halmazokban.
Itt és most nem cél annak deklarálása, mennyi pici pontfelhő is került milyen középpontokkal és kiterjedésekkel megadásra, lévén a főkérdés, az ideális klaszterszám context free jelleggel kell, hogy értelmezést nyerjen.
Természetesen szinte minden Olvasó (látó és értelmezőképességtől függően) valamilyen becslést le merne adni arra a spontán kérdésre, vajon hány szórópisztollyal odafújt foltocskát vél felfedezni az egyes pontfelhőkben?
|