Az ideális klaszterszám felismerése
hasonlóságelemzések keretében
(Approximation of the ideal number in the cluster analyse based on similarity analyses)
Pitlik László, Ruff Ferenc, SZIE GTK MY-X kutatócsoport
Az ideális klaszterszám felismerése hasonlóságelemzések keretében 1
Bevezetés 3
Szakirodalmi háttér 5
Gondolatkísérletek 6
Konklúziók 19
Vita 20
Irodalom 20
Kivonat: A klaszterezés kapcsán az ideális klaszterszám keresési kifejezés kevés találatot eredményez a magyar nyelvű oldalakon. Ezek egy része érdemi tartalom nélkül leginkább csak sejteti a fogalmat, míg más esetekben ennek lehetősége is kérdőjellel kerül megfogalmazásra. Ideális ponthalmazok (pl. négyzet, háromszög, kör) klaszterezése keretében a k-közép eljárás kapcsán anomáliák voltak fellelhetők saját kísérleteinkben, melyek természetesen kihatnak tetszőleges ponthalmazok értelmezésére is és zavaró jelként hatnak az ideális klaszterszám feltárása során is. A zavarok létezésére 2-dimenziós ponthalmazokra vonatkozó intuíciótesztek is rámutattak. Az optimális klaszterszám kapcsán olyan eljárás kerestetik (vö. robotszem) tehát, mely képes a zavaró hatásokat kiküszöbölve, tetszőleges dimenziószám mellett is feltárni az eddig használt klaszterezés-értékelési attribútumok tetszőleges köre alapján az ideális klaszterszámot. A többlépcsős hasonlóságelemzés anti-diszkriminatív rétege (COCO-Y0) maximális érzékenységre állított változata az itt bemutatandó részletek mellett képesnek mutatkozott erre.
Kulcsszavak: robotszem, hermeneutika, anti-diszkriminációs modellek, optimalizálás, automatizálás, mesterséges intelligencia, hasonlóságelemzés
Abstract: The ideal number of clusters in case of a given data asset seems to have a marginal position in the literature published in Hungarian based on the amount of Google results. Some of them deliver hardly any relevant information. Other sources evaluate the problem as not to solve. If ideal sets of data (like rectangular, triangular clouds or circle of coordinates) got analysed the k-mean solution produced anomalies. These anomalies have massive impacts in case of arbitrary data assets. With other words: the ideal number of clusters can only be interpreted in form of approximations. Anomalies could also be detected through questionnaires, where human eyes and brains got used for interpretation tasks. The objective of this article is, to report about the possibility and technical solution of a robot eye. Multi-layered antidiscriminative similarity analyses(COCO-Y0) is capable, to ensure rational interpretation of pictures.
Keywords: robot-eye, hermeneutics, anti-discrimination models, optimizing, automation, artificial intelligence, similarity analysis
Bevezetés
Egy 2013-as SZIGMA1-tanulmányban a központi kérdés az volt: Vajon „a klaszteranalízis során létrejövő lehetséges megoldások (különböző klaszterszámok) esetén melyiket fogadjuk el az adatbázisban feltételezett csoportok legjobb közelítésének”?
A hangsúly ott és akkor, mint érezhető, a feltételezett csoportokhoz való viszonyításon volt. Itt és most azt a hermeneutikai kérdést igyekeznek a szerzők megválaszolni: Vajon melyik az ideális klaszterszám2, ha nincs semmilyen prekoncepciója az elemzőnek a lehetséges csoportokról? Más megfogalmazásban: Van-e egyáltalán matematikai értelemben joga bárkinek is csoportokról/csoportképzésről beszélni, vagy minden csoportosítás másként egyformának minősítendő objektíven „context free” jelleggel?
A matematikai kérdést legszemléletesebben talán a színtévesztésteszt (vö. 1-2. ábra) hermeneutikai rétegeivel lehetne szemléltetni, ahol az európai kultúrkörben használt számokhoz képest, egy hajó felismerése is egyes esetekben (nem a látásképesség, hanem az értelmező/hermeneutikai képesség folytán) már gondot okozhat adott esetben adott személy számára. Ha pedig az ázsiai kultúrkörbe lépünk át európaiként, talán egyikünk sem tudna megfelelni a színtévesztés tesztben elrejtett ábrák kapcsán, hiszen nem tudjuk, mit is kellene látnia (akarni).
ábra: Színtévesztési tesztek I.
(Forrás: http://www.novakoptika.hu/images/szinteveszto-teszt-szinlatas-vizsgalat.gif
2. ábra: Színtévesztési tesztek II.
(Forrás: http://www.nig.ac.jp/color/barrierfree/images/img_b11_s.gif, ill. http://www.sehtestbilder.de/farbtafeln/images/09-666-zunge-rausstrecken.jpg)
Egy másik példa lehet a „Kód neve: Merkúr” című film elvileg fiktív kisfiújának autizmusa, vagyis az a képesség, mely mintázatot képes meglátni komplex (vizuális) kódban is. Az alábbi kép is arra mutat példát, vajon mennyi is az ideális klaszterszám a véletlenszerűen generált 2D-s mintában? (vö. 3. ábra)
ábra: Pontfelhők intuitív értelmezése (Forrás: saját ábrázolás)
Jelen tanulmány emellett foglalkozik a klaszterezési eljárások és az emberi észlelés kapcsolatának vizsgálatával is, amikor is ugyanazon ponthalmazok keverékének egyre növekvő pontszámú esetei alapján hol húzódik az emberi és a matematikai észlelés (optimális klaszterszám-felismerés) határa? (Példával érzékeltetve: vajon egy miniatűr, pixelszinten szín-hű fotó alapján hamisított festmény, mely tételesen tartalmazza a fotó pixeleit, meg lehet-e állapítani egy nagy festmény eredetiségét/hamisságát a nagyítás során keletkező többi pixel tulajdonságai alapján)?
Nem foglalkozik a cikk jelenleg még a klaszterezési eljárások fejlesztésével celluláris automaták analógiáira támaszkodva, (ahol pl. adott objektum szomszédsági statisztikái alapján arra a kérdésre keres választ az elemző: mely más objektumokkal mutat leginkább rokonságot egy-egy objektum? Hasonlóképpen önálló kérdés például az is, hogy fuzzy-orientáció mellett a bármilyen módon alkotott klaszterek pl. eloszlás-vezérelt idealitásának utólagos finomhangolásai alternatívái hogyan lelhetők fel, így garantálva annak az emberi képességnek algoritmikus leképezését, ahol a cél vizuálisan egymásba metszeni tudó halmazok felismerni tudása.
|