Similarity Based Rough Sets and its Applications in Data Mining
Dátum
Szerzők
Folyóirat címe
Folyóirat ISSN
Kötet címe (évfolyam száma)
Kiadó
Absztrakt
Az életlen halmazok elmélete egy viszonylag új elmélet, melynek alapjait Pawlak professzor a 80-as években fektette le. A rendelkezésre álló információk alapján számos esetben előfordul, hogy két objektumot nem tudunk megkülönböztetni egymástól. Két objektum megkülönböztethetetlennek tekinthető, ha minden ismert releváns tulajdonságuk megegyezik. A pawlaki terek a rendelkezésre álló adatok alapján fellépő megkülönböztethetetlenségből származó bizonytalanságot teszik kezelhetővé: a megkülönböztethetetlen objektumokról ugyanazt kell mondani, s ez kétségessé/bizonytalanná tesz bizonyos állításokat. A megkülönböztethetetlenség egy ekvivalencia relációval reprezentálható, mely a háttértudásunkat, illetve annak korlátozottságát reprezentálja. Az így kapott ekvivalencia osztályok azokat az objektumokat tartalmazzák, melyek megkülönböztethetetlenek egymástól. Ezeket az osztályokat alaphalmazoknak nevezzük. A megkülönböztethetetlenség hatással van az eleme reláció használatára következésképpen a tartalmazás relációra is, hiszen bizonyos esetekben bizonytalanná teszi a reláció megítélését, életlenné teszi a halmazt azáltal, hogy egy adott objektumra vonatkozó döntés kihat a tőle megkülönböztethetetlen objektumokra vonatkozó hasonló döntésekre. Az életlen halmazok elméletében arra szeretnénk választ kapni, hogy hogyan jellemezhetőek bizonyos halmazok, illetve, hogy egyes tulajdonságok által generált halmazba beletartozik-e egy bizonyos objektum vagy sem.
A pawlaki tér általánosításaként megjelentek olyan approximációs terek, melyek nem egy ekvivalencia reláción, hanem egy hasonlóságot reprezentáló tolerancia reláción alapulnak. Ezek a terek megőrzik a pawlaki tér azon tulajdonságát, hogy az approximációban résztvevő alaphalmazok uniója kiadja a tér univerzumát. Feladják viszont azt a követelményt, hogy az alaphalmazok páronként diszjunktak legyenek. Az alaphalmazok generálása itt úgy történik, hogy minden objektumhoz képezzük a vele tolerancia relációban álló objektumok halmazát. Ez azt jelenti, hogy egy adott objektumhoz való hasonlóságot vesszünk figyelembe. Azzal a gyakorlatban is előforduló nehézséggel szembesülhetünk, hogy az alaphalmazok száma szélsőséges esetben megegyezhet az objektumok számával. Ez a közelítések meghatározása esetén jelentősen növeli a számításigényt és nagy adatbázisoknál korlátozza az ilyen terek hatékony használatát. Ennek a problémának egy lehetséges megoldására dolgoztunk ki a hasonlóságon alapuló életlen halmazok rendszerét, ahol a korrelációs klaszterezés segítségével az alaphalmazok képzése a hasonlóságon magán és nem az egy objektumhoz való hasonlóságon alapszik. Az így létrejövő tér egyrészt jól reprezentálja az értelmezett hasonlóságot, másrészt az alaphalmazok száma kezelhető méretűre csökken. Ennek a térnek a tulajdonságaival és az alkalmazhatóságával foglalkozik a dolgozat, bemutatva mindazokat az előnyöket, amit a korrelációs klaszterezés alapján nyerhetünk.
Rough set theory can be considered as a rather new field in computer science. Its fundamentals were proposed by professor Pawlak in the 80's. In many cases, based on the available knowledge, two objects cannot be distinguished from each other because all of their known properties are the same. The Pawlakian spaces handle the uncertainty arising from indiscernibility based on the available data. The same statement must be stated for the objects that are indiscernible from each other and this makes some statements uncertain/doubtful. This indiscernibility can be modeled by an equivalence relation which represents our background knowledge or its limits. The equivalence classes gained this way contain objects that are indiscernible from each other. These classes are called base sets. The relation can affect the membership relation by making the judgment on this relation uncertain. It also makes a set vague because a decision about a certain object has an effect on the decisions about all the objects that are indiscernible from the given object. Rough set theory tries to answer how certain sets can be characterized or if a given object belongs to a set generated by some property.
Pawlakian spaces rely on an equivalence relation which represent indiscernibility. As a generalization of these spaces, some approximation spaces have appeared that are not based on an equivalence relation but on a tolerance relation that represents similarity. These spaces preserve the property of the Pawlakian space that the union of the base sets gives out the universe. However, they give up the requirement that the base sets are pairwise disjoint. The base sets are generated in a way where for each object, the objects that are similar to the given object, are taken. This means that the similarity to a given object is considered. In the worst case, it can happen that the number of base sets equals those of objects in the universe. This significantly increases the computational resource need of the set approximation process and limits the efficient use of them in large databases. To overcome this problem, a possible solution is presented in this dissertation. The space is called similarity based rough sets \cite{similarity} where the system of base sets is generated by the correlation clutstering. Therefore, the real similarity is taken into consideration not the similarity to a distinguished object. The space generated this way, on the one hand, represents the interpreted similarity properly and on the other hand, reduces the number of base sets to a manageable size. This work deals with the properties and applicability of this space, presenting all the advantages that can be gained from the correlation clustering.