Intelligent Data Processing and Its Applications

Dátum
Folyóirat címe
Folyóirat ISSN
Kötet címe (évfolyam száma)
Kiadó
Absztrakt

Nowadays the rapidly increasing performance of hardware and the efficient intelligent scientific algorithms enable us to store and process big data. This tendency will offer more opportunities to get more and more information from the large amount of data. My thesis is only a precursor of this topic, because I did not have sufficient hardware and I had only a little data to be processed. However, all the topics of my thesis belong to the intelligent data processing.

In Chapter 2 of my thesis I introduce a new clustering algorithm named GridOPTICS, whose goal is to accelerate the well-known OPTICS density clustering technique. The density-based clustering techniques are capable of recognizing arbitrary-shaped clusters in a point set. The DBSCAN results in only one cluster set, but the OPTICS generates a reachability plot from which a lot of cluster sets can be read as a result without having to execute the whole algorithm again. I experienced that it is very slow for large data sets, so I wanted to find a solution to accelerate it. I wanted to see that the speed of the GridOptics is better than OPTICS, so I executed both the algorithms on several point sets.

In Chapter 3 of my thesis I introduce two new modules of the Cardiospy system of Labtech Ltd. On these two projects I worked together with István Juhász, László Farkas, Péter Tóth, and 4 students of the university, József Kuk, Ádám Balázs, Béla Vámosi, and Dávid Angyal.

Béla Kincs, who was the executive of the Labtech Ltd., wanted the Cardiospy system to be improved. He and his team surveyed what the demand of the users are in this area and how their software could be better. The Labtech Ltd. and the University of Debrecen worked together in two projects. In both cases the Labtech had early solutions for the algorithms, but they were inefficient and slow, the results could not be validated, or they gave insufficient results. Moreover, there were no visualization tools for either problems. The tasks of the team of the University of Debrecen were to give a quick algorithm and to create an interactive visualization interface for each problem.

The goal of the first module of Cardiospy is to cluster and visualize the long (up to 24-hours) recordings of ECG signals, because the manual evaluation of long recordings is a lengthy and tedious task. During this project I recognized that it is a very interesting topic to find out how the OPTICS can be accelerated with a grid clustering method independently, without any ECG signals.

The goal of the second module of Cardiospy is to calculate and visualize the steps of the blood pressure measurement and the values of blood pressure. The recordings (which can contain a sequence of measurements) are collected by a microcontroller, but this module runs on a PC. With the help of the application the physicians can recognize the types of errors on the measurements and they can also find the noisy measurements.

In Chapter 4 I introduce how I applied an active learning method in a subject whose topic is database programming. I taught Oracle SQL and PL/SQL in the Advanced DBMS 1 subject, and I saw that the students do not practice at home. The prerequirements of this subject are the Programming language and the Database systems courses, so they are not absolute beginners in the field. I wanted to force the students to try out the programming tools independently, but with the help of the teacher.

To support the active learning method, an application had to be built. The application helps the teacher organize and monitor the tasks and their solutions of the students. Moreover the application can verify the syntax of the solutions before the students upload them. If the syntax is wrong, the student cannot upload it. This feature makes the task of the teacher easier.

To demonstrate whether the active learning method is good or not, I gathered and examined the results of the students during the 3 years when I used this method.


Napjainkban a hardver rohamosan növekvő teljesítménye és a hatékony intelligens tudományos algoritmusok lehetővé teszik a nagymennyiségű adatok tárolását és feldolgozását. Ez a tendencia egyre több lehetőséget fog nyújtani arra, hogy az adatok tömegéből értékes információt nyerjünk ki.

A dolgozatom csak az előfutára a témának, mivel az általam használt hardver nem volt igazán erős és az általam használt adatmennyiség korántsem éri el az igazán nagymennyiségű adatot. Azonban a dolgozat minden témája valamilyen módon az intelligens adatfeldolgozáshoz kapcsolódik.

A dolgozatom 2. fejezetében egy új klaszterező algoritmust, a GridOPTICS-ot mutatom be, amelynek a célja felgyorsítani a jól ismert OPTICS sűrűség alapú klaszterező algoritmust. A sűrűség alapú klaszterező módszerek képesek felismerni egy ponthalmazban a tetszőleges formájú klasztereket. A DBSCAN eredményképpen egy klaszterhalmazt ad, míg az OPTICS egy elérhetőségi térképet generál, amelyből eredményképp több klaszterhalmaz leolvasható anélkül, hogy a teljes algoritmust újra le kellene futtatni. Az a tapasztalat, hogy az OPTICS nagyon lassú nagyméretű adathalmazokon, ezért egy olyan megoldást kerestem, amely meggyorsítja az algoritmust. Megvizsgáltam, hogy a GridOPTICS sebessége jobb-e, mint az OPTICS-é, ezért mindkét algoritmust több ponthalmazra futtattam.

A dolgozatom 3. fejezetében a Labtech Kft. Cardiospy rendszerének két új modulját mutatom be. A két projekten Dr. Juhász Istvánnal, Farkas Lászlóval, Tóth Péterrel, és 4 egyetemi hallgatóval, Kuk Józseffel, Balázs Ádámmal, Vámosi Bélával, és Angyal Dáviddal dolgoztam együtt. Ez alatt a projekt alatt ismertem fel azt, hogy érdekes lehet megvizsgálni, hogy az OPTICS klaszterező algoritmust hogyan lehet egy rács előfeldolgozóval felgyorsítani.

Dr. Kincs Béla, a Labtech Kft. ügyvezető igazgatója kérte a Cardiospy továbbfejlesztését. Ő és a csapata felmérte, hogy mik a felhasználói igények a területen és azt, hogy hogyan lehetne a szoftvertermékük jobb. A Labtech Kft. és a Debreceni Egyetem közösen dolgozott együtt a két projekten. A Labtechnek mindkét esetben volt már valamilyen korai megoldása az algoritmusokra, de azok lassúak voltak, nem voltak hatékonyak, az eredményüket nem lehetett validálni, vagy nem megfelelő eredményt adtak. Ezen kívül nem volt vizualizációs eszközük egyik problémához sem. A Debreceni Egyetem csapatának a feladata az volt, hogy mindkét feladatra egy-egy gyors algoritmust állítson elő, illetve készítsen egy-egy interaktív vizualizációs interfészt.

A Cardiospy első moduljának célja az, hogy az EKG jelek hosszú (akár 24 órás) felvételeit klaszterezze és megjelenítse. A modul megkönnyíti a jelek kiértékelését, amely feladat manuálisan egy hosszú és unalmas munka lenne.

A Cardiospy második moduljának a célja az, hogy kiszámolja a vérnyomásértékeket és megjelenítse a vérnyomásmérés lépéseit. A felvételeket (amelyek mérések sorozatát tartalmazhatják) mikrovezérlő gyűjti, a modul azonban PC-n fut. A modul segítségével az orvos felismerheti a mérés hibáit és megtalálhatja a zajos felvételeket.

A dolgozat 4. fejezetében bemutatom, hogyan alkalmaztam az aktív tanulási módszert egy adatbázis-programozás témájú tantárgy során. A Haladó DBMS 1 tantárgy keretein belül Oracle SQL-t and PL/SQL-t tanítok, és úgy láttam, hogy a hallgatók nem igazán gyakorolnak otthon. A tantárgy előfeltételei a Magasszintű programozási nyelvek és az Adatbázisrendszerek, ezért mondhatjuk, hogy a hallgatók nem teljesen kezdők a területen. Rá akartam kényszeríteni a hallgatókat arra, hogy önállóan, de mégis tanári vezetéssel próbálják ki a programozási eszközöket.

Az oktatási módszer támogatására egy olyan alkalmazásra volt szükség, amely segít a feladatok és azok megoldásainak a szervezésében, nyomon követésében, illetve a hallgatók teljesítményének a megfigyelésében. Az alkalmazás kapott egy szintaktikai ellenőrzőt, amely megakadályozza a hallgatót abban, hogy olyan kódot töltsön fel, amely nem fut le. Ez az eszköz a tanári munkát teszi könnyebbé.

Az aktív tanulási módszer sikerességének bemutatására összegyűjtöttem és elemeztem azon hallgatói eredményeket, amelyeket az alatt a 3 év alatt gyűjtött, amikor ezt a módszert alkalmaztam.

Leírás
Kulcsszavak
data clustering, adatklaszterezés, biomedical signal processing, orvosi jelfeldolgozás, density-based clustering, sűrűség alapú klaszterezés, grid clustering, rácsklaszterezés, ECG signal processing, EKG jelfeldolgozás, algorithm of blood pressure measurement, vérnyomásmérési algoritmus, education of database systems, learning by doing, adatbázis-rendszerek oktatása, software for supporting education, oktatást támogató szoftver
Forrás