Az ETO-jelzetek automatikus interpretálásának és elemzésének kérdései

Dátum
Folyóirat címe
Folyóirat ISSN
Kötet címe (évfolyam száma)
Kiadó
Absztrakt

Az Egyetemes Tizedes Osztályozás (ETO) és más analitikus-szintetikus osztályozási rendszerek számos lehetőséget nyújtanak az összetett, komplex és agglomerált tárgykörök kifejezésére szintaktikai relációk használatával. Az így alkotott fogalmak relevanciájának eldöntéséhez szükséges az azokat leíró jelzetek jelentésének lehető legpontosabb megállapítása. Az információkeresés során központi kérdés, hogy ez az azonosítás milyen mértékben támogatható automatikus eszközökkel, a prekoordinált jelzetek szintaktikai struktúrájának elemzése pedig alapvető követelménynek tűnik minden erre irányuló módszer esetén. Számos bibliográfiai adatbázis létezik, amely az ETO számokat egyszerű karaktersorozatokként vagy más, a szintaktikai struktúrájukat kellő mértékben nem feltáró formátumban tárolja, mely alapján hatékony információkeresés nehezen végezhető. Disszertációmban egy olyan platformfüggetlen, programok számára is értelmezhető formátumot mutatok be, amely alkalmas az ETO-jelzetek teljes szintaktikai struktúrájának feltárására és leírására. A formátum kidolgozása mellett a bemutatott kutatás céljai közé tartozott egy olyan algoritmus megtervezése és megvalósítása is, amely képes az ETO számok átalakítására közvetlenül a bemutatott formátumra. Emellett egyéb konverziós eljárások is kialakításra kerültek annak érdekében, hogy az elkészült és webes szolgáltatásként elérhető program kimeneteit más alkalmazások közvetlenül is fel tudják használni. A formátum részletes leírása mellett bemutatom a program funkcióit, lehetőségeit és használatát, valamint áttekintést adok annak lehetséges felhasználási módjairól, a további kutatási irányokról és tervekről.


Analytico-synthetic and faceted classifications, such as Universal Decimal Classification (UDC) provide facilities to express pre-coordinated subject statements using syntactic relations. In this case, the relevance, in the process of UDC-based information retrieval, can be determined by extracting the meaning of the classmarks as precisely as is possible. The central question here is how the identification mentioned above can be supported by automatic means and an analysis of the structure of complex classmarks appears to be an obvious requirement. Many bibliographic sources contain complex UDC classmarks which are stored as simple text strings or other formats that don't store enough information regarding there syntactic structure, on which it is very difficult to perform any meaningful information discovery. In my dissertation I present a new platform-independent, machine-processable data format capable of representing the whole syntactic structure of the composite UDC numbers to support their further automatic processing. An algorithm that can produce the representation of the numbers in such a format directly from their designations has also been developed and implemented. The research also includes implementing conversion methods to provide outputs that can be employed by other software directly and, as a service, make them available for other software. Besides the detailed explanation of the format I also provide an overview of the solutions developed and implemented in and outline future research plans.

Leírás
Kulcsszavak
Analitikus-szintetikus osztályozási rendszerek, Analytico-Synthetic Classifications, ETO, UDC, Egyetemes Tizedes Osztályozás, Universal Decimal Classification, Parser, XML Séma Definíció, XML Schema Definition, XML, XSD
Forrás