Perspectives on the Lexicon
Dátum
Szerzők
Folyóirat címe
Folyóirat ISSN
Kötet címe (évfolyam száma)
Kiadó
Absztrakt
Az értekezés célja a lexikon szerepének, működésének többszempontú vizsgálata. Ennek során először elemzem a lexikai komponens pozícióját a chomskyánus generatív grammatika kiválasztott alternatív elméleteiben, vizsgálva, hogy a mondattan és az alaktan között kialakuló munkamegosztás (különösen a ragozás és a képzés kérdésében) hogyan befolyásolja a nyelvészek lexikonról kialakított elképzeléseit. A folytatásban a poliszémia és homonímia kérdéskörének tömör elemzésével szemléltetem azt, hogy a jelentéstani alapproblémák komoly buktatókat rejtenek a lexikon tervezése során. Az elmélet mellett a gyakorlatra is hangsúlyt fektet az értekezés: megvizsgálom, hogy két jelentős lexikai adatbázisban, a WordNet-ben és a FrameNet-ben a jelentés mely aspektusai köré szervezték a tárolt információkat, miközben a WordNet-tel kapcsolatban az elméleti oldalról korábban vizsgált jelenségeket, főként a ragozás és a szóképzés kezelésének módját is elemzem. Ezek az adatbázisok kiemelkednek a természetesnyelv-feldolgozásban használatos szóalapú adatbázisok köréből szerkesztési jegyeik, valamint méretük, kidolgozottságuk miatt. Az értekezés fontos újítása, hogy a vizsgálatba bevonja a konnekcionista, mesterséges neurális hálózat alapú kísérletek releváns tapasztalatait. Előbb egy áttekintő fejezetben látjuk, ahogy felvázolódik a nyelvi információ ábrázolásának egy lehetséges módszertana elsősorban Rumelhart és Elman kísérleteiben, majd bemutatok néhány mesterséges neurális hálózat konstrukciót, melyek a nyelvi bemenet kezelésében jelentős potenciállal rendelkeznek. Végül ismertetem önálló kutatásomat, melyhez kifejlesztettem egy sajátos neurális hálózat szerkezetet, melyet FrameNet-szerű jelentéstani keret (frame) és keret-elem (frame element) felismerésre tanítottam be generált korpuszon.While specifying a lexicon is sometimes treated as a follow-up to developing a new model of grammar or an application, lexicon design, that is the description of how we store and handle idiosyncratic building blocks (usually morphemes and/or words) of language, is one of the most complex problems of linguistics and by no means secondary in importance. We should consider a wide variety of theoretical questions while keeping an eye on the implementational consequences. Chapter 2 of my thesis is devoted to the analysis of the position of the lexical component in selected alternative models of Chomskyan Generative Grammar. We study the intricate relationship between syntax and morphology (concentrating on the placement of inflection and derivation) and its effects on how we think about the lexicon. This chapter also gives some basic insight into how morphological processes are approached in Natural Language Processing. Chapter 3 discusses the problem of homonymy, polysemy and other aspects of lexical semantics to show that meaning is not easy to grasp. Since a lexicon should store (and perhaps work with) meanings, these are relevant considerations. While chapter 3 and the greater part of chapter 2 explore theoretical perspectives, chapter 4 takes the more practice-oriented point of view of computational linguistics. The main considerations of chapter 4 are not entirely different from those of the previous chapter, however, since we inquire into the question of representing lexical knowledge in real-life databases, most importantly, in WordNet and FrameNet. WordNet’s sense-relations and the frame-relations in FrameNet are exciting new approaches to representing meaning in a database that is designed to contain lexical information. While the literature of Generative Grammar is abundant in references to lexicon-related considerations, chapters 5 and 6 are devoted to a much less researched topic: representing linguistic input and the emergence of a special type of lexis in connectionist models. Chapter 6 presents my own artificial neural network-based experiment in which I trained a network to recognize FrameNet-like frame and frame element labels in a fully or partially pre-trained corpus of generated text.