A digitális oktatás idején, az érettségi vizsgákhoz közeledve jó tudni, milyen eszközökkel segítik a kutatók a tanulást és a tanítást. A középiskolai tananyagban szereplő magyar költők művei immár nemcsak online szöveggyűjteményekben, de egy különleges adatbázisban, a Verskorpuszban is hozzáférhetők. A vasárnapi Költészet Napja előtt a versek rímeit, ritmusait és más rejtett tulajdonságait feltáró, szabad hozzáférésű adatbázisról kérdezzük Palkó Gábort, az ELTE Digitális Bölcsészet Tanszék egyetemi docensét.
Verskorpusznak nevezték el az adatbázist – mit takar ez a szokatlan szókapcsolat?
A korpusz fogalmát a nyelvészektől kölcsönöztük.Már az 1960-as években is léteztek olyan kutatások, amelyek számítógépes feldolgozás céljára gyűjtöttek össze hatalmas mennyiségű természetes nyelvi szöveget.Később ilyen módszerrel hoztak létre szótárakat is; az egyik leghíresebb a Collins’ COBUILD egynyelvű értelmező szótár. Ennek hátterében az a filozófia áll, hogy a nyelvről való tudást nem csak elméleti feltételezésekből kiindulva,hanem a korpuszok statisztikai, számítógépes vizsgálatára alapozva is gyarapíthatjuk, melynek révén olyan mintázatokra bukkanhatunk, amelyek a korábbi, spekulatív modellek felől nézve rejtve maradtak.A korpusznyelvészet összegyűjti az adott nyelvterületről a szövegeket, különféle szempontok alapján annotálja, vagyis felcímkézi azokat, majd a nyelvi jellemzők közötti keresések révén tár fel összefüggéseket. Ilyen céllal jött létre a Magyar Nemzeti Szövegtár. A Verskorpusz létrehozásakor hasonló cél lebegett a szemünk előtt: létrehozni a magyar költészet nyelvét reprezentáló szöveggyűjteményt, azt gépi úton felcímkézni, majd keresésekkel feltárni rejtett mintázatokat. A korpusz szó keresztezése a költészettel egyébként nem az ELTE digitális bölcsészeinek „találmánya”. A cseh kollégák már egy évtizede kísérleteznek számítógépes versfeldolgozással: a 2010-es évek közepén tették közzé a Cseh Verskorpuszt (Corpus of Czech Verse), ami tudomásom szerint a legnagyobb ilyen gyűjtemény a világon.
A korpusz nyelvészeti szakkifejezés, jelentése egy adott nyelv adott időpontban használt változatára vonatkozó szövegek összessége. A szó a latin corpus (test) szóból ered, és a “nyelvi test”, nyelvi összesség értelemben használják. (Wikipedia)
Kiknek a művei kereshetők a Verskorpuszban?
A korpuszba bekerült versek forrása a Magyar Elektronikus Könyvtár számos, szerzői jogi védelem alatt már nem álló költői életművet tartalmazó gyűjteménye. A technikai feltételeken túl (vagyis, hogy megfelelő formátumban rendelkezésre állnak-e jó minőségű digitális szövegek) a szerzők kiválasztásának szempontja az volt, hogy az iskolai kánonhoz tartoznak-e.Igyekeztünk a magyar verskultúra szempontjából legjelentősebb, legismertebb életműveket összegyűjteni.Ez hátrányokkal is jár: a NAT-ban szereplő költők döntő többsége férfi, és ez az aránytalanság jellemző a jelenlegi gyűjteményünkre. Azt remélem, a Verskorpusz további építése lehetővé teszi majd a kánonba be nem került líra integrálását, ami hosszabb távon akár a kánon átrendeződésének alapját is képezheti.
Janus Pannonius, Juhász Gyula, Radnóti Miklós versei miért maradtak ki az adatbázisból? Tervezik bővíteni a tartalmat? Ha igen, mely költők alkotásaival?
Jelenleg 45 költő összegyűjtött versei találhatók a gyűjteményben. Mivel a korpusz magyar nyelvi elemzőeszközöket használ, úgy döntöttünk, fordításokat nem használunk, hiszen az eredeti szöveg és a fordítás keletkezése között eltelt idő (miközben a nyelv változott), illetve a fordító saját költői nyelve befolyásolná azokat a mintázatokat, amelyeket a szolgáltatásból kiolvashatunk a magyar lírai nyelvről. A gyűjteményt folyamatosan bővítjük, Juhász Gyula és Radnóti a lista elején állnak!
A költemények mely nyelvtani és poétikai tulajdonságait tárja föl a Verskorpusz?
A szavak grammatikai tulajdonságainak azonosítására a Nyelvtudományi Intézetben fejlesztett e-magyar programot használtuk. Az eszköz segítségével automatizált módon meg tudjuk adni a versekben szereplő szavak szótári alakját, szófaját és morfológiai jellemzőit. Ez nemcsak azért izgalmas, mert egy adott szótő minden toldalékolt alakja listázható, vagy mert egy szó meghatározott szófajú környezetére is kereshetünk. A mintázatok feltárása szempontjából talán még érdekesebb, hogy a szolgáltatás gyakorisági listákat is létrehoz,így néhány kattintással összeállítható, egymás mellé helyezhető a költők által leírt leggyakoribb főnevek listája, de láthatóvá tehető az is, a magyar költészettörténetben hogyan változott meg a jelen és múlt idejű igék aránya, vagy épp a megszólítás, a második személyű igealakok használati gyakorisága. A grammatikai jellemzőkön túl hangzásjellemzőket is jelölünk a versekben, így listázhatjuk azokat a verseket, amelyek egy meghatározott rímképlettel rendelkeznek, illetve rákereshetünk szavakra azok fonológiai jellemzői (például hangrendjük vagy szótagszámuk) alapján. Az említett tulajdonságok mellett a versek megjelenítésénél pedig láthatjuk a sorok szótagszámát és időmértékes ritmusképletét is.
József Attila születésnapjának tiszteletére kérem, az ő versein keresztül mutassa be röviden, hogyan lehet használni a szolgáltatást?
Könnyű dolgom van, hiszen a Tanszék munkatársa, Horváth Péter publikált egy tanulmányt József Attila műveinek kvantitatív elemzéséről, melynek során a Verskorpusz kapcsán fejlesztett eszközöket használta. Az adatbázis 585 József Attila verset tartalmaz, ezekben valamivel több mint 10 ezer szó szótári alakjára visszavezethető 61 ezer szóalak fordul elő. A versekben 179 alkalommal szerepel a szeret ige valamilyen formája, a költő a létige és a tud ige után ezt használja a legsűrűbben. József Attila verseiben a leggyakoribb az öt szóból álló sor, tipikus verssora tíz szótagos.A költők teljes életművére vonatkozó adatokat összevethetjük egymással, de az egyes versekre vonatkozó számadatokat is lekérhetjük, így következtethetünk egy adott szöveg és az életmű egészének viszonyára.
Egy átlagos érdeklődésű középiskolás mit tud profitálni a Verskorpuszból? Várható, hogy diákok is használják majd tanulmányaikhoz az adatbázist, vagy inkább az irodalommal hivatásszerűen foglalkozókra számítanak?
A Verskorpusz elsődleges célközönsége véleményem szerint az a kutató vagy egyetemi hallgató, aki az irodalmi nyelv számszerűsíthető jellemzőire is kíváncsi.A szolgáltatásnak ugyanakkor egy középiskolai irodalomóra, vagy akár verselemzési feladat összefüggésében is lehet szerepe, a versformák, a költői nyelv hangzó elemeinek tanításakor egyenesen kötelező!
Az ELTE-n Molnár Gábor Tamás vezetésével működő Digitális Írástudás és Irodalomoktatás Kutatócsoport kvantitatív vizsgálatokkal bizonyította, hogy az irodalomórán az interaktív digitális eszközök használata növeli a diákok bevonásának lehetőségét, a motivációt, illetve elősegíti az irodalmi szöveg értelmezését. Remélem, hogy ezt felismerve a tanárok előszeretettel használják majd a Verskorpusz nyújtotta lehetőségeket.
Az emelt szintű magyar irodalom érettségire készülők ismerik a hapax legomenon, az egyéni szóalkotás fogalmát. József Attila költészetére különösen jellemzők a szabad asszociációkon alapuló, új költői kifejezések. Meg lehet keresni a Verskorpuszban az egyedülálló, csak egyszer előforduló szavakat?
Nagyon jó kérdés! Az adatbázis lehetővé teszi, hogy gyakorisági listákat készítsünk akár a szóalakok, akár a szótövek előfordulásai alapján, így könnyedén előállíthatjuk, mondjuk, József Attila költészetében az egyszer szereplő főneveket tartalmazó táblázatot. Ez azonban nem jelenti azt, hogy a szolgáltatás csak a költői kreativitás, az egyéni szóalkotás kitűnő példáit játszaná a kezünkre. Ha egy pillantást vetünk erre a listára, kiderül, hogy a valódi költői értékkel bíró összetételek mellé köznyelvi szavak kerülnek. Ki gondolná, hogy József Attila költészetében ugyanúgy egyetlen egyszer szerepel a szösz-sötét, vagy a levegő-lepke, mint a tepsi vagy a harkály? De a gépi intelligencia nem vállalhat át minden feladatot az emberitől!
Milyen szerepet játszik a Verskorpuszban a mesterséges intelligencia?
A természetes nyelvi elemző eszközök rendkívül komplex szoftverek, amelyeket hosszú éveken át fejlesztenek számítógépes nyelvészekből és mérnökökből álló kutatócsoportok. Sajnos, ezek az eszközök – nem kis részben a magyar nyelv komplexitása és egyedisége miatt – a magyar szövegek esetében kevésbé hatékonyan működnek. Ezért is vállalta fel az ELTE vezetésével 2020 őszén létrejött Digitális Örökség Nemzeti Laboratórium, hogy a kulturális örökség területén segíti, előmozdítja a mesterséges intelligencia eszközeinek hatékonyságát és elterjedtségét; ennek a feladatnak egyik első lépcsőfoka a Verskorpusz.
A tanárok szerint az innovatív, élményszerű irodalomtanítással több diákot lehet olvasóvá nevelni, mint a lexikális tudás erőltetésével. A webkultúrára is építő új módszertan záloga a tanárképzés. Tervezik a magyartanárok képzésébe integrálni a Digitális Bölcsészet Tanszéken zajló fejlesztéseket?
A már korábban említett Digitális Írástudás és Irodalomoktatás Kutatócsoport éppen erre tesz kísérletet:akkreditált tanártovábbképzést szervez, iskolai kísérleti órákat tart, kvantitatív és kvalitatív vizsgálatokat folytat, tanulmányköteteket publikál.A kutatócsoport munkája nyáron véget ér, de remélem, lesz lehetőségünk egy újabb pályázati ciklusban a munkát folytatni.
Korábban ön foglalkozott a középiskolai irodalomtanítás elvi kérdéseivel. Fontosnak tartja az irodalomtanításban a művek értelmezését? Segíti a befogadást az irodalmi szövegek minél komplexebb, minél intenzívebb bemutatása?
Az irodalomoktatás lényege a művekkel való párbeszéd, mely a bemutatással, megtapasztaltatással indul, majd jó esetben kialakul az a kreatív-interaktív befogadói attitűd, ami nélkül nincs műélvezet és irodalomértés.Az irodalomtörténeti folyamatok, az életrajzi adatok, a műformák tanítása csak annyiban legitimálható, ha mind az előbbi célt szolgálja.
Milyen irányban tervezik a Verskorpusz fejlesztését? Elképzelhető, hogy a jelenleg zárt adatbázist kinyitják a hipertextualitás, vagy akár a „sharing culture”, a közösségi tapasztalat-megosztás irányába?
Nagyon örülnék, ha a Verskorpusz részévé válna a digitális médium közösségi és hálózatos gyakorlatainak, ha széles körben idézett és hivatkozott eleme lehetne a hálózati kultúrának, de magát a szolgáltatást nem szeretnénk “megnyitni” ilyen irányba.A fejlesztés a már említett, kánontágító bővítésen túl a mind komplexebben elemezhető poétikai jellemzők: strófaszerkezetek, ütemhangsúlyok, szimultán verselés irányába mutat.A szóbeágyazások és a neurális hálózatok új gépi tanulási technológiái olyan területekre is utat nyithatnak – mint például a költői alakzatok gépi elemzése –, melyek a régebbi, szabályalapú eljárások idején még elképzelhetetlenek voltak.
„Add a kezembe e zárt világ kilincsét” – Elmondhatjuk, hogy az ELTE kutatóinak munkája eleget tesz a József Attila-i kérésnek?
A költői nyelv világa, amennyiben csak a befogadás dialogikus aktusában születik meg, mindig is nyitott volt. A líraolvasás folyamatát a számszerűsíthető jellemzők láthatóvá tétele nem helyettesíti, ugyanakkor lehetővé teszi új, korábban észrevehetetlen mintázatok felismerését. Ennyiben valóban új ajtókat nyitunk meg az úton velünk tartók előtt.
Tószegi Zsuzsanna
(A cikk eredetileg a tudas.hu-n jelent meg.)
2020.04.15.