• contact@dh-lab.hu
  • 1088 Budapest Múzeum krt. 6-8

2017-ben végeztem a PPKE Digitális bölcsészet mesterszakán, ezután az Irodalomtudományi Intézet és a Digiphil közös retrokonverziós projektjében Arany János műveivel, a kritikai kiadások jelölőnyelvi kódolásával foglalkoztam.
2019 nyarán lettem a Digitális Bölcsészet Központ munkatársa, ahol a repozitóriumfejlesztés mellett főként a webaratás projekt feladataiba kapcsolódtam be. Az ELTE.DH pilot korpusza célzott webarchiválással nyert, elsősorban sajtószövegekből épül. Olyan módszer fejlesztésén dolgozom, amely nagy hatékonysággal, s minél kevesebb emberi felügyelettel állít elő az archivált anyagból egy szabványos és formailag konzisztens, gondozott változatot. Legfontosabb lépés a metaadatok kinyerése és szabványos, strukturált tárolása, de az általános gyakorlattal ellentétben a szövegek megtisztítása mellett különös figyelmet fordítunk a tipográfiai elemekre, a releváns szövegegységek és tagolók megkülönböztetésére, valamint a külső-belső hivatkozási rendszert alkotó linkek megőrzésére. Ilyen biztos alapokra építve aztán a sajtócikkek szövegét természetesnyelv-feldolgozó (NLP) eszközökkel elemezve a megszokott teljes szövegű keresésnél jóval kifinomultabb kérdéseket lehet az adatbázisnak feltenni.
2020 szeptembere óta vagyok az ELTE Történelemtudományi Doktori Iskola hallgatója. Ezzel összhangban a sajtószövegek, mint történeti források kutathatóságának javítása érdekében vizsgálom a szemantikai adatgazdagítás gyakorlatait és hasznosságát, olyan feladatok és nemzetközi trendek felé tekintve, mint a névelem-felismerés, wikifikáció, prozopográfia, stilometria. A hipotézis egyik pillére, hogy egy jól felépített és annotált adatbázis önmagában alkalmas lesz releváns összefüggések feltárására, komplexebb kutatói kérdések megválaszolására. Fontosnak tartom a jövőben, hogy az anyagot a kutatók számára optimális formában tegyük elérhetővé, kiszolgálva a jelenkorra fókuszáló nyelvészek, történészek, szociológusok, médiakutatók igényeit.