2017-ben végzett a PPKE Digitális bölcsészet mesterszakán, ezután az Irodalomtudományi Intézet és a Digiphil közös retrokonverziós projektjében Arany János műveivel, a kritikai kiadások jelölőnyelvi kódolásával foglalkozott.
2019 nyarán lett a Digitális Bölcsészet Központ munkatársa, ahol a repozitóriumfejlesztés mellett főként a webaratás projekt feladataiba kapcsolódott be. Az ELTE.DH pilot korpusza célzott webarchiválással nyert, elsősorban sajtószövegekből épül. Olyan módszer fejlesztésén dolgozik, amely nagy hatékonysággal, s minél kevesebb emberi felügyelettel állít elő az archivált anyagból egy szabványos és formailag konzisztens, gondozott változatot. Legfontosabb lépés a metaadatok kinyerése és szabványos, strukturált tárolása, de az általános gyakorlattal ellentétben a szövegek megtisztítása mellett különös figyelmet fordít a tipográfiai elemekre, a releváns szövegegységek és tagolók megkülönböztetésére, valamint a külső-belső hivatkozási rendszert alkotó linkek megőrzésére. Ilyen biztos alapokra építve aztán a sajtócikkek szövegét természetesnyelv-feldolgozó (NLP) eszközökkel elemezve a megszokott teljes szövegű keresésnél jóval kifinomultabb kérdéseket lehet az adatbázisnak feltenni.
2020 szeptembere óta az ELTE Történelemtudományi Doktori Iskola hallgatója. Ezzel összhangban a sajtószövegek, mint történeti források kutathatóságának javítása érdekében vizsgálja a szemantikai adatgazdagítás gyakorlatait és hasznosságát, olyan feladatok és nemzetközi trendek felé tekintve, mint a névelem-felismerés, wikifikáció, prozopográfia, stilometria. A hipotézis egyik pillére, hogy egy jól felépített és annotált adatbázis önmagában alkalmas lesz releváns összefüggések feltárására, komplexebb kutatói kérdések megválaszolására. Fontosnak tartja a jövőben, hogy az anyagot a kutatók számára optimális formában tegyék elérhetővé, kiszolgálva a jelenkorra fókuszáló nyelvészek, történészek, szociológusok, médiakutatók igényeit.
További információk a képekre kattinva érhetőek el: