A Digitális Örökség Nemzeti Laboratórium keretei között három, gépileg létrehozott annotációkat tartalmazó irodalmi korpusz készül. Az ELTE Verskorpusz célja a magyar kanonikus költészet bemutatása. Az ELTE Regénykorpusz célja a magyar kanonikus és kevésbé kanonikus regényirodalom feldolgozása, az ELTE Drámakorpusz célja pedig a magyar kanonikus és kevésbé kanonikus drámairodalom bemutatása. A három korpusz lehetőséget ad arra, hogy a magyar irodalomra a „távoli olvasás” perspektívájából tekintsünk rá, azaz kvantitatív jellemzők alapján vizsgáljunk nagyon nagy mennyiségű szöveget. Az irodalmi szövegeknek e kvantitatív alapú megközelítésével új szempontokkal gazdagíthatjuk az irodalomtudomány hagyományosabb módszerei révén előálló ismereteinket, illetve olyan kérdéseket tehetünk fel, amelyek megválaszolására eddig nem volt lehetőség.
A korpuszok a szövegek mellett tartalmazzák a szövegek szerkezeti egységeire vonatkozó annotációkat, valamint a szavak szótári alakját, szófaját és morfoszintaktikai jellemzőit. A szerkezeti egységek és a szavak grammatikai tulajdonságai mellett a Verskorpusz számos további, vershangzásra vonatkozó jellemzőt is tartalmaz. A korpuszokban szereplő szövegek a hozzájuk tartozó annotációkkal együtt TEI XML-formátumban letölthetők a korpuszok GitHub oldaláról és kutatási célokra szabadon felhasználhatók. Mind a három korpuszhoz tartozik egy számos keresési funkcióval rendelkező online lekérdezőfelület, amit bárki szabadon használhat. A lekérdezőfelületekbe beépített egyszerűen használható keresési funkciók lehetővé teszik, hogy informatikai tudás nélkül is szavakhoz, szófajokhoz és egyéb grammatikai jellemzőkhöz kapcsolódó kvantitatív adatokhoz juthassunk. A három korpuszt folyamatosan bővítjük további szövegekkel. Emellett a terveink között szerepel a korpuszok további annotációs rétegekkel való bővítése is. Az irodalmi korpuszok reményeink szerint nemcsak a kutatásban, hanem egyéb színtereken is, például a közoktatásban is hasznosíthatók lesznek.