NLP eszközök fejlesztése kiemelt feladat. A magyar nyelvi elemző gépi intelligencia fejlesztése mind a nemzeti digitális örökség feltárásának és megőrzésének, mind pedig a fejlesztett speciális eszközök piaci hasznosításának előfeltétele.
A fejlesztések célja olyan eszközök létrehozása (illetve meglévő eszközök továbbfejlesztése), amelyek nem csak a saját projektjeinkben, hanem szélesebb körben is hasznosíthatók, akár kevesebb informatikai ismerettel rendelkező bölcsészek számára is.
Jelenleg futó fő részprojektjeink a gold standard korpusz, a HTR (kézírás-felismerés) és a Huwikifier.
A számítógépes nyelvfeldolgozás alapvető feltétele, hogy rendelkezésre álljanak nagyméretű és jó minőségű szöveges adatbázisok, amelyek tanítóadatként felhasználhatók gépi tanuláshoz. Éppen ezért a DH-LAB fő célkitűzései közé tartozik egy magyar nyelvű kézzel annotált referencia korpusz (gold standard korpusz) létrehozása, melynek nyelvi annotációja a lemmatizálástól a szintaktikai elemzésig felöleli a fő elemzési szinteket.
HTR részprojekt célja, hogy a hazai kutatók számára egy olyan eszközt biztosítson, amely alkalmas kéziratok automatikus feldolgozására és digitalizálására. Első modellünket Arany János kéziratain tanítottuk be, de tabuláris adatok (pl. kézzel írt anyakönyvek) digitalizálásával is foglalkozunk a Magyar Nemzeti Levéltárral együttműködve.
A Huwikifier részprojekt célja egy olyan szolgáltatás létrehozása, amely megtalálja és egyértelműsíti a szövegben fellelhető Wikipédia entitásokat. Ezeket azután a szolgáltatást igénybe vevő szoftver felhasználhatja a szöveg gazdagítására, befogadásának megkönnyítésére, illetve könnyebben kereshetővé tételére.