Egy magyar nyelvű kézzel annotált referencia korpusz (gold standard korpusz) a gépi tanulás alapja. A DH-LAB-féle magyar referencia korpusz minőségének javítása a gépi tanuláson alapuló módszerek fejlesztésének és a teljesítményük összehasonlításának elengedhetetlen tényezője. Ezért a DH-LAB egyik kiemelt tevékenysége egy minden szakmai és minőségi követelménynek megfelelő korpusz megalkotása.
A korpusz megalkotása során a DH-LAB célkitűzése, hogy a határon túli magyar nyelvű digitális szövegek is részét képezzék a korpusznak , mivel a már rendelkezésre álló korpuszokban a határon túli nyelvváltozatok alulreprezentáltak.