Magyarországon jelenleg kevés olyan koncentrált kulturális és tudományos célú archiválás folyik, amelynek eredményeként a létrejövő anyag kellő pontossággal, tisztasággal bír ahhoz, hogy széleskörű felhasználásra alkalmas legyen.
Az adatvesztés nyilvánvaló és folyamatos.
Ennek kiküszöbölésére a DH-LAB folyamatosan végzi a kutatási és innovációs szempontból releváns webes források kiválasztását, aratását és az ehhez szükséges technológiák fejlesztését.
A webaratás saját fejlesztésű, szabad szoftverként közzétett webcrawlerrel történik.
A learatott anyagok repozitálva vannak a CERN repozitórumában.
Illetve a Sketch Engine korpuszkereső szolgáltatásunkban a learatott anyagok közvetetten is non-profit célra felhasználhatók EDUID-val rendelkező kutatók számára.
Webaratásunk célja az összegyűjtött anyagok kutathatóvá tétele, ezért a DH-LAB kifejezetten nagy hangsúlyt fektet a szóba jövő webfelületek letöltésével és felhasználásával kapcsolatos jogi kérdések tisztázására.