Az elmúlt hetekben, egyelőre kísérleti jelleggel, elkezdtük néhány ismertebb magyar hírportál és online napilap, valamint egy hírgyűjtő oldal kezdőlapjának és az arról elérhető cikkeknek a napi szintű mentését. Ehhez a Brozzler nevű szoftvert használjuk, amely egy böngészőn keresztül menti a szervertől kapott fájlokat, így pontosabban lehet letölteni és utána rekonstruálni ezeket a komplex weblapokat, mint egy „buta” robottal való aratással. A naponta archivált híroldalak jelenleg a következők: 24.hu, 444.hu, 888.hu, blikk.hu, borsonline.hu, hirado.hu, hirkereso.hu, hvg.hu, index.hu, magyarnemzet.hu, mandiner.hu, napi.hu, nemzetisport.hu, origo.hu, portfolio.hu, ripost.hu és szeretlekmagyarorszag.hu.
Sport témájú részgyűjtemény
Új tematikus részgyűjteménnyel bővült a webarchívum nem publikus része. Több mint 3 ezer sport témájú webhelyről – főként szövetségek, egyesületek, csapatok honlapjairól – készítettünk mentéseket szeptember 18. és 21. között, kb. fél terabájt összméretben. A részletes statisztika itt látható, a címlistát pedig itt lehet megnézni.
Két Networkshop előadás
Ezen a héten és online került megrendezésre az eredetileg tavaszra és Pécsre tervezett Networkshop konferencia. A webarchiválással két előadás foglalkozott, melyek prezentációi letölthetők az alábbi linkekről:
Moldován István: Digitális gyűjtemények az oktatás szolgálatában – A Rákóczi webarchívum
Németh Márton: A mikroadatok felhasználásának lehetőségei a webarchiválásban
3K cikk a webarchívum új honlapjáról
A “Könyv, Könyvtár, Könyvtáros” folyóirat idei 6. számában Németh Márton publikált egy cikket, melyben a webarchívum ez év elején indult új honlapját mutatja be, s egyben áttekintést ad a projekt jelenlegi helyzetéről és a távlati tervekről. A cikk az Elektronikus Periodika Archívumból tölthető le ide kattintva.
Kormányhatározat a webarchiválás költségvetéséről
A 1358/2020. (VII. 1.) számú határozatában a Kormány megállapította az OSZK webarchiválási feladataihoz rendelt költségvetést a 2021-es évre, valamint az azt követő időszakra. A határozat szövege itt olvasható.
Idei első webtér aratás
2020. június 30. és július 5. között lefutott az első olyan idei aratás, amely a magyar webtérből eddig általunk összegyűjtött valamennyi domén és aldomén címre kiterjedt. A kiinduló lista közel 270 ezer címet tartalmazott, az aratórobot öt nap alatt 50 millió URL -t talált, ebből 46 milliót sikeresen le is töltött, melyek közül csaknem 23 millió volt az új, eddig még nem archivált fájl, 2,4 TB összméretben. A részletes statisztika itt nézhető meg. (Az oldalképekre vonatkozó adatok csak becsült értékek, mert ezeknek a képfájloknak az elkészítése még folyamatban van.)
Ezek a webtér szintű aratások arra szolgálnak, hogy félévente készítsünk egy „pillanatfelvételt” a magyar internet minél nagyobb részéről, ezért az aratási paramétereket erősen lekorlátozzuk. Ez alkalommal például a kezdőlaptól csak 2 szintig követtük a linkeket lefelé, megpróbáltuk kizárni az audió, a videó és a tömörített fájlokat, valamint maximalizáltuk az egyes fájlok méretét (10 MB) és az egy szerverről letöltött tartalom összméretét is (1 GB).
Összefoglaló az OSZK projektről az IIPC blogjában
„From pilot to portal: a year of web archiving in Hungary” címmel jelent meg Németh Márton összefoglalója az OSZK webarchiváló projektjének elmúlt időszakáról az internetes tartalmak megőrzésével foglalkozó nemzetközi szervezet, az IIPC blogjában.
Önálló webarchiválási osztály
Az OSZK szervezeti struktúrájának átalakítása után a jövőben önálló osztály keretében folyik tovább a webarchiválás, az Információ- és Tartalomszolgáltatási Főosztály részeként. Az új szervezeti ábra a http://www.oszk.hu/szervezet oldalon látható.
Megjelent a 2019-es CDA konferencia előadás
Megjelent Német Márton tavalyi pozsonyi előadásának szerkesztett változata a konferencia kötetében „Using semantic microformats for web archiving – an initial project conception” címmel. A kötet itt érhető el, a cikk a 31. oldalon kezdődik (a PDF 33. oldala).
IIPC oktatóanyagok
Az International Internet Preservation Consortium oktatási munkacsoportja, amiben magyar részről Németh Márton, az OSZK munkatársa vesz részt, nyilvánosan közzétette a Training Working Group által készített ismeretterjesztő prezentációkat és videókat, melyek a webarchiválás különféle területeit mutatják be. További részletek az IIPC blogjában olvashatók.