Facebook oldalak mentése

Az elmúlt két hétben az egyik legnehezebben megőrizhető internetes tartalom, a Facebook archiválásával kísérleteztünk a Webrecorder Desktop és annak online változata, a Conifer segítségével. 147 publikus könyvtári Facebook oldalról mentettünk közel 30 ezer bejegyzést, többnyire képpel, illetve néhol videóval együtt. 35 esetben sikerült a teljes oldalon végigmenni (a legrégebbi letöltött poszt dátuma 2010-04-28 volt), a többinél pedig az utolsó egy-két év bejegyzéseiből mentettünk le átlagosan körülbelül kétszázat.

Gyorsmérleg a KDS együttműködésről

A „Könyv, Könyvtár, Könyvtáros” szaklap idei 7-8. számában megjelent Visky Ákos László összefoglalója az OSZK webarchívuma és több megyei könyvtár együttműködéséről a Közgyűjteményi Digitalizálási Stratégia keretében. A cikk kiegészítéseként Szécsényi Orsolya, az egri Bródy Sándor Megyei és Városi Könyvtár munkatársa számol be arról, hogy az ottani helyismereti könyvtárosok hogyan vettek részt ebben az újszerű feladatban. A teljes szöveg az EPA-ból tölthető le.

A webarchívum mérete

Az eddig összeválogatott és rendszeresen archivált webhelyek száma már csaknem pontosan 33 ezer, ezen felül pedig még 4890 időszaki kiadvány weboldalát mentjük negyedéves gyakorisággal jelenleg. A teljes gyűjtemény, melyben az esemény-alapú és a webtér-szintű aratások anyaga is benne van, több mint 11 ezer WARC fájlban raktározódik, melyek kb. 40 terabájtot foglalnak el.

Híroldalak napi mentése

Az elmúlt hetekben, egyelőre kísérleti jelleggel, elkezdtük néhány ismertebb magyar hírportál és online napilap, valamint egy hírgyűjtő oldal kezdőlapjának és az arról elérhető cikkeknek a napi szintű mentését. Ehhez a Brozzler nevű szoftvert használjuk, amely egy böngészőn keresztül menti a szervertől kapott fájlokat, így pontosabban lehet letölteni és utána rekonstruálni ezeket a komplex weblapokat, mint egy „buta” robottal való aratással. A naponta archivált híroldalak jelenleg a következők: 24.hu, 444.hu, 888.hu, blikk.hu, borsonline.hu, hirado.hu, hirkereso.hu, hvg.hu, index.hu, magyarnemzet.hu, mandiner.hu, napi.hu, nemzetisport.hu, origo.hu, portfolio.hu, ripost.hu és szeretlekmagyarorszag.hu.

Sport témájú részgyűjtemény

Új tematikus részgyűjteménnyel bővült a webarchívum nem publikus része. Több mint 3 ezer sport témájú webhelyről – főként szövetségek, egyesületek, csapatok honlapjairól – készítettünk mentéseket szeptember 18. és 21. között, kb. fél terabájt összméretben. A részletes statisztika itt látható, a címlistát pedig itt lehet megnézni.

3K cikk a webarchívum új honlapjáról

A “Könyv, Könyvtár, Könyvtáros” folyóirat idei 6. számában Németh Márton publikált egy cikket, melyben a webarchívum ez év elején indult új honlapját mutatja be, s egyben áttekintést ad a projekt jelenlegi helyzetéről és a távlati tervekről. A cikk az Elektronikus Periodika Archívumból tölthető le ide kattintva.

Idei első webtér aratás

2020. június 30. és július 5. között lefutott az első olyan idei aratás, amely a magyar webtérből eddig általunk összegyűjtött valamennyi domén és aldomén címre kiterjedt. A kiinduló lista közel 270 ezer címet tartalmazott, az aratórobot öt nap alatt 50 millió URL -t talált, ebből 46 milliót sikeresen le is töltött, melyek közül csaknem 23 millió volt az új, eddig még nem archivált fájl, 2,4 TB összméretben. A részletes statisztika itt nézhető meg. (Az oldalképekre vonatkozó adatok csak becsült értékek, mert ezeknek a képfájloknak az elkészítése még folyamatban van.)

Ezek a webtér szintű aratások arra szolgálnak, hogy félévente készítsünk egy „pillanatfelvételt” a magyar internet minél nagyobb részéről, ezért az aratási paramétereket erősen lekorlátozzuk. Ez alkalommal például a kezdőlaptól csak 2 szintig követtük a linkeket lefelé, megpróbáltuk kizárni az audió, a videó és a tömörített fájlokat, valamint maximalizáltuk az egyes fájlok méretét (10 MB) és az egy szerverről letöltött tartalom összméretét is (1 GB).