TMT cikk a közösségi média megőrzéséről

A Tudományos és Műszaki Tájékoztatás idei 7. számában megjelent Drótos László cikke „Az idő fogságában – Ki őrzi meg a közösségi médiát?” címmel. A tanulmány a Facebook, az Instagram és a Twitter bejegyzések archiválhatóságára vonatkozó OSZK-s tesztek eredményét ismerteti, bemutatja a szóba jöhető módszereket és szoftvereket, valamint egy rövid nemzetközi kitekintést is ad erről a speciális szakterületről.

Nyári webtér aratás

Július 7. és 12. között lefutott egy újabb, félévente ismételt, „pillanatfelvétel” jellegű nagy aratás az összes eddig általunk ismert magyar domén és aldomén címről. A tavaly december végi 251 ezer tételes seed listához képest most jelentősen több, 434 ezer URL címről indítottuk el a robotot, amely 6 nap és 9 óra alatt közel 72 millió fájlt töltött le. Ennek több mint a fele volt az új tartalom, 3,2 terabájt összméretben. A részletesebb statisztika itt található. (Az oldalképekre vonatkozó adatok csak ideiglenesek, mert az ezeket készítő script kb. az egyharmadánál jár a feladatnak. Továbbá a belinkelt statisztikában nincs benne az a 12,5 ezer webszerver, amelyekhez nem tartozik robots.txt, mivel ezeket egy külön menetben arattuk le.)

MIA Wiki bővítés

Az elmúlt három hétben 50 új szócikkel, főként közösségi oldalak archiválásra is alkalmas eszközök leírásával bővítettük tovább az internetes tartalmak megőrzésével foglalkozó wikinket, amely így már 701 bejegyzésből áll és több mint 1430 linket tartalmaz külső forrásokra: https://webarchivum.oszk.hu/mediawiki/

Folytatódik a Facebook archiválás

Újra elkezdtük nyilvános Facebook fiókok idővonalát menteni, amivel tavaly kénytelenek voltunk leállni a cég által bevezetett technikai változtatások miatt. Most az ArchiveWeb.page nevű új Chrome kiegészítővel archiválunk, de az egyes posztokat külön nem mentjük, mert az nagyon időigényes. Első lépésben 14 történelmi témájú oldal idővonalát próbáltuk letölteni, ami az esetek felében az első bejegyzésig visszamenőleg sikerült is. A következő fázisban 64 hírportál és egyéb időszaki kiadvány Facebook oldaláról készítünk mentéseket, de ezeken olyan mennyiségű tartalom van, hogy néha még az utolsó egy hónap anyagának letöltése is nehézséget jelent.

Új webhelyek a nyilvános archívumban

20 újabb webhellyel – főként közgyűjtemények honlapjaival – bővült a nyilvános webarchívum. A mentések a WCT keretrendszerben futó Heritrix robottal készültek, melyeket kiegészítettünk a HTTRack programmal készített másolatokkal, amennyiben a robottal nem sikerült jól learatni valamelyik site-ot. A 2021 januárjában életbe lépett 626/2020. sz. kormányrendelet 6. § (3) pontja szerint már nem szükséges az állami és önkormányzati, illetve a költségvetési támogatással készült webhelyek esetében egyedi szerződést kötni a Nemzeti Könyvtárral. Ennek köszönhetően a közeljövőben a publikus gyűjtemény további jelentős bővítése várható.

Hírportálok Instagram oldalai

A webkettes felületek archiválhatóságának tesztelése során az elmúlt héten 20 hazai és határon túli magyar híroldal Instagram posztjait mentettük le. Összesen 11.700 bejegyzést (fotót, képsorozatot és rövid videót) töltöttünk le 15,5 GB méretben, a legrégebbi 2013 júliusi.

Twitter archiválási tapasztalatok

Lezárult a Twitter csatornák archiválhatóságának tesztelése. Az elmúlt hónapban több mint ezer Twitter fiókot mentettünk le, ebből 594 esetben sikerült teljes egészében letölteni a tweet listát és az abba beágyazott videókat és képeket (utóbbiakat csak kis méretben).  A többinél csupán az utolsó kb. 750 tweetet lehetett visszagörgetni a rendszer korlátai miatt. A tapasztalatok szerint sok intézmény és közszereplő csak a Facebook és/vagy Instagram posztjainak linkjeit teszi ki a Twitterre, vagyis érdemi tartalom nincs a csatornájukon. A Twitter amúgy is kevéssé népszerű nálunk, a 2010-es években létrehozott fiókok elég nagy hányada már nem aktív. De azért vannak olyanok is, ahol naponta több, médiatartalommal kiegészített rövid szöveges bejegyzés jelenik meg, vagyis teljes értékű hírforrásként funkcionál a csatorna.