meshWARC

Innen: MIA

Az egyiptomi BA Web Archive és az Alexandria University munkatársai által fejlesztett technológia az archivált weboldalak közötti szemantikus kapcsolatok megállapítására és vizualizálására. A kutatási cél mellett a webarchívumokban való keresés minőségét is javítani lehet vele, mivel az oldalakba ágyazott linkek nem minden esetben vezetnek további releváns weblapokra (pl. reklámok, 404-es hibaoldalak).

A folyamat a WARC-ban levő nem HTML formátumú és nem releváns tartalom eltávolításával kezdődik, majd az oldalak szövegét egy többnyelvű mondattranszformátor segítségével vektoros beágyazásokká alakítják, ezután pedig egy megadott küszöbértéket meghaladó hasonlósági mérőszám alapján gráfot építenek az egyes oldalpárok között. A gráfot tovább gazdagítják témamodellezéssel, ami az azonos témájú oldalakat klaszterekbe csoportosítja és minden klaszterhez egy megfelelő címet rendel.