„MeshWARC” változatai közötti eltérés

Innen: MIA
 
1. sor: 1. sor:
 
{{DISPLAYTITLE:meshWARC}}
 
{{DISPLAYTITLE:meshWARC}}
 
 
Az egyiptomi [[BA Web Archive]] és az Alexandria University munkatársai által fejlesztett technológia az archivált weboldalak közötti szemantikus kapcsolatok megállapítására és vizualizálására. A kutatási cél mellett a webarchívumokban való keresés minőségét is javítani lehet vele, mivel az oldalakba ágyazott linkek nem minden esetben vezetnek további releváns weblapokra (pl. reklámok, 404-es hibaoldalak).
 
Az egyiptomi [[BA Web Archive]] és az Alexandria University munkatársai által fejlesztett technológia az archivált weboldalak közötti szemantikus kapcsolatok megállapítására és vizualizálására. A kutatási cél mellett a webarchívumokban való keresés minőségét is javítani lehet vele, mivel az oldalakba ágyazott linkek nem minden esetben vezetnek további releváns weblapokra (pl. reklámok, 404-es hibaoldalak).
   

A lap jelenlegi, 2024. augusztus 28., 08:37-kori változata

Az egyiptomi BA Web Archive és az Alexandria University munkatársai által fejlesztett technológia az archivált weboldalak közötti szemantikus kapcsolatok megállapítására és vizualizálására. A kutatási cél mellett a webarchívumokban való keresés minőségét is javítani lehet vele, mivel az oldalakba ágyazott linkek nem minden esetben vezetnek további releváns weblapokra (pl. reklámok, 404-es hibaoldalak).

A folyamat a WARC-ban levő nem HTML formátumú és nem releváns tartalom eltávolításával kezdődik, majd az oldalak szövegét egy többnyelvű mondattranszformátor segítségével vektoros beágyazásokká alakítják, ezután pedig egy megadott küszöbértéket meghaladó hasonlósági mérőszám alapján gráfot építenek az egyes oldalpárok között. A gráfot tovább gazdagítják témamodellezéssel, ami az azonos témájú oldalakat klaszterekbe csoportosítja és minden klaszterhez egy megfelelő címet rendel.