„MeshWARC” változatai közötti eltérés
(Új oldal, tartalma: „{{DISPLAYTITLE:meshWARC}} Az egyiptomi BA Web Archive és az Alexandria University munkatársai által fejlesztett technológia az archivált weboldalak közötti…”) |
|||
8. sor: | 8. sor: | ||
* [https://github.com/AmrSheta22/meshwarc A meshWARC a GitHub-on] |
* [https://github.com/AmrSheta22/meshwarc A meshWARC a GitHub-on] |
||
− | * [https://www. |
+ | * [https://www.youtube.com/watch?v=lrdqFguE2sc Amr Sheta - Mohab Yousry - Youssef Eldakar: MeshWARC: Exploring the Semantic Space of the Web Archive] |
[[Category:SZOFTVEREK]] |
[[Category:SZOFTVEREK]] |
A lap 2024. augusztus 28., 07:36-kori változata
Az egyiptomi BA Web Archive és az Alexandria University munkatársai által fejlesztett technológia az archivált weboldalak közötti szemantikus kapcsolatok megállapítására és vizualizálására. A kutatási cél mellett a webarchívumokban való keresés minőségét is javítani lehet vele, mivel az oldalakba ágyazott linkek nem minden esetben vezetnek további releváns weblapokra (pl. reklámok, 404-es hibaoldalak).
A folyamat a WARC-ban levő nem HTML formátumú és nem releváns tartalom eltávolításával kezdődik, majd az oldalak szövegét egy többnyelvű mondattranszformátor segítségével vektoros beágyazásokká alakítják, ezután pedig egy megadott küszöbértéket meghaladó hasonlósági mérőszám alapján gráfot építenek az egyes oldalpárok között. A gráfot tovább gazdagítják témamodellezéssel, ami az azonos témájú oldalakat klaszterekbe csoportosítja és minden klaszterhez egy megfelelő címet rendel.