„MeshWARC” változatai közötti eltérés
(Új oldal, tartalma: „{{DISPLAYTITLE:meshWARC}} Az egyiptomi BA Web Archive és az Alexandria University munkatársai által fejlesztett technológia az archivált weboldalak közötti…”) |
|||
(Egy közbenső módosítás ugyanattól a szerkesztőtől nincs mutatva) | |||
1. sor: | 1. sor: | ||
{{DISPLAYTITLE:meshWARC}} |
{{DISPLAYTITLE:meshWARC}} |
||
− | |||
Az egyiptomi [[BA Web Archive]] és az Alexandria University munkatársai által fejlesztett technológia az archivált weboldalak közötti szemantikus kapcsolatok megállapítására és vizualizálására. A kutatási cél mellett a webarchívumokban való keresés minőségét is javítani lehet vele, mivel az oldalakba ágyazott linkek nem minden esetben vezetnek további releváns weblapokra (pl. reklámok, 404-es hibaoldalak). |
Az egyiptomi [[BA Web Archive]] és az Alexandria University munkatársai által fejlesztett technológia az archivált weboldalak közötti szemantikus kapcsolatok megállapítására és vizualizálására. A kutatási cél mellett a webarchívumokban való keresés minőségét is javítani lehet vele, mivel az oldalakba ágyazott linkek nem minden esetben vezetnek további releváns weblapokra (pl. reklámok, 404-es hibaoldalak). |
||
8. sor: | 7. sor: | ||
* [https://github.com/AmrSheta22/meshwarc A meshWARC a GitHub-on] |
* [https://github.com/AmrSheta22/meshwarc A meshWARC a GitHub-on] |
||
− | * [https://www. |
+ | * [https://www.youtube.com/watch?v=lrdqFguE2sc Amr Sheta - Mohab Yousry - Youssef Eldakar: MeshWARC: Exploring the Semantic Space of the Web Archive] |
[[Category:SZOFTVEREK]] |
[[Category:SZOFTVEREK]] |
A lap jelenlegi, 2024. augusztus 28., 07:37-kori változata
Az egyiptomi BA Web Archive és az Alexandria University munkatársai által fejlesztett technológia az archivált weboldalak közötti szemantikus kapcsolatok megállapítására és vizualizálására. A kutatási cél mellett a webarchívumokban való keresés minőségét is javítani lehet vele, mivel az oldalakba ágyazott linkek nem minden esetben vezetnek további releváns weblapokra (pl. reklámok, 404-es hibaoldalak).
A folyamat a WARC-ban levő nem HTML formátumú és nem releváns tartalom eltávolításával kezdődik, majd az oldalak szövegét egy többnyelvű mondattranszformátor segítségével vektoros beágyazásokká alakítják, ezután pedig egy megadott küszöbértéket meghaladó hasonlósági mérőszám alapján gráfot építenek az egyes oldalpárok között. A gráfot tovább gazdagítják témamodellezéssel, ami az azonos témájú oldalakat klaszterekbe csoportosítja és minden klaszterhez egy megfelelő címet rendel.