Sentry

Innen: MIA

A Data Together projekt webapp nevű applikációjához 2017-2018-ban Go nyelven írt web crawler, ami önállóan is használható. Az URL-eknek, a webszerverektől kapott válaszok header-jének és az aratási paramétereknek a tárolására egy Postgres adatbázist használ, magukat a letöltött weboldalakat pedig - egy hash érték generálása után - az Amazon felhőjébe tölti fel. Az ismétlő mentések gyakorisága paraméterezhető és a hash alapján észlelhetők az esetleges változtatások. Az adatállománynak kinéző URL címeket (pl. a .csv kiterjesztésre végződőket) automatikusan felismeri és külön szálon archiválja. A tervek közt szerepel, hogy az Amazon S3 felhője mellett az elosztott, InterPlanetary File System nevű rendszerben is tárolható legyen a learatott tartalom, illetve hogy ne csak a Postgres adatbázison keresztül lehessen újabb oldalakat hozzáadni a figyelt URL-ek listájához.