„Minet” változatai közötti eltérés
(Új oldal, tartalma: „A francia médialab Sciences Po munkacsoportjának 2019 óta fejlesztett parancssoros scraping és adatbányászati eszköze és Python könyvtára adatok és fájlok k…”) |
|||
(Egy közbenső módosítás ugyanattól a szerkesztőtől nincs mutatva) | |||
1. sor: | 1. sor: | ||
− | A francia |
+ | A francia Sciences Po Médialab munkacsoportjának 2019 óta fejlesztett parancssoros scraping és adatbányászati eszköze és Python könyvtára adatok és fájlok kinyerésére hagyományos weboldalakból, valamint közösségi média portálok (pl. Facebook, YouTube, TikTok, Twitter, Telegram, Wikipedia, ) és aggregátorok (CrowdTangle, Media Cloud, BuzzSumo) API-ján keresztül. Nem igényel komolyabb erőforrásokat, több szálon fut és megbízhatóan működik akár hónapokig. A webtartalom begyűjtése mellett vannak opciói metaadatok, strukturált adatok, szövegek és a linkek kinyerésére a HTML fájlokból, az átirányítások feloldására, a webszerverek által adott státuszkódok lekérdezésére, CSV fájlok egyesítésére az URL címet tartalmazó oszlop alapján, stb. |
---- |
---- |
||
5. sor: | 5. sor: | ||
* [https://github.com/medialab/minet A Minet a GitHub-on] |
* [https://github.com/medialab/minet A Minet a GitHub-on] |
||
* [https://zenodo.org/records/13254251 A Minet a Zenodo-n] |
* [https://zenodo.org/records/13254251 A Minet a Zenodo-n] |
||
+ | * [https://www.youtube.com/watch?v=BTvfWbAjh1w Guillaume Plique: Empowering social scientists with web mining tools] |
||
[[Category:SZOFTVEREK]] |
[[Category:SZOFTVEREK]] |
A lap jelenlegi, 2024. szeptember 1., 18:01-kori változata
A francia Sciences Po Médialab munkacsoportjának 2019 óta fejlesztett parancssoros scraping és adatbányászati eszköze és Python könyvtára adatok és fájlok kinyerésére hagyományos weboldalakból, valamint közösségi média portálok (pl. Facebook, YouTube, TikTok, Twitter, Telegram, Wikipedia, ) és aggregátorok (CrowdTangle, Media Cloud, BuzzSumo) API-ján keresztül. Nem igényel komolyabb erőforrásokat, több szálon fut és megbízhatóan működik akár hónapokig. A webtartalom begyűjtése mellett vannak opciói metaadatok, strukturált adatok, szövegek és a linkek kinyerésére a HTML fájlokból, az átirányítások feloldására, a webszerverek által adott státuszkódok lekérdezésére, CSV fájlok egyesítésére az URL címet tartalmazó oszlop alapján, stb.