Bixo

Innen: MIA

2009 és 2015 között, főként Arc és részben Java nyelven fejlesztett, Hadoop környezetben futó, adatbányász alkalmazásokhoz használható open source eszközkészlet. Egy "udvarias", de nagyon hatékony, a megtalált URL-eket kis csoportokra osztva egyszerre sok szálon arató crawler van hozzá, a begyűjtött tartalmat pedig az Apache Tika elemzi ki. Olyan cégek is használták, mint az EMI Music, zenei előadók népszerűségi adatainak kigyűjtésére a Facebook-ról.