Yahoo Webscope Program

Innen: MIA

A Yahoo! internetes cég Yahoo Research nevű részlegének egyik programja, melynek keretében szöveg- és adatbányászatra, nyelvi elemzésre, gépi tanulásra stb. alkalmas nagyméretű (anonimizált) adathalmazokat állítanak össze és forgalmaznak tudományos célú, non-profit jellegű kutatásokhoz. A halmazok anyaga részben a Yahoo! saját szolgáltatásaiból származik, részben pedig egyéb webhelyekről lett begyűjtve.

Néhány példa:

  • Több mint egy millió RDF triplet, melyeket nyilvános weboldalak metaadataiból gyűjtöttek ki (2.3 gigabájtnyi WARC fájl)
  • Az angol nyelvű Wikipédia 2006. november 4-i állapota (XML-ben) utólagosan - automatizált módon - ellátva szemantikus tag-ekkel és multitag formátumba mentve (4 db. 1.3 és 1.8 Gbyte közötti fájl)
  • Nyilvános weboldalakból kigyűjtött 2.67 millió összetettebb szerkezetű űrlap (HTML form-ok) (összesen 50 Gbyte)
  • A Yahoo News, a Newsroom, a Tumblr és más online médiaplatformokról gyűjtött közel 49 ezer hír, fontosság szerint felcímkézve.