Yahoo Webscope Program

Innen: MIA
A lap korábbi változatát látod, amilyen Admin (vitalap | szerkesztései) 2018. március 21., 16:24-kor történt szerkesztése után volt.
(eltér) ← Régebbi változat | Aktuális változat (eltér) | Újabb változat→ (eltér)

A Yahoo! internetes cég Yahoo Research nevű részlegének egyik programja, melynek keretében szöveg- és adatbányászatra, nyelvi elemzésre, gépi tanulásra stb. alkalmas nagyméretű (anonimizált) adathalmazokat állítanak össze és forgalmaznak tudományos célú, non-profit jellegű kutatásokhoz. A halmazok anyaga részben a Yahoo! saját szolgáltatásaiból származik, részben pedig egyéb webhelyekről lett begyűjtve.

Néhány példa:

  • Több mint egy millió RDF triplet, melyeket nyilvános weboldalak metaadataiból gyűjtöttek ki (2.3 gigabájtnyi WARC fájl)
  • Az angol nyelvű Wikipédia 2006. november 4-i állapota (XML-ben) utólagosan - automatizált módon - ellátva szemantikus tag-ekkel és multitag formátumba mentve (4 db. 1.3 és 1.8 Gbyte közötti fájl)
  • Nyilvános weboldalakból kigyűjtött 2.67 millió összetettebb szerkezetű űrlap (HTML form-ok) (összesen 50 Gbyte)
  • A Yahoo News, a Newsroom, a Tumblr és más online médiaplatformokról gyűjtött közel 49 ezer hír, fontosság szerint felcímkézve.