<?xml version="1.0"?>
<feed xmlns="http://www.w3.org/2005/Atom" xml:lang="hu">
	<id>https://webarchivum.oszk.hu/mediawiki/index.php?action=history&amp;feed=atom&amp;title=ArchiveSpark</id>
	<title>ArchiveSpark - Laptörténet</title>
	<link rel="self" type="application/atom+xml" href="https://webarchivum.oszk.hu/mediawiki/index.php?action=history&amp;feed=atom&amp;title=ArchiveSpark"/>
	<link rel="alternate" type="text/html" href="https://webarchivum.oszk.hu/mediawiki/index.php?title=ArchiveSpark&amp;action=history"/>
	<updated>2026-04-27T00:51:33Z</updated>
	<subtitle>Az oldal laptörténete a wikiben</subtitle>
	<generator>MediaWiki 1.31.16</generator>
	<entry>
		<id>https://webarchivum.oszk.hu/mediawiki/index.php?title=ArchiveSpark&amp;diff=616&amp;oldid=prev</id>
		<title>Admin: Új oldal, tartalma: „Java/Scala szoftver WARC fájloknak az Apache Spark nevű (a Hadoop MapReduce-nál lényegesen gyorsabb) párhuzamos működésű keretrendszeren való feldolgo…”</title>
		<link rel="alternate" type="text/html" href="https://webarchivum.oszk.hu/mediawiki/index.php?title=ArchiveSpark&amp;diff=616&amp;oldid=prev"/>
		<updated>2017-07-25T16:20:49Z</updated>

		<summary type="html">&lt;p&gt;Új oldal, tartalma: „Java/Scala szoftver &lt;a href=&quot;/mediawiki/index.php?title=WARC&quot; title=&quot;WARC&quot;&gt;WARC&lt;/a&gt; fájloknak az Apache Spark nevű (a &lt;a href=&quot;/mediawiki/index.php?title=Hadoop&quot; title=&quot;Hadoop&quot;&gt;Hadoop&lt;/a&gt; MapReduce-nál lényegesen gyorsabb) párhuzamos működésű keretrendszeren való feldolgo…”&lt;/p&gt;
&lt;p&gt;&lt;b&gt;Új lap&lt;/b&gt;&lt;/p&gt;&lt;div&gt;Java/Scala szoftver [[WARC]] fájloknak az Apache Spark nevű (a [[Hadoop]] MapReduce-nál lényegesen gyorsabb) párhuzamos működésű keretrendszeren való feldolgozásához, kielemzéséhez. A [[CDX]] indexfájlok alapján dönti el, hogy egy nagyobb [[WARC]] halmazból egyáltalán mit érdemes adatfeldolgozás céljából átadni a Spark rendszernek. (Egyik fejlesztője az [[Internet Archive]] programozója, aki az IA digitalizált könyvállományához is átdolgozta a szoftvert IABooksOnArchiveSpark néven.)&lt;br /&gt;
&lt;br /&gt;
----&lt;br /&gt;
&lt;br /&gt;
* [https://github.com/helgeho/ArchiveSpark A ArchiveSpark a GitHub-on]&lt;br /&gt;
* [http://l3s.de/%7Eholzmann/papers/archivespark2016jcdl.pdf Helge Holzmann - Vinay Goel - Avishek Anand: ArchiveSpark: Efficient Web Archive Access, Extraction and Derivation]&lt;br /&gt;
* [https://en.wikipedia.org/wiki/Apache_Spark Wikipedia: Apache Spark]&lt;br /&gt;
&lt;br /&gt;
[[Category:SZOFTVEREK]]&lt;/div&gt;</summary>
		<author><name>Admin</name></author>
		
	</entry>
</feed>