Problem with File Streams

Leonidas Fegaras Fri, 16 Jan 2015 14:57:06 -0800

Dear Spark users,

I have a problem using File Streams in Java on Spark 1.2.0. I canprocess hadoop files in local mode using:


spark_context.newAPIHadoopFile(path,F.class,K.class,V.class,conf)

where F extendsorg.apache.hadoop.mapreduce.lib.input.FileInputFormat<K,V>. But when Itry to to do the same thing in Spark Streaming using:


stream_context.<K,V,F>fileStream(directory)
.foreachRDD(new Function<JavaPairRDD<K,V>,Void>() {

public Void call ( JavaPairRDD<K,V> rdd ) throwsException {

                       ...
                    }
                });

and when I drop a new text file in the directory I get the following error:

15/01/16 16:29:43 ERROR scheduler.JobScheduler: Error generating jobsfor time 1421447383000 msjava.lang.ClassCastException: java.lang.Object cannot be cast toorg.apache.hadoop.mapreduce.InputFormatatorg.apache.spark.rdd.NewHadoopRDD.getPartitions(NewHadoopRDD.scala:91)

    at org.apache.spark.rdd.RDD$$anonfun$partitions$2.apply(RDD.scala:205)
    at org.apache.spark.rdd.RDD$$anonfun$partitions$2.apply(RDD.scala:203)
    at scala.Option.getOrElse(Option.scala:120)
    at org.apache.spark.rdd.RDD.partitions(RDD.scala:203)

atorg.apache.spark.streaming.dstream.FileInputDStream$$anonfun$3.apply(FileInputDStream.scala:236)atorg.apache.spark.streaming.dstream.FileInputDStream$$anonfun$3.apply(FileInputDStream.scala:234)atscala.collection.TraversableLike$$anonfun$map$1.apply(TraversableLike.scala:244)atscala.collection.TraversableLike$$anonfun$map$1.apply(TraversableLike.scala:244)atscala.collection.IndexedSeqOptimized$class.foreach(IndexedSeqOptimized.scala:33)

    at scala.collection.mutable.WrappedArray.foreach(WrappedArray.scala:34)

atscala.collection.TraversableLike$class.map(TraversableLike.scala:244)

    at scala.collection.AbstractTraversable.map(Traversable.scala:105)

atorg.apache.spark.streaming.dstream.FileInputDStream.org$apache$spark$streaming$dstream$FileInputDStream$$filesToRDD(FileInputDStream.scala:234)atorg.apache.spark.streaming.dstream.FileInputDStream.compute(FileInputDStream.scala:128)atorg.apache.spark.streaming.dstream.DStream$$anonfun$getOrCompute$1.apply(DStream.scala:296)atorg.apache.spark.streaming.dstream.DStream$$anonfun$getOrCompute$1.apply(DStream.scala:288)

    at scala.Option.orElse(Option.scala:257)

Same error when I process hadoop sequence files. I am sure my inputformat F extends org.apache.hadoop.mapreduce.InputFormat. Any ideas?

Thank you
Leonidas Fegaras

Problem with File Streams

Reply via email to