[sql] How to uniquely identify Dataframe?

Peter Rudenko Mon, 30 Mar 2015 05:03:42 -0700

Hi i have some custom caching logic in my application. I need toidentify somehow Dataframe, to check whether i saw it previously. Here’sa problem:

|scala> val data = sc.parallelize(1 to 1000) data:org.apache.spark.rdd.RDD[Int] = ParallelCollectionRDD[0] at parallelizeat <console>:21 scala> data.id res0: Int = 0 scala> data.id res1: Int =0 scala> val dataDF = data.toDF dataDF: org.apache.spark.sql.DataFrame =[_1: int] scala> dataDF.rdd.id res3: Int = 2 scala> dataDF.rdd.id res4:Int = 3 |

For some reason it generates a new ID on each call. With schemaRDD i wasable to call SchemaRDD.id.


Thanks,
Peter Rudenko

[sql] How to uniquely identify Dataframe?

Reply via email to