[Ml][Dataframe] Ml pipeline & dataframe repartitioning

Peter Rudenko Fri, 24 Apr 2015 08:21:37 -0700

Hi i have a next problem. I have a dataset with 30 columns (15 numeric,15 categorical) and using ml transformers/estimators to transform eachcolumn (StringIndexer for categorical & MeanImputor for numeric). Thiscreates 30 more columns in a dataframe. After i’m using VectorAssemblerto combine 30 transformed columns into 1 vector.After when i do df.select(“vector, Label”).saveAsParquetFile it failswith OOM error.

|15/04/24 16:33:05 ERROR Executor: Exception in task 2.0 in stage 52.0(TID 2238) 15/04/24 16:33:05 DEBUG LocalActor: [actor] received messageStatusUpdate(2238,FAILED,java.nio.HeapByteBuffer[pos=0 lim=4167cap=4167]) from Actor[akka://sparkDriver/deadLetters] 15/04/24 16:33:05ERROR SparkUncaughtExceptionHandler: Uncaught exception in threadThread[Executor task launch worker-1,5,main] java.lang.OutOfMemoryError:Java heap space atjava.io.ObjectInputStream$HandleTable.grow(ObjectInputStream.java:3468)atjava.io.ObjectInputStream$HandleTable.assign(ObjectInputStream.java:3275) atjava.io.ObjectInputStream.readOrdinaryObject(ObjectInputStream.java:1792) atjava.io.ObjectInputStream.readObject0(ObjectInputStream.java:1351) atjava.io.ObjectInputStream.readObject(ObjectInputStream.java:371) atscala.collection.mutable.HashMap$$anonfun$readObject$1.apply(HashMap.scala:142)atscala.collection.mutable.HashMap$$anonfun$readObject$1.apply(HashMap.scala:142)at scala.collection.mutable.HashTable$class.init(HashTable.scala:105) atscala.collection.mutable.HashMap.init(HashMap.scala:39) atscala.collection.mutable.HashMap.readObject(HashMap.scala:142) atsun.reflect.GeneratedMethodAccessor15.invoke(Unknown Source) atsun.reflect.DelegatingMethodAccessorImpl.invoke(DelegatingMethodAccessorImpl.java:43)at java.lang.reflect.Method.invoke(Method.java:497) atjava.io.ObjectStreamClass.invokeReadObject(ObjectStreamClass.java:1017)at java.io.ObjectInputStream.readSerialData(ObjectInputStream.java:1896)atjava.io.ObjectInputStream.readOrdinaryObject(ObjectInputStream.java:1801) atjava.io.ObjectInputStream.readObject0(ObjectInputStream.java:1351) atjava.io.ObjectInputStream.defaultReadFields(ObjectInputStream.java:1993)at java.io.ObjectInputStream.readSerialData(ObjectInputStream.java:1918)atjava.io.ObjectInputStream.readOrdinaryObject(ObjectInputStream.java:1801) atjava.io.ObjectInputStream.readObject0(ObjectInputStream.java:1351) atjava.io.ObjectInputStream.defaultReadFields(ObjectInputStream.java:1993)at java.io.ObjectInputStream.readSerialData(ObjectInputStream.java:1918)atjava.io.ObjectInputStream.readOrdinaryObject(ObjectInputStream.java:1801) atjava.io.ObjectInputStream.readObject0(ObjectInputStream.java:1351) atjava.io.ObjectInputStream.defaultReadFields(ObjectInputStream.java:1993)at java.io.ObjectInputStream.readSerialData(ObjectInputStream.java:1918)atjava.io.ObjectInputStream.readOrdinaryObject(ObjectInputStream.java:1801) atjava.io.ObjectInputStream.readObject0(ObjectInputStream.java:1351) atjava.io.ObjectInputStream.defaultReadFields(ObjectInputStream.java:1993)at java.io.ObjectInputStream.readSerialData(ObjectInputStream.java:1918)atjava.io.ObjectInputStream.readOrdinaryObject(ObjectInputStream.java:1801) 15/04/2416:33:05 DEBUG TaskSchedulerImpl: parentName: , name: TaskSet_52,runningTasks: 3 15/04/24 16:33:05 DEBUG Utils: Shutdown hook called15/04/24 16:33:05 DEBUG DiskBlockManager: Shutdown hook called 15/04/2416:33:05 DEBUG TaskSetManager: Moving to NODE_LOCAL after waiting for3000ms 15/04/24 16:33:05 DEBUG TaskSetManager: Moving to ANY afterwaiting for 0ms 15/04/24 16:33:05 INFO TaskSetManager: Starting task 4.0in stage 52.0 (TID 2240, localhost, PROCESS_LOCAL, 1979 bytes) 15/04/2416:33:05 DEBUG LocalActor: [actor] handled message (12.488047 ms)StatusUpdate(2238,FAILED,java.nio.HeapByteBuffer[pos=4167 lim=4167cap=4167]) from Actor[akka://sparkDriver/deadLetters] 15/04/24 16:33:05INFO Executor: Running task 4.0 in stage 52.0 (TID 2240) 15/04/2416:33:05 DEBUG LocalActor: [actor] received messageStatusUpdate(2240,RUNNING,java.nio.HeapByteBuffer[pos=0 lim=0 cap=0])from Actor[akka://sparkDriver/deadLetters] 15/04/24 16:33:05 DEBUGExecutor: Task 2240's epoch is 13 15/04/24 16:33:05 DEBUG BlockManager:Getting local block broadcast_53 ... 15/04/24 16:33:05 DEBUGBlockManager: Level for block broadcast_53 is StorageLevel(true, true,false, true, 1) 15/04/24 16:33:05 DEBUG BlockManager: Getting blockbroadcast_53 from memory 15/04/24 16:33:05 ERROR TaskSetManager: Task 2in stage 52.0 failed 1 times; aborting job 15/04/24 16:33:05 DEBUGLocalActor: [actor] handled message (7.195529 ms)StatusUpdate(2240,RUNNING,java.nio.HeapByteBuffer[pos=0 lim=0 cap=0])from Actor[akka://sparkDriver/deadLetters] 15/04/24 16:33:05 INFOTaskSchedulerImpl: Cancelling stage 52 |


If i after last step manually repartition data i get GC overhead error:

|java.lang.OutOfMemoryError: GC overhead limit exceeded 15/04/24 18:04:55ERROR Executor: Exception in task 1.0 in stage 52.0 (TID 2237)java.lang.OutOfMemoryError: GC overhead limit exceeded atscala.collection.mutable.HashMap.createNewEntry(HashMap.scala:131) atscala.collection.mutable.HashMap$$anonfun$readObject$1.apply(HashMap.scala:142)atscala.collection.mutable.HashMap$$anonfun$readObject$1.apply(HashMap.scala:142)at scala.collection.mutable.HashTable$class.init(HashTable.scala:105) atscala.collection.mutable.HashMap.init(HashMap.scala:39) atscala.collection.mutable.HashMap.readObject(HashMap.scala:142) atsun.reflect.GeneratedMethodAccessor17.invoke(Unknown Source) atsun.reflect.DelegatingMethodAccessorImpl.invoke(DelegatingMethodAccessorImpl.java:43)at java.lang.reflect.Method.invoke(Method.java:497) atjava.io.ObjectStreamClass.invokeReadObject(ObjectStreamClass.java:1017)at java.io.ObjectInputStream.readSerialData(ObjectInputStream.java:1896)atjava.io.ObjectInputStream.readOrdinaryObject(ObjectInputStream.java:1801) atjava.io.ObjectInputStream.readObject0(ObjectInputStream.java:1351) atjava.io.ObjectInputStream.defaultReadFields(ObjectInputStream.java:1993)at java.io.ObjectInputStream.readSerialData(ObjectInputStream.java:1918)atjava.io.ObjectInputStream.readOrdinaryObject(ObjectInputStream.java:1801) atjava.io.ObjectInputStream.readObject0(ObjectInputStream.java:1351) atjava.io.ObjectInputStream.defaultReadFields(ObjectInputStream.java:1993)at java.io.ObjectInputStream.readSerialData(ObjectInputStream.java:1918)atjava.io.ObjectInputStream.readOrdinaryObject(ObjectInputStream.java:1801) atjava.io.ObjectInputStream.readObject0(ObjectInputStream.java:1351) atjava.io.ObjectInputStream.defaultReadFields(ObjectInputStream.java:1993)at java.io.ObjectInputStream.readSerialData(ObjectInputStream.java:1918)atjava.io.ObjectInputStream.readOrdinaryObject(ObjectInputStream.java:1801) atjava.io.ObjectInputStream.readObject0(ObjectInputStream.java:1351) atjava.io.ObjectInputStream.defaultReadFields(ObjectInputStream.java:1993)at java.io.ObjectInputStream.readSerialData(ObjectInputStream.java:1918)atjava.io.ObjectInputStream.readOrdinaryObject(ObjectInputStream.java:1801) atjava.io.ObjectInputStream.readObject0(ObjectInputStream.java:1351) atjava.io.ObjectInputStream.readArray(ObjectInputStream.java:1707) atjava.io.ObjectInputStream.readObject0(ObjectInputStream.java:1345) atjava.io.ObjectInputStream.defaultReadFields(ObjectInputStream.java:1993)15/04/24 18:04:55 INFO ActorSystemImpl: starting new LARS thread15/04/24 18:04:55 ERROR ActorSystemImpl: Uncaught fatal error fromthread [sparkDriver-scheduler-1] shutting down ActorSystem [sparkDriver]java.lang.OutOfMemoryError: GC overhead limit exceeded atakka.dispatch.AbstractNodeQueue.<init>(AbstractNodeQueue.java:22) atakka.actor.LightArrayRevolverScheduler$TaskQueue.<init>(Scheduler.scala:443)atakka.actor.LightArrayRevolverScheduler$$anon$8.nextTick(Scheduler.scala:409)atakka.actor.LightArrayRevolverScheduler$$anon$8.run(Scheduler.scala:375)at java.lang.Thread.run(Thread.java:745) |

It’s done with 4GB RAM on 2GB file in local context with 4 treads,(label and vector columns serialized to parquet is about 500 mb).I’ve tried to increase default parallelism, but my transformations arelinear: take a column and produce another column. What’s the bestpractice to handle partitions in dataframes with a lots of columns?Should i repartition manually after adding columns? What’s better &faster: Applying 30 transformers for each numeric column or combinethese columns to 1 vector column and apply 1 transformer?


Thanks,
Peter Rudenko

[Ml][Dataframe] Ml pipeline & dataframe repartitioning

Reply via email to