Re: Cassandra (1.2.5) + Pig (0.11.1) Errors with large column families

Arthur Zubarev Sat, 08 Jun 2013 19:16:20 -0700

On 06/07/2013 06:02 PM, Mark Lewandowski wrote:

I'm currently trying to get Cassandra (1.2.5) and Pig (0.11.1) to playnice together. I'm running a basic script:
rows = LOAD 'cassandra://keyspace/colfam' USING CassandraStorage();
dump rows;
This fails for my column family which has ~100,000 rows. However, ifI modify the script to this:
rows = LOAD 'cassandra://betable_games/bets' USING CassandraStorage();
rows = limit rows 7000;
dump rows;
Then it seems to work. 7000 is about as high as I've been able to getit before it fails. The error I keep getting is:
2013-06-07 14:58:49,119 [Thread-4] WARNorg.apache.hadoop.mapred.LocalJobRunner - job_local_0001java.lang.RuntimeException: org.apache.thrift.TException: Messagelength exceeded: 4480atorg.apache.cassandra.hadoop.ColumnFamilyRecordReader$StaticRowIterator.maybeInit(ColumnFamilyRecordReader.java:384)atorg.apache.cassandra.hadoop.ColumnFamilyRecordReader$StaticRowIterator.computeNext(ColumnFamilyRecordReader.java:390)atorg.apache.cassandra.hadoop.ColumnFamilyRecordReader$StaticRowIterator.computeNext(ColumnFamilyRecordReader.java:313)atcom.google.common.collect.AbstractIterator.tryToComputeNext(AbstractIterator.java:143)atcom.google.common.collect.AbstractIterator.hasNext(AbstractIterator.java:138)atorg.apache.cassandra.hadoop.ColumnFamilyRecordReader.getProgress(ColumnFamilyRecordReader.java:103)atorg.apache.pig.backend.hadoop.executionengine.mapReduceLayer.PigRecordReader.getProgress(PigRecordReader.java:169)atorg.apache.hadoop.mapred.MapTask$NewTrackingRecordReader.getProgress(MapTask.java:514)atorg.apache.hadoop.mapred.MapTask$NewTrackingRecordReader.nextKeyValue(MapTask.java:539)
at org.apache.hadoop.mapreduce.MapContext.nextKeyValue(MapContext.java:67)
at org.apache.hadoop.mapreduce.Mapper.run(Mapper.java:143)
at org.apache.hadoop.mapred.MapTask.runNewMapper(MapTask.java:764)
at org.apache.hadoop.mapred.MapTask.run(MapTask.java:370)
atorg.apache.hadoop.mapred.LocalJobRunner$Job.run(LocalJobRunner.java:214)
Caused by: org.apache.thrift.TException: Message length exceeded: 4480
atorg.apache.thrift.protocol.TBinaryProtocol.checkReadLength(TBinaryProtocol.java:393)atorg.apache.thrift.protocol.TBinaryProtocol.readBinary(TBinaryProtocol.java:363)
at org.apache.cassandra.thrift.Column.read(Column.java:535)
atorg.apache.cassandra.thrift.ColumnOrSuperColumn.read(ColumnOrSuperColumn.java:507)
at org.apache.cassandra.thrift.KeySlice.read(KeySlice.java:408)
atorg.apache.cassandra.thrift.Cassandra$get_range_slices_result.read(Cassandra.java:12905)
at org.apache.thrift.TServiceClient.receiveBase(TServiceClient.java:78)
atorg.apache.cassandra.thrift.Cassandra$Client.recv_get_range_slices(Cassandra.java:734)atorg.apache.cassandra.thrift.Cassandra$Client.get_range_slices(Cassandra.java:718)atorg.apache.cassandra.hadoop.ColumnFamilyRecordReader$StaticRowIterator.maybeInit(ColumnFamilyRecordReader.java:346)
... 13 more
I've seen a similar problem on this mailing list usingCassandra-1.2.3, however the fixes on that thread of increasingthrift_framed_transport_size_in_mb, thrift_max_message_length_in_mb incassandra.yaml did not appear to have any effect. Has anyone elseseen this issue, and how can I fix it?
Thanks,

-Mark

Mark,

Reading your email made me wonder if your CF needs the compact storagedirective applied as in the post about the Bulk Loader, in short,defining your CF


WITH COMPACT STORAGE

and compaction = {'class' : 'LeveledCompactionStrategy' }


Hopefully enables you to read the data in full.

--

Regards,

Arthur

Re: Cassandra (1.2.5) + Pig (0.11.1) Errors with large column families

Reply via email to