Re: [PR] refactor: Update ParquetWriteSupport for Rows to match Avro writer behavior [hudi]

via GitHub Sat, 13 Sep 2025 10:39:39 -0700


yihua commented on code in PR #13882:
URL: https://github.com/apache/hudi/pull/13882#discussion_r2346862242



##########
hudi-client/hudi-spark-client/src/main/java/org/apache/hudi/io/storage/row/HoodieRowParquetWriteSupport.java:
##########
@@ -73,6 +189,180 @@ public void add(UTF8String recordKey) {
         bloomFilterWriteSupport.addKey(recordKey));
   }
 
+  @FunctionalInterface
+  private interface ValueWriter {
+    void write(SpecializedGetters row, int ordinal);
+  }
+
+  private void consumeMessage(Runnable writer) {
+    recordConsumer.startMessage();
+    writer.run();
+    recordConsumer.endMessage();
+  }
+
+  private void consumeGroup(Runnable writer) {
+    recordConsumer.startGroup();
+    writer.run();
+    recordConsumer.endGroup();
+  }
+
+  private void consumeField(String field, int index, Runnable writer) {
+    recordConsumer.startField(field, index);
+    writer.run();
+    recordConsumer.endField(field, index);
+  }
+
+  private void writeFields(InternalRow row, StructType schema, ValueWriter[] 
fieldWriters) {
+    for (int i = 0; i < row.numFields(); i++) {
+      int index = i;
+      if (!row.isNullAt(i)) {
+        StructField field = schema.fields()[i];
+        consumeField(field.name(), index, () -> fieldWriters[index].write(row, 
index));
+      }

Review Comment:
   nit: reminder to remove `index`; `field = schema.fields()[i]` can also be 
inlined on L220



##########
hudi-client/hudi-spark-client/src/main/java/org/apache/hudi/io/storage/row/HoodieRowParquetWriteSupport.java:
##########
@@ -73,6 +189,180 @@ public void add(UTF8String recordKey) {
         bloomFilterWriteSupport.addKey(recordKey));
   }
 
+  @FunctionalInterface
+  private interface ValueWriter {
+    void write(SpecializedGetters row, int ordinal);
+  }
+
+  private void consumeMessage(Runnable writer) {
+    recordConsumer.startMessage();
+    writer.run();
+    recordConsumer.endMessage();
+  }
+
+  private void consumeGroup(Runnable writer) {
+    recordConsumer.startGroup();
+    writer.run();
+    recordConsumer.endGroup();
+  }
+
+  private void consumeField(String field, int index, Runnable writer) {
+    recordConsumer.startField(field, index);
+    writer.run();
+    recordConsumer.endField(field, index);
+  }
+
+  private void writeFields(InternalRow row, StructType schema, ValueWriter[] 
fieldWriters) {
+    for (int i = 0; i < row.numFields(); i++) {
+      int index = i;
+      if (!row.isNullAt(i)) {
+        StructField field = schema.fields()[i];
+        consumeField(field.name(), index, () -> fieldWriters[index].write(row, 
index));
+      }
+    }
+  }
+
+  private ValueWriter makeWriter(Schema avroSchema, DataType dataType) {
+    Schema resolvedSchema = avroSchema == null ? null : 
resolveNullableSchema(avroSchema);
+    LogicalType logicalType = resolvedSchema != null ? 
resolvedSchema.getLogicalType() : null;
+
+    if (dataType == DataTypes.BooleanType) {
+      return (row, ordinal) -> 
recordConsumer.addBoolean(row.getBoolean(ordinal));
+    } else if (dataType == DataTypes.DateType) {
+      return (row, ordinal) -> recordConsumer.addInteger((Integer) 
dateRebaseFunction.apply(row.getInt(ordinal)));
+    } else if (dataType == DataTypes.ShortType) {
+      return (row, ordinal) -> 
recordConsumer.addInteger(row.getShort(ordinal));
+    } else if (dataType == DataTypes.IntegerType) {

Review Comment:
   I see `ParquetWriteSupport` also handles `YearMonthIntervalType` for 
integers.  Not sure if this class need to do that.



##########
hudi-client/hudi-spark-client/src/main/java/org/apache/hudi/io/storage/row/HoodieRowParquetWriteSupport.java:
##########
@@ -73,6 +189,180 @@ public void add(UTF8String recordKey) {
         bloomFilterWriteSupport.addKey(recordKey));
   }
 
+  @FunctionalInterface
+  private interface ValueWriter {
+    void write(SpecializedGetters row, int ordinal);
+  }
+
+  private void consumeMessage(Runnable writer) {
+    recordConsumer.startMessage();
+    writer.run();
+    recordConsumer.endMessage();
+  }
+
+  private void consumeGroup(Runnable writer) {
+    recordConsumer.startGroup();
+    writer.run();
+    recordConsumer.endGroup();
+  }
+
+  private void consumeField(String field, int index, Runnable writer) {
+    recordConsumer.startField(field, index);
+    writer.run();
+    recordConsumer.endField(field, index);
+  }
+
+  private void writeFields(InternalRow row, StructType schema, ValueWriter[] 
fieldWriters) {
+    for (int i = 0; i < row.numFields(); i++) {
+      int index = i;
+      if (!row.isNullAt(i)) {
+        StructField field = schema.fields()[i];
+        consumeField(field.name(), index, () -> fieldWriters[index].write(row, 
index));
+      }
+    }
+  }
+
+  private ValueWriter makeWriter(Schema avroSchema, DataType dataType) {
+    Schema resolvedSchema = avroSchema == null ? null : 
resolveNullableSchema(avroSchema);
+    LogicalType logicalType = resolvedSchema != null ? 
resolvedSchema.getLogicalType() : null;
+
+    if (dataType == DataTypes.BooleanType) {
+      return (row, ordinal) -> 
recordConsumer.addBoolean(row.getBoolean(ordinal));
+    } else if (dataType == DataTypes.DateType) {
+      return (row, ordinal) -> recordConsumer.addInteger((Integer) 
dateRebaseFunction.apply(row.getInt(ordinal)));
+    } else if (dataType == DataTypes.ShortType) {
+      return (row, ordinal) -> 
recordConsumer.addInteger(row.getShort(ordinal));
+    } else if (dataType == DataTypes.IntegerType) {
+      return (row, ordinal) -> recordConsumer.addInteger(row.getInt(ordinal));
+    } else if (dataType == DataTypes.LongType) {
+      return (row, ordinal) -> recordConsumer.addLong(row.getLong(ordinal));

Review Comment:
   Similarly, `DayTimeIntervalType` is handled by `ParquetWriteSupport`.  We 
can intentionally skip it if not supported.



-- 
This is an automated message from the Apache Git Service.
To respond to the message, please log on to GitHub and use the
URL above to go to the specific comment.

To unsubscribe, e-mail: [email protected]

For queries about this service, please contact Infrastructure at:
[email protected]

Re: [PR] refactor: Update ParquetWriteSupport for Rows to match Avro writer behavior [hudi]

Reply via email to