2010YOUY01 commented on PR #14498: URL: https://github.com/apache/datafusion/pull/14498#issuecomment-2644818671
> My benchmark results show no change in Q22 (but also clearly the data is quite noisy ๐ค ) > > ``` > -------------------- > Benchmark tpch_sf1.json > -------------------- > โโโโโโโโโโโโโโโโณโโโโโโโโโโโโณโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโณโโโโโโโโโโโโโโโโ > โ Query โ main_base โ substr-always-output-utf8view โ Change โ > โกโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโฉ > โ QQuery 1 โ 220.66ms โ 217.19ms โ no change โ > โ QQuery 2 โ 120.04ms โ 118.99ms โ no change โ > โ QQuery 3 โ 117.00ms โ 133.73ms โ 1.14x slower โ > โ QQuery 4 โ 82.79ms โ 84.31ms โ no change โ > โ QQuery 5 โ 161.05ms โ 158.10ms โ no change โ > โ QQuery 6 โ 43.91ms โ 61.73ms โ 1.41x slower โ > โ QQuery 7 โ 196.49ms โ 208.38ms โ 1.06x slower โ > โ QQuery 8 โ 161.86ms โ 168.99ms โ no change โ > โ QQuery 9 โ 239.92ms โ 240.70ms โ no change โ > โ QQuery 10 โ 207.67ms โ 203.80ms โ no change โ > โ QQuery 11 โ 96.42ms โ 94.76ms โ no change โ > โ QQuery 12 โ 104.79ms โ 119.54ms โ 1.14x slower โ > โ QQuery 13 โ 203.66ms โ 208.01ms โ no change โ > โ QQuery 14 โ 71.92ms โ 70.81ms โ no change โ > โ QQuery 15 โ 118.13ms โ 130.72ms โ 1.11x slower โ > โ QQuery 16 โ 68.90ms โ 72.23ms โ no change โ > โ QQuery 17 โ 216.46ms โ 213.50ms โ no change โ > โ QQuery 18 โ 319.42ms โ 322.68ms โ no change โ > โ QQuery 19 โ 116.85ms โ 115.95ms โ no change โ > โ QQuery 20 โ 135.26ms โ 123.83ms โ +1.09x faster โ > โ QQuery 21 โ 279.46ms โ 275.56ms โ no change โ > โ QQuery 22 โ 68.17ms โ 67.74ms โ no change โ > โโโโโโโโโโโโโโโโดโโโโโโโโโโโโดโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโดโโโโโโโโโโโโโโโโ > ``` I believe this is expected to have no change: We already have `StringView -> substr() -> StringView` This PR just changed `StringArray -> substr() -> StringArray` to `StringArray -> substr() -> StringView` The benchmark runs on Parquet, which read to StringView by default. The TPCH test result changes due to this PR because it runs on CSV (.tbl). Allowing the CSV scanner to produce StringView seems like an optimization we could do -- This is an automated message from the Apache Git Service. To respond to the message, please log on to GitHub and use the URL above to go to the specific comment. To unsubscribe, e-mail: github-unsubscr...@datafusion.apache.org For queries about this service, please contact Infrastructure at: us...@infra.apache.org --------------------------------------------------------------------- To unsubscribe, e-mail: github-unsubscr...@datafusion.apache.org For additional commands, e-mail: github-h...@datafusion.apache.org