Spark 写入数据到doris异常

用spark写入到doris，由于服务器配置不高， sink.batch.size 设置过大时，超出服务器内存限制，doris be端直接闪崩。如果 sink.batch.size 设置过小，则出现写入次数太频繁无法写入。调整 write 的
sink.batch.size 参数大小，逐步增加 batchsize 大小，以达到更好的写入性能与内存占用的平衡。例如，可以逐渐将 batchsize 参数的值从 200 调整到 500，1000，2000，以找到最好的性能与内存占用平衡点。刚开始设置10000时服务器be端闪崩，后来设置200时又写到中途报错，最后找到2000这个平衡点。

def writeDoris(dataframe: DataFrame, dorisTable: String): Unit = {
dataframe.write.format(“doris”)
.option(“doris.table.identifier”, dorisTable)
.option(“doris.fenodes”, DORIS_HOST + “:” + DORIS_FE_HTTP_PORT)
.option(“user”, DORIS_USER)
.option(“password”, DORIS_PASSWORD)
.option(“sink.batch.size”, 2000)
.save()
}

关注公众号“大模型全栈程序员”回复“大数据面试”获取800页左右大数据面试宝典，回复“大数据”获取多本大数据电子书