我正在尝试使用Spark结构化流从卡夫卡主题读取XML数据。如何从Kafka读取XML格式的流数据?
我试过使用Databricks spark-xml
包,但是我收到一个错误消息,说这个包不支持流式阅读。有什么方法可以使用结构化流从Kafka主题中提取XML数据?
我当前的代码:
df = spark \
.readStream \
.format("kafka") \
.format('com.databricks.spark.xml') \
.options(rowTag="MainElement")\
.option("kafka.bootstrap.servers", "localhost:9092") \
.option(subscribeType, "test") \
.load()
错误:
py4j.protocol.Py4JJavaError: An error occurred while calling o33.load.
: java.lang.UnsupportedOperationException: Data source com.databricks.spark.xml does not support streamed reading
at org.apache.spark.sql.execution.datasources.DataSource.sourceSchema(DataSource.scala:234)
谢谢,亚采。我写了UDF来解析XML数据。它正在工作。我将很快发布该UDF。 –