4
有没有类似于Mahout's XmlInputFormat但是对于Flink?Apache Flink的XmlInputFormat
我有一个很大的XML文件,我想提取特定的元素。在我的情况下,这是一个维基百科转储,我需要得到所有<page>
标签。
I.e.如果我有一个文件
<mediawiki>
<siteinfo>...</siteinfo>
<page>...</page>
<page>...</page>
<page>...</page>
</mediawiki>
我想获得的所有3条记录<page>...</page>
在映射器中使用。理想情况下,它应该是有效的XML,xpath查询/mediawiki/page
将返回。