apache-flink

    7热度

    1回答

    我有一个使用bzip2压缩的wikipedia转储(从http://dumps.wikimedia.org/enwiki/下载),但我不想解压缩它:我想在进行解压缩的同时处理它。 我知道可以用普通的Java来完成它(例如见Java - Read BZ2 file and uncompress/parse on the fly),但是我想知道它在Apache Flink中是如何做到的?我可能需要的是

    4热度

    1回答

    有没有类似于Mahout's XmlInputFormat但是对于Flink? 我有一个很大的XML文件,我想提取特定的元素。在我的情况下,这是一个维基百科转储,我需要得到所有<page>标签。 I.e.如果我有一个文件 <mediawiki> <siteinfo>...</siteinfo> <page>...</page> <page>...</page>