2016-03-05 38 views
3

在我的研究项目中,我需要从维基百科转储中提取平行文档。换句话说,我已经下载了英文和意大利维基百科的转储文件。现在,我想解析它们和英文转储中的每篇文章,在意大利转储中找到它的翻译(应该由中介语链接完成),并将它们存储在同一个文件中,以便后续进行一些跨语言文本处理。从维基百科转储提取并行文本

我搜索了一点点,但我找不到任何代码用于此目的。但是,由于我看过很多作者都做过的论文,所以在从头开始发明轮子之前,我认为可能首先要问。

任何想法是赞赏。

谢谢。

回答