目前我正在做一些实验,这使得利用维基百科的文章。 维基百科转储文件约为30GB。有工具可用(最好是PHP)或一些脚本,可以将这个整个大文件分成块(每个文章一个xml文件)?分裂维基百科转储文件分成几个XML文件
0
A
回答
1
这里有一个文章:Building a (fast) Wikipedia offline reader描述相似
东西它可以不依赖于PHP就像你喜欢,而是讨论转储文件分成可管理的部分。
0
我建议你使用优秀XMLReader,它允许您阅读节点的XML文件的节点,而不是整个文件加载到内存第一。
您仍然可以浏览与DOM或SimpleXML的节点后!
相关问题
- 1. 维基百科转储文件
- 2. 处理维基百科转储文件
- 3. 分裂的JavaScript分成几个文件
- 4. 解析维基百科转储(.xml文件)
- 5. 从维基百科XML转储中获取静态HTML文件
- 6. 在MySQL中导入非英文维基百科XML转储?
- 7. 从维基百科获取文章XML转储 - 通过标题
- 8. 从维基百科转储文件中继承BLOB值
- 9. 从维基百科数据库转储生成纯文本
- 10. 分裂大文件分成小文件
- 11. 从维基百科下载pdf文件
- 12. 分裂XSD计划分成几个文件
- 13. 正确的语法分裂大的MP3文件分成几个
- 14. 分裂NMAP XML文件
- 15. 如何检测维基百科页面中的部分转储
- 16. 如何分解和分析特定维基百科文本
- 17. 使用python转换维基百科转储为文本-m gensim.scripts.make_wiki
- 18. 将维基百科转储解析为保存结构(部分)的纯文本
- 19. 解析XML维基百科
- 20. 多数据转储维基百科
- 21. Lucene的维基百科转储
- 22. 解析维基百科转储
- 23. 使用大* .bz2(维基百科转储)
- 24. 导入维基百科转储到MySql
- 25. 分裂大文件成更小的文件:关于“分裂”
- 26. 分裂JSON文件转换成每个文件
- 27. 简单的维基百科文本到纯文本分析器?
- 28. 的分裂大的XML文件成小基于标签名
- 29. 获取维基百科分类链接
- 30. 如何制作维基百科分支?