我正在做我的文本分类项目。我的信息检索项目有一个名为Reuters-21578的文本分类测试集合。它分布在22个文件中。每个前21个文件(reut2-000.sgm到reut2-020.sgm)包含1000个文档,而最后一个(reut2-021.sgm)包含578个文档。这些文件是SGML格式。 22个文件中的每一个都以文档类型声明行开头: 分发包含DTD文件lewis.dtd。在文件类型声明行之后的是单个路透社文章,标记了SGML标签。Java代码读取SGML文件
我需要帮助来编写一个java程序来读取这些21578文档或将它们转换为21578分离的文本文件。
有人可以帮助我?????
你可能也想看看:http://stackoverflow.com/questions/1504202/java-sgml-to-xml-conversion – amccormack 2011-02-25 10:42:26
也http://stackoverflow.com/questions/4867894/SGML解析器式-java的 – 2011-02-25 10:55:10