2014-11-09 107 views
0

我已经做了大量的研究并阅读了很少的论文,检查了所有的SO Q & A,但我仍然不清楚。使用java将非结构化数据(文本)转换为结构化格式

 I'm trying to setup a small search engine. I am crawling data using nutch and 
     have integrated it with solr for front end and indexing. 

     After crawl, I have unstructured data i.e content of entire page I crawled and 
     I need to structure this data into sets. 

例如:我爬到其中包含有关的任何产品信息的页面,我有其中有产品说明,大小原始文本,尺寸等

我的目标:提取关键字我想要说的:尺寸 - - >存储在相关的尺寸DB柱 提取信息 - >存储在同一行(另一列)

所以,我有在一个表中的关键字和描述,并取我作为每个查询,并输出到用户。

我不知道如何去构建/获取我需要的信息,如果可能的话,我希望使用java来做到这一点。我读了几篇文章,但我无法遵循。任何帮助/指导将不胜感激。

请让我知道,如果你需要更多的信息。感谢您的时间,并帮助

回答

2

可以使用自然语言处理工具,如GATE(https://gate.ac.uk/),阿帕奇OpenNLP(https://opennlp.apache.org/),Minorthird(http://sourceforge.net/projects/minorthird/)等

你可以写在GATE一个戏言文法创建基于注释文中出现的词语。例如,您可以将dimension, measurements, proportions等注释为dimension,然后查找下一句中的数字。

你可以看看其他的NLP工具在这里:https://www.quora.com/What-are-the-best-Java-open-source-NLP-toolkits

+0

谢谢。我会检查链接。 :) – TheUknown 2014-11-10 22:11:59