我已经做了大量的研究并阅读了很少的论文,检查了所有的SO Q & A,但我仍然不清楚。使用java将非结构化数据(文本)转换为结构化格式
I'm trying to setup a small search engine. I am crawling data using nutch and
have integrated it with solr for front end and indexing.
After crawl, I have unstructured data i.e content of entire page I crawled and
I need to structure this data into sets.
例如:我爬到其中包含有关的任何产品信息的页面,我有其中有产品说明,大小原始文本,尺寸等
我的目标:提取关键字我想要说的:尺寸 - - >存储在相关的尺寸DB柱 提取信息 - >存储在同一行(另一列)
所以,我有在一个表中的关键字和描述,并取我作为每个查询,并输出到用户。
我不知道如何去构建/获取我需要的信息,如果可能的话,我希望使用java来做到这一点。我读了几篇文章,但我无法遵循。任何帮助/指导将不胜感激。
请让我知道,如果你需要更多的信息。感谢您的时间,并帮助
谢谢。我会检查链接。 :) – TheUknown 2014-11-10 22:11:59