2016-11-21 39 views
3

我已经创建了文本语义搜索引擎。但是,我无法找到已标记的数据集,以便我可以评估系统的信息检索。文本信息检索结果分析数据集(文本)

是否有任何公开的可用文件(文本)被标记。因为我需要文本文档来评估信息检索结果。 (召回,精度,F1值...)

谢谢。

回答

2

我在这方面做研究。在我所有的研究中,我使用了AOL dataset,它包括从三个月(2006年3月1日至2006年5月31日)从约650k用户收集的〜20M网页查询。数据按匿名用户ID排序并依次排列。数据组包括{AnonID, Query, QueryTime, ItemRank, ClickURL}。更多细节可以在上面提到的链接中找到。我很想知道你是如何实现的,如果可能的话,分享你的引擎代码。我也很想知道你的搜索引擎中AOL数据集的表现。

你可以在我的git repository找到数据集。谢谢!