2011-02-02 69 views
-2

我正在制定一个用于规范化URL的项目(即应识别映射到同一网页的不同URL,并像搜索引擎一样减少冗余)。用于URL规范化的数据集

所以我想要一个包含不同URL的数据集来测试我的方法。请提供标准化数据集的链接。

我在C#中实现这个项目,我希望你的建议。提前致谢。

+1

你能举出一些Url的例子,它们会正常化是一样的吗?另外,这里的数据集是什么意思? .NET数据集?如果有其他内容,请提供示例 – 2011-02-02 11:12:12

回答

1

既然你问I'd like your suggestions,留下你的问题非常开放的,并会引起你可能会得到哪一种建议,我会继续前进,给你我的建议。虽然我承认我不是100%确定你想要解决什么问题?您是否要求提供程序/代码特定的建议?一个如何建立这样一个项目的策略?或者你希望收集灵感/想法,并改善你现有的工作流程?如果你正在寻求第三件事,我会建议看看两个场景,受到我的一位人工智能教师曾经给过的讲座的启发。让我们一会俯冲到如何蚁群组织起来:

  • 自上而下的方法:一个幻想想象女王在antcology他们的路线处方为每一个蚂蚁子殖民地,从而正火多跟踪各种蚂蚁都去的地点,然后看起来你想把蚂蚁聚集在一起,让每个小组只用一条路线去达到他们的目标,并去掉可能的重复路线。这是如何使他们的路线更高效的一种方法。在现实中蚂蚁的实际工作方式不同:

  • 自下而上的方法:现实: 单个蚂蚁就没有什么意义,但是当整个蚁群是研究,组织透露。这是因为蚂蚁本身遵循其他蚂蚁的香味痕迹,这样才能跟随彼此,最终找到他们的巢穴。这样,聪明并不需要来自中央数据库的上方/来自中心数据库,但是每只蚂蚁内置的一点智能都会使相同的路径可重复使用。 >>通过这种方式,您可能想要在每个需要规范化的超链接中构建标准化技术。

我希望这可以给你希望的建议,否则,如果你的问题不是战略为基础,但具体的代码问题相关的,问的问题,在它的程序代码,这往往是更容易比找到解决最好的策略。祝你好运!我的2美分。