我正在试验一下文本比较/基本抄袭检测,并希望在网站到网站的基础上尝试。然而,我有点卡住寻找处理文本的正确方法。比较网站的文本内容
你会如何处理和比较两个网站的抄袭内容?
我想是这样的伪代码:
// extract text
foreach website in websites
crawl website - store structure so pages are only scanned once
extract text blocks from all pages - store this is in list
// compare
foreach text in website1.textlist
compare with all text in website2.textlist
我意识到,这个解决方案很可能迅速积累了大量的数据,所以它可能只可能使其具有非常小的网站工作。
我还没有决定实际的文字比较算法,但现在我更感兴趣的是让实际的工艺算法先行工作。
我想这是一个好主意,作为单独的文本块(从段落,表格,标题等)提取所有文本,因为文本可以在页面上移动。
我正在C#(也许是ASP.NET)中实现它。
我对任何意见或建议都很感兴趣,所以请拍! :)
也可以使用第三方服务来使用你自己的逻辑推动这个流氓。我可以在https://api.copyleaks.com上推荐您使用.NET实现(通过Nuget或Github)。阅读更多:https://github.com/Copyleaks/.NET-Plagiarism-Checker – No1Lives4Ever 2016-04-22 09:52:57