大家好世界各地,剽窃分析仪(对网页内容进行比较)
背景
我最后一年的学生计算机科学。我提出了使用Java和MySQL的我的Final Double Module Project,它是一个剽窃分析器。
抄袭分析仪:
- 扫描所有上传文档的段落。分析从哪个网站复制的每个段落的百分比。
- 仅突出显示每个段落中完全从哪个网站复制的文字。
我的主要目标是开发类似Turnitin的东西,如果可能的话改进。
我有不到6个月的时间来开发这个程序。我已经作用域如下:
- 网络爬虫实现。可能会使用Lucene API或开发我自己的Crawler(哪一个在时间开发和可用性方面更好?)。
- 散列和索引。改进搜索和分析。
问题
这里是我的问题:
- 能MySQL的商店,太多的信息?
- 我错过任何重要的话题吗?
- 您对这个项目有何看法?
- 任何建议或技术进行相似性分析?
- 段落可以散列,还有文字?
在此先感谢您的任何帮助和建议。 ^^
这难道不算你的同学的草? ;-) – Steve314 2009-10-14 17:02:35
你可能想看看规范化的压缩距离:http://stackoverflow.com/questions/1085048/how-would-you-code-an-anti-plagiarism-site/1085085#1085085 – Stephan202 2009-10-14 18:03:17
谢谢很多Stephan202为突出显示! ;) – 2009-11-02 09:17:49