2013-01-16 52 views
3

我们目前正在研究一个NLP项目并需要一个旨在从tripadvisor.com提取的语料库。我们期待将输出结果作为几种类型:评论和评论的评分。我的问题是:任何关于从TripAdvisor抓取数据的建议

  • 是否有任何爬行工具最适合此目的?它一定很容易使用,python是首选。美丽的汤是我找到的,但我想在这里问它的任何其他建议。

  • 是否有任何完整的工具只是为了这个目的?我的意思是一个为tripadvisor.com写的程序?

  • 任何有关数据(评论/评级)从巨型网站爬行的建议将不胜感激。

该语料库将用于大学研究的情感分析,我们需要尽快抓取它。

回答

0

对于Python你可以使用scrapy,这是一个熟练的履带式框架,http://scrapy.org/

另外,我请你分享你所收集的数据。如果tripadvisor数据已准备就绪,则不需要抓取。或者至少,你可以分享抓取脚本。

+1

数据尚未准备好,但要尽快抓取。数据准备就绪后,我可以共享数据,但是您确定scrapy?你怎么看美丽的汤? @Muatik – clancularius

+0

我认为scrapy是抓取网页任务更体面的框架。漂亮的肥皂不是一回事,也不是爬虫框架。尽管你不使用scrapy,美丽的汤或类似的东西,你仍然可以抓取网页,然后使用正则表达式。 – Muatik

+1

任何更新? – minocha

0

回答您的问题在各自的顺序:

  • 你需要的是一个网页抓取工具。爬虫程序自动执行浏览页面的过程 ,而刮板程序将HTML转换为 结构化数据。在不同的 平台上有很多工具可用。不知道美丽的汤。你在设计 刮板还是会买它?

  • 您可以根据您的 定制需求准备好制作语料库或制作Web刮板。您可以请求您的数据或使用ScraperWiki手动编写刮板 。我不知道您的数据结构,但可以使用Google电子表格抄袭一些数据。你可以看到here。只要看看是什么类型的数据被刮掉了,如果它类似于你的数据,那么你可以使用它。

  • 某些网站或其特定目录无法被抓取。你可以 检查他们的robots.txt知道一样。在从中抓取数据之前,请阅读该网站的政策 。

你还没有问,但here是一些免费的情绪分析工具。

相关问题