我们目前正在研究一个NLP项目并需要一个旨在从tripadvisor.com提取的语料库。我们期待将输出结果作为几种类型:评论和评论的评分。我的问题是:任何关于从TripAdvisor抓取数据的建议
是否有任何爬行工具最适合此目的?它一定很容易使用,python是首选。美丽的汤是我找到的,但我想在这里问它的任何其他建议。
是否有任何完整的工具只是为了这个目的?我的意思是一个为tripadvisor.com写的程序?
任何有关数据(评论/评级)从巨型网站爬行的建议将不胜感激。
该语料库将用于大学研究的情感分析,我们需要尽快抓取它。
数据尚未准备好,但要尽快抓取。数据准备就绪后,我可以共享数据,但是您确定scrapy?你怎么看美丽的汤? @Muatik – clancularius
我认为scrapy是抓取网页任务更体面的框架。漂亮的肥皂不是一回事,也不是爬虫框架。尽管你不使用scrapy,美丽的汤或类似的东西,你仍然可以抓取网页,然后使用正则表达式。 – Muatik
任何更新? – minocha