2014-01-23 76 views
0

我正在寻找一种简单的方法来抓取某些关键字的网页。我有一个单词列表,如{Apple,Banana,Pear,Pineapple},我有一个链接列表。我需要在每个页面上搜索我的单词列表并返回每个链接上显示的单词。例如,对于链路:使用php解析网页

http://www.xyz.com

我应该搜索该网页,并返回二进制变量0 1 1 0,其中每个相应的二进制变量对应于存在或不存在各对应的搜索关键中的矢量名单。我很难找到一种方法来搜索网页,因为我是新手到PHP。什么是最好的方式来刮一个网页,以取回页面上的相关文本(即没有HTML标签或CSS或JavaScript元数据等)?我已经尝试了curl和get_file_contents,但他们返回了相当丑陋的网页表示。任何人都可以请提供一个片段,返回页面上的文本,所以我可以搜索返回的文本?

在此先感谢!

之一的卷曲不工作的主要例子是页面https://plus.google.com/107630561301274451844/about?gl=us&hl=en

我试图找到它的关键字IL并返回非relavent文字对我来说,内进行搜索。

回答