2013-06-06 57 views
-1

我有大约1000个网址,任务是统计它们的出现次数并打印出最高频率。单篇文章有多个URL时会出现问题。示例如下:如何从跟踪查询字符串变量中清除URL?

http://mashable.com/2013/06/05/whistle/?utm_campaign=Feed:+Mashable+(Mashable)&utm_cid=Mash-Product-RSS-Pheedo-All-Partial&utm_medium=twitter&utm_source=twitterfeed 
http://mashable.com/2013/06/05/whistle/?utm_campaign=Feed:+Mashable+(Mashable)&utm_cid=Mash-Product-RSS-Pheedo-All-Partial&utm_medium=feed&utm_source=feedburner 
http://mashable.com/2013/06/05/whistle/?utm_campaign=Mash-Product-RSS-Pheedo-All-Partial&utm_cid=Mash-Product-RSS-Pheedo-All-Partial&utm_medium=twitter&utm_source=dlvr.it 

所有这些指向相同的文章,但是,他们不同的方式是由一些第三方跟踪变量。我可以使用RegExp消除以下内容,但可能会有无限变体。另外,我无法删除整个查询字符串,因为它可能包含真正的变量(即show.php?p=12

utm_campaign 
utm_cid 
utm_medium 
utm_source 

问: 是否有这些变量的完整列表?你有没有更好的方法做到这一点?

+0

确定,但该文章的http标题必须是相同的权利,您可以得到它,然后与其他人一起检查 – anshulkatta

回答

0

而且期运用正则表达式

[?&](.*?)= 

url中的每个变量开始用 '?'或'&'并且必须以'='结尾

+0

是的,我知道:)。是否有任何完整的跟踪cookie名称列表? –

+0

给我一些例子 – nomaka

+0

看问题上面的例子。三个可捣乱的例子 –