2012-06-08 44 views
1

我正在做爬行,我只希望使用美国域名。例如,我想:Perl模块来检测异物网址

http://thenorthface.com/ 

,但我不希望:

http://uk.thenorthface.com 
or 
http://se.thenorthface.com/ 

有谁知道的方式做到这一点,或者这是否Perl模块?我知道这可以用正则表达式来完成,但我试图避免必须将所有外部域名开始列表汇总在一起...非常感谢!

+0

什么是“美域”?我可以想到你可能意味着的一些可能的方式。 – ysth

+0

更可靠的方法是找出IP地址的位置。 –

回答

2

不能可靠地确定一个“美”域名是URL中的内容。甚至不清楚“美国域名”这个词有什么含义。

例如,许多美国各州的缩写也是ISO-3166国家代码。你会怎么做ar.xyz.com。那是阿肯色州还是阿根廷?那么ma.pdq.com ... Massachussetts或摩洛哥(法语Maroc)?

您可以到二级域名(至少在总部)链接到一个国家,但主机名和三级域名将无法进行分类。

+0

谢谢。这很有帮助。 – srchulo