我有一个像Python中的google.com
这样的字符串,我想分成两部分:google
和.com
。问题是我有一个网址,如subdomain.google.com
,我想分成subdomain.google
和.com
。Python的URL拆分
如何将URL的其余部分与TLD分开?由于TLD(例如.co.uk
)的原因,它无法根据URL中的最后.
进行操作。请注意,该网址不包含http://或www。
我有一个像Python中的google.com
这样的字符串,我想分成两部分:google
和.com
。问题是我有一个网址,如subdomain.google.com
,我想分成subdomain.google
和.com
。Python的URL拆分
如何将URL的其余部分与TLD分开?由于TLD(例如.co.uk
)的原因,它无法根据URL中的最后.
进行操作。请注意,该网址不包含http://或www。
tldextract看起来像你所需要的。它涉及.co.uk
问题。
为此,您需要一个有效的域名列表。顶级域名(.com,.org等)和国家代码(.us,.fr等)很容易找到。尝试http://www.icann.org/en/resources/registries/tlds。
对于二级域名(.co.uk,.org.au),您可能需要查看每个国家/地区代码以查看其子域。维基百科是你的朋友。
一旦你有了名单,从你有的名字(google.com或co.uk)抓取最后两部分,看看它是否在你的第二级列表。如果不是,抓住最后一部分,看看它是否在你的顶级列表中。
对于即将推出的新gTLD,这正成为一个更有趣的问题。不久,我们也将分离'search.google'。 –