2016-08-10 91 views
-2

因此,它是这样的。从文本文件中提取字符串的部分

我把这个文件与我放入数组的URL列表进行比较。

我必须编写一些代码来从这些URL中提取域名。

但这些网址的格式不确定。他们可能有“http://”或“https://”或“www”。在前面,或刚刚开始为“google.com/...”至于后面的部分,我不得不在“.com”或“.gov”等之后切断。

我可以对于我的生活而言,弄清楚如何编码。

+0

在第一个点(如果存在的话)和最后一个点的前面拆分正则表达式(如它存在)。 – Blobonat

+0

正则表达式? – molbdnilo

+1

通常你需要逐步开发这样的东西。首先删除你知道必须去的棋子,就像从头到尾的所有棋子一样(如果你发现的话)。然后从第一个'/'(再次,如果你找到一个)到最后删除所有东西,等等,直到你把所有你不需要的东西都截断了。 –

回答

-1

您可以拆分字符串并获取域的根名称。

我会建议你去尝试这样

(/^http?\:\/\/([^\/?#]+)(?:[\/?#]|$)/i);

(/^https?\:\/\/([^\/?#]+)(?:[\/?#]|$)/i);

(/^https?\:\/\/(?:www\.)?([^\/?#]+)(?:[\/?#]|$)/i);