2017-10-20 60 views
0

我正在尝试解析一些网域(数以万计)以查看它们是否包含任何英文单词。如何查找英文单词是否存在于字符串中

我很容易解析域名以获取tldextract域的主要部分,然后尝试使用enchant来查看它们是否存在于英文字典中。

问题是我不知道如何将域分割成多个单词来检查,即latimes返回False,但times会返回True。

有没有人知道一个聪明的方法来看,如果在字符串中包含任何英语单词?

谢谢!

+1

这肯定不是解决您尝试解决的任何问题的最佳方法......并且在许多情况下,它可能总是含糊不清 –

+0

有什么建议吗?我试图将英文和西班牙文域名列表分成两个列表。 – Mojo713

+1

与whois有什么不同吗? –

回答

0

除非您急需这样做,否则您只需从字符串开头中剔除字母,并检查它是否是已知单词;如果是,请将其切断并重复。例如, 50k字每个20个字母,最糟糕的是你会做1M查找。通过查找例如5ms(每次点击一次硬盘),它需要5000秒(约1.5小时),比您花费更好的算法要短。

相关问题