我试图在单个词在PDF文件中隔离开来,但阅读使用PDF阅读器的宝石文本到来时断裂的文件,这样当是否有一个ruby库来检查一个字符串是否是一个有效的单词?
"A lit"
"tle "
"bit of tex"
"t"
所以我打算把这些结合在一起使用一些启发式。对于这一点,我需要哪些检查,如果给定的字符串是一个有效的英文单词库,就像
"tree".is_english? # => true
"askdjfah".is_english? # => false
这是否存在?理想情况下,它也适用于德语文本。
如果不是,有没有免费的字典在线?如果必须的话,我想我可以编写我自己的树结构来进行查找。
要做你想做的事,图书馆将不得不*字典。鉴于没有人知道英语中有多少单词(并且它一直在增加),因此很难提供完整的报道,甚至不考虑*其他语言*。你当然可以下载一本字典并自行推出,但我认为你会发现它的覆盖率不足。 – pavium 2010-02-17 22:53:38