2010-02-17 86 views
1

我试图在单个词在PDF文件中隔离开来,但阅读使用PDF阅读器的宝石文本到来时断裂的文件,这样当是否有一个ruby库来检查一个字符串是否是一个有效的单词?

"A lit" 
"tle " 
"bit of tex" 
"t" 

所以我打算把这些结合在一起使用一些启发式。对于这一点,我需要哪些检查,如果给定的字符串是一个有效的英文单词库,就像

"tree".is_english? # => true 
"askdjfah".is_english? # => false 

这是否存在?理想情况下,它也适用于德语文本。

如果不是,有没有免费的字典在线?如果必须的话,我想我可以编写我自己的树结构来进行查找。

+0

要做你想做的事,图书馆将不得不*字典。鉴于没有人知道英语中有多少单词(并且它一直在增加),因此很难提供完整的报道,甚至不考虑*其他语言*。你当然可以下载一本字典并自行推出,但我认为你会发现它的覆盖率不足。 – pavium 2010-02-17 22:53:38

回答

3

你可以用raspell或者甚至手动调用aspell来查看你喜欢的字典。

0

我不知道任何图书馆都可以做你想做的事,但是有词的词典。在谷歌上找到它们不应该很难。例如this

2

如果您的系统上安装了unix工具look,您可以轻松检查单词是否是一个单词。例如:

这里有look的更多信息:http://docstore.mik.ua/orelly/unix/upt/ch27_18.htm

由于外观采用了词典在/ usr /词典/话,我认为这是可以安装一个德语单词词典。在Debian中寻找wgerman软件包。我不知道如何在其他系统上安装它。

+0

它似乎寻找字典中的前缀,无论如何查找确切的字符串? – 2014-01-11 02:16:44

相关问题