2013-08-26 43 views
1

我有一个1500万字的语料库,我希望将其存储在数据库中。然后,我希望能够找到给定的单词,它在语料库中的上下文。例如,对于单词“朋友”我可能会选择以下内容,其中我也选择五个字前后各有“朋友”:在1500万字的语料库中查找单词的句子

... night i went to my FRIENDS house for a cup of tea ... 
... what did you say my FRIENDS cat is sick and ... 
... if you like my FRIENDS dad can pick you up ... 

如何最好的,我会安排我的数据库有效针对给定的选择用这种方式说话?当我需要数据库时,我通常使用sqlite,但在这种情况下可能还有其他更好的东西。

+0

听起来像您正在寻找[全文搜索](http://en.wikipedia.org/wiki/Full_text_search)。数据库可能不是最好的选择。 –

回答

1

如果你想在一个语料库中找到一个单词,那么你需要全文搜索功能。 SQLite实际上提供了扩展等功能,其解释如下:here

全文搜索将返回与给定查询匹配的文档。您首先需要将语料分解成单独的文档。通常情况下,这是一项非常简单的工作 - 文件可能是电子邮件,客户服务记录,医生记录或报告等等。但是,您没有描述您的案件中的文件。

我完全不熟悉SQLite的全文扩展。您可能会考虑其他数据库解决方案,如MySQL,它们也提供全文支持。

相关问题