2017-07-31 25 views
0

我想分析一个大文本文件夹,用于存在多种语言的名称,地址和电话号码。TM,Quanteda,text2vec。根据正则表达式模式获取词表左边的字符串

这些通常会以“地址”,“电话号码”,“名称”,“公司”,“医院”,“送达者”之前。我会有这些词的字典。

我在想,如果文本挖掘工具是完美的工作。 我想为所有这些文档创建一个语料库,然后在给定字典条目的右侧或下方找到符合特定(我正在考虑正则表达式条件)的文本。

在R中的数据挖掘软件包中是否有这样的语法, 以获取字词表条目右侧或下侧的字符串,符合特定模式的字符串?

如果不是,会不会是更适合R的工具来完成这项工作?

回答

1

两个选项与quanteda浮现在脑海中:

  1. 使用kwic与你的目标模式列表,大到足以捕捉你想要的任期后大小的窗口。这将返回一个data.frame,您可以使用keywordpost列进行分析。您也可以直接从该对象构建语料库(corpus(mykwic)),然后专注于将包含所需文本的新文档变量。

  2. 使用corpus_segment您可以在其中使用目标单词列表创建"tag"类型,并且此标签之后的任何内容(直到下一个标签)都将重新整合到新文档中。这很好,但配置有点麻烦,因为你需要为标签获取正确的正则表达式。

相关问题