TM，Quanteda，text2vec。根据正则表达式模式获取词表左边的字符串

我想分析一个大文本文件夹，用于存在多种语言的名称，地址和电话号码。TM，Quanteda，text2vec。根据正则表达式模式获取词表左边的字符串

这些通常会以“地址”，“电话号码”，“名称”，“公司”，“医院”，“送达者”之前。我会有这些词的字典。

我在想，如果文本挖掘工具是完美的工作。我想为所有这些文档创建一个语料库，然后在给定字典条目的右侧或下方找到符合特定（我正在考虑正则表达式条件）的文本。

在R中的数据挖掘软件包中是否有这样的语法， 以获取字词表条目右侧或下侧的字符串，符合特定模式的字符串？

如果不是，会不会是更适合R的工具来完成这项工作？

两个选项与quanteda浮现在脑海中：

使用kwic与你的目标模式列表，大到足以捕捉你想要的任期后大小的窗口。这将返回一个data.frame，您可以使用keyword和post列进行分析。您也可以直接从该对象构建语料库（corpus(mykwic)），然后专注于将包含所需文本的新文档变量。
使用corpus_segment您可以在其中使用目标单词列表创建"tag"类型，并且此标签之后的任何内容（直到下一个标签）都将重新整合到新文档中。这很好，但配置有点麻烦，因为你需要为标签获取正确的正则表达式。

2017-07-31 08:46:47

回答