我想分析一个大文本文件夹,用于存在多种语言的名称,地址和电话号码。TM,Quanteda,text2vec。根据正则表达式模式获取词表左边的字符串
这些通常会以“地址”,“电话号码”,“名称”,“公司”,“医院”,“送达者”之前。我会有这些词的字典。
我在想,如果文本挖掘工具是完美的工作。 我想为所有这些文档创建一个语料库,然后在给定字典条目的右侧或下方找到符合特定(我正在考虑正则表达式条件)的文本。
在R中的数据挖掘软件包中是否有这样的语法, 以获取字词表条目右侧或下侧的字符串,符合特定模式的字符串?
如果不是,会不会是更适合R的工具来完成这项工作?