text-mining

1热度

1回答

我有两个数据帧。第一招： keyword <- c("apple","peach","grape","berry","kiwi fruit") keyword <- data.frame(keyword) 第二个： sentence <- c("I like apple","I hate apple","grape is good") url <- c("url1","url2","url

2热度

2回答

匹配排名最高的字在数据帧R列文本

我有两个数据帧， DF1： df1 <- c("A large bunch of purple grapes", "large green potato sack", "small red tomatoes", "yellow and black bananas") df1 <- data.frame(df1) DF2： Word <- c("green", "purple", "grape

1热度

1回答

字符串中的多字频率计数

我有一个文本文件，并希望两组字的频率计数。例如：在下列方式需要 setone <- ("mumbai", "delhi", "chennai") settwo <- ("nike", "zara","puma") textfile <- ("brands in cites like nike zara and puma in mumbai, delhi and chennai. while

1热度

1回答

将训练数据添加到现有模型（bin文件）

我正在尝试向nl-personTest.bin文件添加额外的训练数据，其中OpenNLP。现在是我的问题，当我运行我的代码添加额外的训练数据时，它将删除已经存在的数据并只添加我的新数据。如何添加额外的训练数据而不是替换它？我没有使用下面的代码，（得到它来自Open NLP NER is not properly trained） public class TrainNames {

1热度

1回答

OpenNLP find（）方法

此刻我试图在文档中查找名称。即时通讯使用下面的方法来找到名字： find(String[] tokens) 我也发现了下面这个方法： find(String[] tokens,String[][] additionalContext) 我可以做什么用这种方法，如何使用它？

-3热度

1回答

非结构化数据如何实现数据挖掘？

我有非结构化数据（应用程序屏幕截图）和半结构化数据（屏幕转储文件），我选择将其存储在hbase中。我的目标是找到应用程序上的缺陷或问题（意味着完整的数据）。现在，我想对这些应用数据挖掘，这是一种文本挖掘？以及我如何在这些数据上应用一些数据挖掘技术？

1热度

1回答

OpenNLP分类程序版本1.8

我试图在openNLP 1.8版中构建分类程序，但代码如下，我不断收到NullPointerException。我究竟做错了什么？ public class test { public static void main(String[] args) throws IOException { InputStream is = new FileInputStr

0热度

1回答

是否可以使用橙色软件作为网络服务

是否有可能使用橙色软件作为网络服务，然后在.Net框架中使用它？我想用我的网站上的数据库它可能吗？

2热度

4回答

使用gsub用R中的直撇符来替换字符向量中的直撇号

寻找一些关于如何用R向量字符向量列表中的直撇子替换卷曲撇号的指导。我替换卷曲撇号的原因 - 稍后在脚本中，我检查每个列表项，看看它是否在字典中找到（使用qdapDictionary）以确保它是一个真正的单词而不是垃圾。字典使用直撇子，所以带有撇号的单词被“拒绝”。我目前的代码示例如下。在我的测试列表中，项目＃6包含一个卷曲撇号，项目＃2有一个简单的撇号。实施例： list_TestWords

1热度

1回答

将文本和表格写入word中，用空白/输入

我正在将text和text从tables写入word文档。使用以下代码将tables放置在正确的paragraphs下。 Iterator<IBodyElement> iter = xdoc.getBodyElementsIterator(); while (iter.hasNext()) { IBodyElement elem = iter.n