mining

0热度

1回答

度量文本文件的排序

我在特定域中有一组文本文件。我需要根据一些指标对文件进行排名。请帮助我一些可用于排序我的文本文件（术语频率，大小，使用频率等）的指标。然后，我想使用文本挖掘技术来基于这些技术之一对文件进行排名。

0热度

1回答

如何查找连续值中的范围以用于构建决策树

我正在构建一个使用连续值（双打）字段的决策树。我应该如何创建范围节点来构建树（找到最佳范围值）

-2热度

1回答

文本挖掘数据总量

我有一个非常有趣的问题陈述...我有两个实际上彼此相关的数据集（它们都与汽车制造商和模型有关）。虽然其中一个是处理数据（品牌，型号和变体已被拆分，处理和编辑），而另一列是原始数据。有什么办法可以让两者有联系吗？我完全失去了，因此，没有提供任何代码。问题是没有办法链接两列，因为没有SID ....它的纯名字。

-1热度

1回答

音频挖掘和语音处理

我们打算做一个关于音频挖掘的项目。它基本上是从用户那里接受输入并处理数据输入并给出想要的结果（但仅限于数字）。我们试图设计一个android应用程序同样的。如果用户输入“12345”，那么它应该查找存储在数据库中的数据，并做一些处理并提供给我们详细信息。任何人都可以洞察可以做什么或从哪里开始。

0热度

1回答

使用基于矢量的批量处理的MySQL中的Columnstore索引技术

我正在使用MySQL作为数据库，并且由于数据库很大，因此它已被列为索引。但现在有使用MSSQL像索引方法的要求，因为它一直说执行得更快，其链接如下： http://blogs.technet.com/b/dataplatforminsider/archive/2011/08/04/columnstore-indexes-a-new-feature-in-sql-server-known-as-pr

0热度

1回答

python和redis，语法不清

这是中的代码的副本挖掘社交网络的书。我是这方面的新人，也是redis。我想了解$在这方面的含义。还打印%s，这是什么意思？这是（从：https://github.com/ptwobrussell/Mining-the-Social-Web）：下面的源代码 import sys import redis from twitter__util import getRedisIdByScree

0热度

1回答

R Web /文本挖掘 - Web查询JSON阅读

在Blekko搜索引擎中，您可以使用JSON格式获取搜索结果，例如，与搜索项“Lifehacker的”： http://blekko.com/ws/?q=lifehacker+%2Fjson 你怎么能执行从读该查询和解析的内容？ [有一个网址，一个RSS网址，并与主文本片段] 我已经试过包tm.plugin.webmining和boilerpipeR，但不能弄明白。

-3热度

2回答

挖掘众包数据的合法性

我有一个项目想法，我想在公众可用的数据中挖掘它通过众包获得的另一个网站。这是因为我有我自己的项目的初始数据。重申一下，我想写一个机器人来抓取另一个网站上显示的数据并将其用于我自己的网站。有人知道这种事情的合法性吗？原始网站是否拥有人群提供的数据？即使如此，我可以使用它吗？

4热度

1回答

挖掘/爬行/虚拟或其他Web控制台？

我想创建一个应用程序，其行为与另一个Web应用程序的行为直接相关。基本上，Gmail中运行的应用程序可以根据用户的操作动态地与界面进行交互。我遇到的问题是我想制作一个与该Web应用程序交互的应用程序，但它们不提供开放的API。因此，我不能只为我需要的数据调用api。当我在chrome中打开开发控制台时，我可以看到应用程序正在运行，并根据活动运行调试注释。有没有什么办法可以使用PhantomJ

1热度

1回答

txt文件在R包中生成NA tm（textmining）

我想读取一个txt文件并执行一些文本挖掘方法。当我在R中使用tm包时，我收到了很多错误消息。例如，如果我想关联最常用的单词，我只有NA。下面是代码，我至今使用： library(tm) doc <- c("word1 word1 word2 word1 word2 word3 word1 word2 word3 word4 word1 word2 word3 word4 word5") C