summarization

    1热度

    1回答

    我有一系列的测量数据/时间序列在15分钟的相同间隔。此外,我有一个给定的时间段(例如一天,当前周,月,年,(...),并且我需要按小时,天,月,(...)总结数值。 例如,总结所有上一个月的值按天计算 我的方法是在第一步中生成一个具有所需时间间隔的临时数组,例如在PHP中(PHP不是必需的,我更喜欢Python或Javascript if它提供了一种快速的方法) $this->tempArray

    1热度

    1回答

    尊敬的主席先生,纪念品 我想文本文档(任何非结构化即新闻数据)的总结。我的第一个目标是在这个给定的文本数据中找到重要的事件,接下来的(第二步)基于这些事件我将选择一些重要的事件(通过一些方法)。 请告诉我一些纸找到文本事件。(如果最新那么会更好) 请告诉我一些文件,其中发现使用机器学习或软计算的事件。 THANK YOU [email protected]

    0热度

    1回答

    我想要做一个聚合算法,将获得基于用户亮点的文本中最重要的元素。 假设你有具有,你必须选择从文本k连拍字作为“有关突出显示”,其中1 < = K < = N。(k为n的子串)的能力n个字文本 假设我们从这些k个高光中的10到10000的任意位置选择,是否有任何算法可以确定最重要的信息? 请考虑许多亮点会重叠,我们需要考虑这一点。我最好还是在javascript中寻找解决方案,因为它是用于Chrome

    0热度

    1回答

    我想了解如何聚合我的输出。我创建了一些虚拟数据,这些虚拟数据近似于我的实际数据,即:数百个group1,group2的3个级别以及数十个验证逻辑。道歉,如果这看起来很简单,我已经狩猎和啄很多,不得不说,作为R的新手,各种各样的工具(申请家庭,ddply,聚合,表,重塑等)都是美妙的和有点吓人:) #create data group1 <- paste("Group", rep(LETTERS[

    -1热度

    1回答

    我已经写出了一个适用于年复一年的季度增长率的代码。但是,我的代码只适用于我用来编写代码的数据。我希望能够使用不同长度的数据运行整个代码,而不必更改任何内容。 这里是我的代码: >lastyr<-tail(datan,horiz) #selects the last values from the original data >percentf<-((Arimab2f/lastyr)-1)*10

    0热度

    2回答

    我有一个名为Data的模型和一些名为timestamp,value1和value2的列。我想用highstock chart来使用它。 之前图表被印刷我想在其上一些计算: 总结VALUE1由VALUE2(值1 /值2)通过每天或每月或每年devided的结果,并把它在例如[[阵列timestamp_day,value1/value2],[...],...]。我可以做“时间戳分组”。但我总是在总结价

    0热度

    2回答

    总结data.frame,我有一个由字符列和数字列组成的data.frame。现在我想计算数字列的平均值,并将结果附加到数据框的末尾。 class1 1 2 5 class2 2 3 6 class3 2 3 2 到 class1 1 2 1 class2 2 3 6 class3 2 3 2 mean 1.6 2.6 3 我colMeans试了,但这种冲突与字符列,我得到以下错

    0热度

    1回答

    我有一个表,看起来像这样: Associate Pay_Code Hours Site Date Week Year Bill REG 8.0 US 3/3/2014 10 2014 Bill REG 8.0 US 3/4/2014 10 2014 Bill REG 8.0 US 3/5/2014 10 2014 Bill REG 8.0 US 3/6/2014 10 2014

    -1热度

    1回答

    我正在构建一个简单的天真文本总结算法。该算法是这样工作的: 我的算法的第一步是删除所有停用词(stop words in English)。 在我的文本只包含具有实际含义的单词后,我将查看每个单词在文本中使用多少次以查找单词的频率。例如,如果使用“超级计算机”一词5次,它将有frequency = 5。 然后,我要通过将sum of the frequencies of all words in

    4热度

    1回答

    我整个销售数据的数据框计算dplyr::summarize。 我做一个分组(S,D,Y),然后在每个组中,计算中间值和平均值为5..43周,然后将它们合并回父df。变量X是销售额。 X从来就不是NA(即df中没有显式的NAs),但是如果没有S,D,Y和周的数据(如在,没有销售),那么这些值将不会有任何行在df中(这意味着对于特定的一组参数零销售量)。换句话说,在任何结构上缺少的行推诿X = 0(但