在R中合并数据帧 - 文本分析

我正在对20个新闻组数据集进行一些文本分析，部分依赖于根据上述文章中的词语对不同的文章进行分类。我目前能够做的是解析一篇文章，然后编译关于它的统计数据。我可以单独为每篇文章做到这一点，但将文章合并似乎是我的失败。在R中合并数据帧 - 文本分析

什么我期待能够做到，在R为以下几点：

举两个（最好是任何数字）的解析和朵朵字频率dataframes，并把它们合并起来以显示两篇文章中词语的频率作为一个数据框。我希望能够做到这一点，而无需将文章合并为一个大型文档。

拿这个数据帧，并通过顶部的频率排序，只显示前50

任何援助将不胜感激！

来源

2013-07-03 riders994

我想你正在寻找'merge'。 –

既然你没有提供任何数据。例如，我只是猜测，你的数据是这样的形式：

doc1 <- data.frame(word = LETTERS[sample(26, 10)], freq = sample(100, 10)) 
doc2 <- data.frame(word = LETTERS[sample(26, 10)], freq = sample(100, 10))

看一看? merge。它做你可能想要的：

merge(doc1, doc2, by = "word", all=TRUE, suffixes=c(".doc1", ".doc2"))

来源

2013-07-03 10:17:44 Beasterfield

“后缀”部分是做什么的？另外，有关排序的任何建议？任何时候我看这个，我都会按照说明操作，而“订单”功能会发出错误。如果我按照频率排序，最高优先，我知道我必须降低= T，但除此之外，我不知道如何使用“顺序” – riders994

尝试使用没有后缀并比较的名称。或者看看'merge'的文档。关于行的顺序，你可以'mdf < - merge（...）; mdf [命令（mdf $ freq.doc1，mdf $ freq.doc2），]' – Beasterfield

今晚我要测试一下，谢谢！ – riders994

在R中合并数据帧 - 文本分析

回答

相关问题