2013-07-03 14 views
0

我正在对20个新闻组数据集进行一些文本分析,部分依赖于根据上述文章中的词语对不同的文章进行分类。我目前能够做的是解析一篇文章,然后编译关于它的统计数据。我可以单独为每篇文章做到这一点,但将文章合并似乎是我的失败。在R中合并数据帧 - 文本分析

什么我期待能够做到,在R为以下几点:

举两个(最好是任何数字)的解析和朵朵字频率dataframes,并把它们合并起来以显示两篇文章中词语的频率作为一个数据框。我希望能够做到这一点,而无需将文章合并为一个大型文档。

拿这个数据帧,并通过顶部的频率排序,只显示前50

任何援助将不胜感激!

+0

我想你正在寻找'merge'。 –

回答

3

既然你没有提供任何数据。例如,我只是猜测,你的数据是这样的形式:

doc1 <- data.frame(word = LETTERS[sample(26, 10)], freq = sample(100, 10)) 
doc2 <- data.frame(word = LETTERS[sample(26, 10)], freq = sample(100, 10)) 

看一看? merge。它做你可能想要的:

merge(doc1, doc2, by = "word", all=TRUE, suffixes=c(".doc1", ".doc2")) 
+0

“后缀”部分是做什么的?另外,有关排序的任何建议?任何时候我看这个,我都会按照说明操作,而“订单”功能会发出错误。如果我按照频率排序,最高优先,我知道我必须降低= T,但除此之外,我不知道如何使用“顺序” – riders994

+2

尝试使用没有后缀并比较的名称。或者看看'merge'的文档。关于行的顺序,你可以'mdf < - merge(...); mdf [命令(mdf $ freq.doc1,mdf $ freq.doc2),]' – Beasterfield

+0

今晚我要测试一下,谢谢! – riders994