2012-05-01 89 views
6

堆积面积情节我有一些数据以这种形式刮取从Web处理:创建非重叠与GGPLOT2

>head(dat) 
    count name   episode percent 
1 309 don 01-a-little-kiss 0.27081507 
2 220 megan 01-a-little-kiss 0.19281332 
3 158 joan 01-a-little-kiss 0.13847502 
4 113 peggy 01-a-little-kiss 0.09903593 
5 107 roger 01-a-little-kiss 0.09377739 
6 81 pete 01-a-little-kiss 0.07099036 

我试图创建一个堆积面积图,类似这里的一个: Making a stacked area plot using ggplot2

当我做了

require(RCurl) 
require(ggplot2) 
link <- getURL("http://dl.dropbox.com/u/25609375/so_data/final.txt") 
dat <- read.csv(textConnection(link), sep=' ', header=FALSE, 
      col.names=c('count', 'name', 'episode')) 

dat <- ddply(dat, .(episode), transform, percent = count/sum(count)) 

ggplot(dat, aes(episode, percent, group=name)) + 
    geom_area(aes(fill=name, colour=name), position='stack') 

enter image description here

我得到这个奇怪的图表。

我希望区域不要相互交叉,并填充整个画布,因为每个episode因子的总百分比等于100%。

回答

8

这是有趣的。你错过了一个单行(里并没有出现在茶叶......?),所以

dat2 <- rbind(dat,data.frame(count = 0,name = 'lane', 
        episode = '02-tea-leaves',percent = 0)) 

ggplot(arrange(dat2,name,episode), aes(x = episode,y = percent)) + 
    geom_area(aes(fill=name,group = name), position='stack') 

enter image description here

似乎工作。但它也必须以正确的顺序进行,我不完全确定为什么。

+0

非常感谢。我仍然很好奇我的为什么没有工作。 – Idr

+0

@idris我理解的缺失行(尽管“意味着”该值为0,我认为让ggplot假设为全局将是危险的)。排序可能是因为它在引擎盖下使用了geom_polygon。 – joran

+2

@idris另外,我应该补充说,使用'geom_bar'可能会更容易一些,因为我预计它会表现得更加可预测,并且会显示相同的信息。 – joran