2016-12-31 43 views
2

ggplot2中的alpha值经常用于帮助在R中进行重叠绘图。较深的颜色代表许多观测值下降的区域,较浅的颜色代表只有少数观测值落在的区域。是否有可能扭转这种情况?那么,那些异常值(通常很少有观察值)会被强调为较暗,而大多数数据(通常具有许多观测值)会被强调为较亮?在ggplot2中反向叠加alpha值

下面是一个MWE:从中心(0,0)

myDat <- data.frame(x=rnorm(10000,0,1),y=rnorm(10000,0,1)) 
qplot(x=x, y=y, data=myDat, alpha=0.2) 

更罕见的观察远更轻。我怎样才能扭转这种情况?谢谢你的任何想法。

+1

根据您的具体要求,您可以考虑[geom_density_2d](http://docs.ggplot2.org/current/geom_density_2d.html)。见例如第二个最后一个例子,以及[scale_fill_gradient](http://docs.ggplot2.org/current/scale_gradient.html),您可以在其中设置您所选择的“低”和“高”颜色。 – Henrik

回答

5

您可以尝试单独设置每个点的alpha值,并且不透明度从中心进一步增加。这样

p = 2 # adjust this parameter to set how steeply opacity ncreases with distance 
d = (myDat$x^2 + myDat$y^2)^p 
al = d/max(d) 
ggplot(myDat, aes(x=x, y=y)) + geom_point(alpha = al) 

enter image description here

3

一些与马氏距离从形心尝试此为异常值的得分(分数越高的那些可以分配较深的颜色,而不是使用阿尔法值):

myDat <- data.frame(x=rnorm(10000,0,1),y=rnorm(10000,0,1)) 
mu <- colMeans(myDat) 

# assuming x, y independent, if not we can always calculate a non-zero cov(x,y) 
sigma <- matrix(c(var(myDat$x), 0, 0, var(myDat$y)), nrow=2) 
# use (squared) *Mahalanobis distance* as outlier score 
myDat$outlier.score <- apply(myDat, 1, function(x) t(x-mu)%*%solve(sigma)%*%(x-mu)) 
qplot(x=x, y=y, data=myDat, col=outlier.score) + 
    scale_color_gradient(low='white', high='blue') 

enter image description here

# assuming x, y are not independent 
sigma <- matrix(c(var(myDat$x), cov(myDat$x, myDat$y), cov(myDat$x, myDat$y), var(myDat$y)), nrow=2) 
# use (squared) *Mahalanobis distance* from centroid as outlier score 
myDat$outlier.score <- apply(myDat, 1, function(x) t(x-mu)%*%solve(sigma)%*%(x-mu)) 
qplot(x=x, y=y, data=myDat, col=outlier.score) + 
    scale_color_gradient(low='white', high='blue') 

enter image description here