2010-01-02 39 views
1

我需要指导如何计算GoogleShare的几个术语。计算Google的N条款

例如,采取以下基本条件:

  • “汤姆·克鲁斯” = 1200万页
  • “约翰·特拉沃尔塔” = 4,900,000

现在,如果我们添加第二项:

  • “汤姆·克鲁斯” + “科学教” = 784,000页
  • “约翰·特拉沃尔塔” + “科学教” = 331000页

所以GoogleShare的汤姆·克鲁斯和山达基是(784000 * 100/12000000)= 6.53%,而John Travolta和Scientology的GoogleShare为(331000 * 100/4900000)= 6.76%


现在,如果我们增加第三个任期到我们的查询:

  • “汤姆·克鲁斯” + “科学教” + “的StackOverflow”
  • = 100页“ John Travolta“ + ”科学教“ + ”StackOverflow“ = 181

现在应该如何计算GoogleShare百分比?

// Tom Cruise 
100 * 100/784000 = 0.01% // StackOverflow/Scientology 
// or... 
100 * 100/12000000 = 0.00083% // StackOverflow/Tom Cruise 

// John Travolta 
181 * 100/331000 = 0.05% // StackOverflow/Scientology 
// or... 
181 * 100/4900000 = 0.00369% // StackOverflow/John Travolta 

约翰特拉沃尔塔似乎比SO社区内的汤姆克鲁斯科学家多5倍。

什么是计算GoogleShare of N terms的正确方法?

+1

想想维恩图吧! – James 2010-01-02 13:27:22

回答

1

这取决于。首先,让我们为GoogleShare的内容奠定一些基础。

考虑您的搜索

"Tom Cruise" + "Scientology" 
"John Travolta" + "Scientology" 

你计算什么,当你计算这里的GoogleShare的是搜索为"Scientology"百分比还含有"Tom Cruise"与搜索的"Scientology"百分比也含有"John Travolta"。因此,要计算这个方法如下:

Google search for "Scientology": 4,730,000 hits 

对比:

Google search for "Tom Cruise" and "Scientology": 825,000 hits 
Google search for "John Travolta" and "Scientology": 340,000 hits 

因此,"Scientology""Tom Cruise" GoogleShare的是17.44%。 "John Travolta"GoogleShare of "Scientology"为7.18%。我们说相对于"Tom Cruise"更多地连接到"Scientology"而不是"John Travolta"连接到"Scientology"。因此,我注意到您在中的GoogleShare "Tom Cruise"与GoogleShare "John Travolta"的初始计算不正确。关键是弄清楚你的基本搜索是什么(这里是"Scientology")以及你想看看他们在这个空间上的份额是什么(这里是"Tom Cruise""John Travolta")。

现在考虑搜索

"Scientology" + "Tom Cruise" + keyword 

"Scientology" + "John Travolta" + keyword. 

有两种方法来查看这一点。您是否试图在("Scientology" + keyword)的空间中测量"Tom Cruise""John Travolta"的份额,或者您是否想要测量"Scientology"空间中的"Tom Cruise" + keyword的份额?这些不同。

Google search for "Scientology" + "StackOverflow": 34,300 

Google search for "Tom Cruise" and "Scientology" and "StackOverflow": 1,360 
Google search for "John Travotla" and "Scientology" and "StackOverflow": 1,660 

如果你想的"Tom Cruise""John Travolta"在("Scientology" + "StackOverflow")的空间共享你计算:

"Tom Cruise": 1360/34300 = 3.97% 
"John Travolta": 1660/34300 = 4.84% 

如果你想在空间的"Tom Cruise" + "StackOverflow""John Travolta" + "StackOverflow"份额"Scientology"你会计算:

"Tom Cruise" + "StackOverflow": 1360/4730000 = .0029% 
"John Travolta" + "StackOverflow" : 1660/4730000 = .0035% 

你看,这一切都取决于发现你的基本搜索是什么,以及你尝试的术语是什么,找到他们在这个基本术语中的份额。在第一个版本中,我们的基本搜索是"Scientology" + "StackOverflow",我们看到有什么份额"Tom Cruise""John Travolta"有这个空间。在第二个版本中,我们的基本搜索是"Scientology",我们看到在此空间中共享"Tom Cruise" + "StackOverflow""John Travolta" + "StackOverflow"

0

这取决于你在做什么。第一个数字是Stack Overflow被提及的比例,它显示了Tom Cruise和Scientology的所有结果的比例,第二个数字是Stack Overflow和Scientology作为显示Tom Cruise的所有结果的比例。

1

我没有看到N个术语和2个术语之间的差异。无论何时您有超过1个字词,您都隐式地使用GoogleShare 相对于某个初始搜索字词。对于任何N> = 2,针对窄查询的每个子集都有多个GoogleShares。

您声明“汤姆克鲁斯和科学教育的GoogleShare”为6。53%,但这有些误导,因为术语“”倾向于暗示某种对称性,您可以在不改变含义的情况下切换“Tom Cruise”和“Scientology”。实际上并非如此,因为你的初始任期是“汤姆克鲁斯”。

也许你计算得分的更好的描述是说“汤姆克鲁斯 a'科学教育'GoogleShare 6.53%。”这消除了所有含糊不清的情况,因为现在我们知道“汤姆克鲁斯”6.53%的时间与“科学论”一起出现,而不是相反(即Scientology结果的6.53%提到汤姆克鲁斯)。

当你这样想时,相应的对N个术语的泛化就会落空。只需在“已拥有/已拥有”之前加上任何您想要的最初条款,以及您之后喜欢的任何其他缩小条款。根据您提供的数字,您可以说“John Travolta的科学论文参考文献的堆栈溢出GoogleShare为0.05%”,或者“John Travolta的科学论文堆栈溢出GoogleShare为0.00369%”。选择哪种方式在上下文中更具信息性。