2012-11-07 42 views
3

我追踪匹配的网站上在下面的MySQL MyISAM表:优化MySQL的慢数查询和集团通过

CREATE TABLE `track_hits` (
    `hit_id` int(10) unsigned NOT NULL auto_increment, 
    `referer` varchar(255) default NULL, 
    `referer_checksum` int(10) default NULL, 
    `domain_checksum` int(10) default NULL, 
    `referer_local` enum('Yes','No') default NULL, 
    `request` varchar(255) default NULL, 
    `request_checksum` int(10) default NULL, 
    `embed_id` int(10) unsigned default NULL, 
    `embed_user_id` int(10) unsigned default NULL, 
    `embed_campaign_id` int(10) unsigned default NULL, 
    `date` datetime default NULL, 
    `day_checksum` int(10) default NULL, 
    `visit_id` int(10) unsigned default NULL, 
    PRIMARY KEY (`hit_id`), 
    KEY `referer_checksum` (`referer_checksum`), 
    KEY `date` (`date`), 
    KEY `visit_id` (`visit_id`), 
    KEY `embed_user_id` (`embed_user_id`), 
    KEY `embed_campaign_id` (`embed_campaign_id`), 
    KEY `day_checksum` (`day_checksum`), 
    KEY `domain_checksum` (`domain_checksum`), 
    KEY `embed_id` (`embed_id`) 
) ENGINE=MyISAM DEFAULT CHARSET=utf8; 

表中有超过500万行。

我希望每个广告系列(embed_campaign_id)每天在特定日期范围内的总点击次数&总共唯一身份号码(基于不同的visit_id)。我是这样做的这个查询:

SELECT COUNT(DISTINCT h.`visit_id`) AS `visits`, COUNT(h.`hit_id`) AS `hits`, `date` 
FROM (`track_hits` h) 
WHERE `h`.`embed_campaign_id` = '31' 
AND `h`.`date` >= '2012-10-07 07:00:00' 
AND `h`.`date` <= '2012-11-07 07:59:59' 
GROUP BY `h`.`day_checksum` 

大约需要15-25秒运行。

day_checksum是日期的crc32编码版本,即“2012-11-07”。我用代替GROUP BY,速度没有增加。

EXPLAIN回报:

id select_type table type possible_keys   key     key_len  ref  rows  extra 
1 SIMPLE  h  ref  date,embed_campaign_id embed_campaign_id 5   const 1648683  Using where; Using filesort 

我想过用每天汇总表,但该网站是局部的和数据库中的所有日期为GMT。因此,10/07 @ 7PM EST到11/07 @ 7PM EST将需要返回不同于PST的10/07 @ 7PM到11/07 @ 7PM PST的计数。

有什么办法可以加快速度吗?

回答

2

你有一个索引每列。我认为你可以通过复合(多列)索引获得更好的性能。

http://dev.mysql.com/doc/refman/5.0/en/multiple-column-indexes.html

事情是这样的:

KEY compositeIndex (embed_campaign_id, date, day_checksum, visit_id, hit_id) 
+0

+1非常好的问题。虽然,我会建议(embed_campaign_id,date)用于where子句。 –

0

只是一些乱撞:

  • 做一个anaylize table
  • 变更引擎InnoDB的
  • dategroup by,要么离开它完全地与day_checksum更换或两者改变为date(date)
  • 删除大括号from (track_hits h)
  • 请确保它不是h ardware,这是瓶颈

最后,每天15-25秒一次不是很长时间等待。