在BigQuery中优化查询

我试图在BigQuery中运行查询，但收到“查询执行期间超出资源”。在BigQuery中优化查询

其实，我有两个表：

Table user: 
Id | User | Latitude | Longitude 
1 | 1  | 50.83 | 4.01 
2 | 1  | 50.84 | 4.03 
3 | 2  | 48.78 | 2.87 
4 | 3  | 47.42 | 8.53 
… 
Table point_of_interest: 
Id | Latitude | Longitude | Range | Tag 
1 | 50.81 | 3.98  | 0.05 | a;b;c;d 
2 | 50.85 | 4.03  | 0.025 | a;c;e;f 
3 | 40.80 | 3.87  | 0.04 | a;d;g 
4 | 47.42 | 8.57  | 0.08 | b 
…

目的是联接表来标记的纬度，经度和范围内的所有用户。

对于这一点，我使用的查询：

SELECT 
    u.User AS id, 
    GROUP_CONCAT(poi.Tag) AS tag 
FROM (
    SELECT 
    u.User, 
    poi.Tag, 
    FROM 
    [user] u 
    CROSS JOIN 
    [point_of_interest] poi 
    WHERE 
    u.Latitude BETWEEN poi.Latitude – poi.Range AND poi.Latitude + poi.Range 
    AND 
    u.Longitude BETWEEN poi.Longitude – poi.Range AND poi.Longitude + poi.Range) 
GROUP BY 
    id

用户表目前是520 MB和point_of_interest表只有565 KB，但可能会在时间成长。

我想知道是否有更好的方法来实现这个目标，以及最好的体系结构。

编辑：

我还使用了一系列LEFT JOIN EACH但BigQuery的只支持ON关键字后平等陈述尝试。

来源

2015-10-22 Nexus

不是大小，但记录的数量很重要。每张表中的记录数是多少？ – Pentium10

您是否尝试过“GROUP BY BY BY”？您是否仍然超出资源？ – Pentium10

我尝试了GROUP EACH BY，并得到相同的错误。用户表包含3 000 000条记录和point_of_interest表100 000. – Nexus

您需要分割您的表并运行多个较小的查询。

事情是这样的：

SELECT * FROM table WHERE ABS(HASH(id) % 100) == 0 
SELECT * FROM table WHERE ABS(HASH(id) % 100) == 1 
SELECT * FROM table WHERE ABS(HASH(id) % 100) == 2 
SELECT * FROM table WHERE ABS(HASH(id) % 100) == 3 
... 
SELECT * FROM table WHERE ABS(HASH(id) % 100) == 99

，但你需要找到一个像样的高数量，而不是100在我的例子，并写一段代码，自动执行此为您服务。首先在碎片中手动使用一个合适的记录边缘尝试一个碎片。

您可以将WRITE_APPEND结果放入相同的目的地表并与原始数据分开存储。

来源

2015-10-22 14:23:42 Pentium10