我在查询BigQuery上的github公共数据集。目前,我所需要的最佳查询如下所示。如何从BigQuery中获取多个列?
SELECT type, created_at, repository_name FROM [githubarchive:github.timeline]
WHERE
(created_at CONTAINS '2012-')
AND repository_owner="twitter"
ORDER BY created_at, repository_name;
这给了我所有的事件为所有存储库,这个用户拥有从repository_owner的twitter(或任何其他用户)(“类型”)(“repository_name”),但在一列。
不过,我真正想要的是让所有的事件在列(“类型”),为每个库(“repository_name”)一列,或多或少是这样的:
bootstrap commons twui
WatchEvent PushEvent PushEvent
WatchEvent WatchEvent PushEvent
时间戳(“created_at”)只作为一个排序机制。这些列不一定需要等长,并且单行上的事件不需要同时发生。
我会用这个把事件放到R包的TraMineR中来做序列分析。
我该如何做到这一点?
没有,它仍然只创建一个列。另外,出于我的目的,数据按“created_at”排序以便表示时间轴至关重要。 – histelheim 2012-08-09 11:42:11