2014-03-03 46 views
2

这里是我的卡珊德拉的架构,使用Datastax Enterprise如何筛选卡桑德拉TimeUUID/UUID猪

CREATE KEYSPACE applications 
    WITH replication = {'class': 'SimpleStrategy', 'replication_factor' : 1}; 

USE applications; 

CREATE TABLE events(
    bucket text, 
    id timeuuid, 
    app_id uuid, 
    event text, 
    PRIMARY KEY(bucket, id) 
); 

我想APP_ID猪进行筛选(TimeUUID)和ID(UUID),这里是我的猪脚本。

events = LOAD 'cql://applications/events' 
    USING CqlStorage() 
    AS (bucket: chararray, id: chararray, app_id: chararray, event: chararray); 

result = FOREACH events GENERATE bucket, id, app_id; 
DESCRIBE result; 
DUMP result; 

下面是结果

result: {bucket: chararray,id: chararray,app_id: chararray} 
(2014-02-28-04,?O]??4??p??M?,;??F? (|?Mb) \n 
(2014-02-28-04,?O??4??p??M?,?h^@?E????) 
(2014-02-28-04,?V???4??p??M?,;??F? (|?Mb) 
(2014-02-28-04,?W?0?4??p??M?,?h^@?E????) 
(2014-02-28-04,?X^p?4??p??M?,?h^@?E????) 

通知,APP_ID,和id字段是二进制的,我需要一些UUID筛选,有什么建议?

回答

1

您需要使用UDF转换UUID/TimeUUID的二进制字节chararray。不要试图将它直接定义为chararray,就像AS(bucket:chararray,id:chararray,app_id:chararray,event:chararray);

或者你可以使用https://github.com/cevaris/pig-dse/blob/master/src/main/java/com/dse/pig/udfs/AbstractCassandraStorage.java其将UUID/TimeUUID为String

文件一卡珊德拉票,如果你认为这是很好的UUID转换为字符串作为默认值。

+0

是的,你是对的。我遇到的下一个问题是如何试图将转换后的String UUID/TimeUUID存储回UUID/TimeUUID类型中。由于我在Cassandra中使用CQL3,因此进行了类型检查,它不喜欢UUID/TimeUUID的chararray版本。我假设我将不得不解析每个chararray以查看它是否是UUID/TimeUUID并在存储之前将其转换回来。我只是在Pig中放弃了UUID比较,然后继续前进。 – cevaris

0

能够使用定制版本的CQLStorage UDF Pig Loader解决。问题在于Cassandras CQLStorage/CassandraStorage Pig Loader不知道如何处理UUID/TimeUUID类型。我认为这发生在大多数非标准数据类型上。无论如何,这里是链接到github上的编码解决方案。

https://github.com/cevaris/pig-dse