2014-10-22 51 views
0

我有几个具有度量信息的大文件。我将这些文件链接到名册数据库,以便我知道员工在某个日期报告了哪些人员(这使我可以跟踪每位经理或每个站点的绩效等)。Tableau - 混合,加入或修改原始?

我这样做的方式是创建一个名为EmployeeID + Date的RosterID字段(例如:x112x20141022)。因此,如果我在仪表板上的一张纸上进行过滤,则会过滤所有纸张。

问题:我是否使用文件之间的混合(现在大约有8个不同的数据源),左连接,还是仅使用python/pandas将信息添加到原始数据源?我希望twbx文件对于最终用户来说尽可能快。 (我的意思是将信息添加到原始数据中的字面意思是添加像经理,主管,位置,聘用日期,培训班这样的列,这会增加文件大小,但会加快Tableau的速度吗?)

回答

1

数据混合(在Tableau中的不同数据源之间创建关系)是性能最差的解决方案。虽然它很容易使用,但效率非常低,因为它会在每次计算时虚拟执行加入。

在连接到数据时(我假设您使用的是csv文件)在Tableau上执行左连接是一个非常好的解决方案,就像使用Pandas中的信息制作单个表一样。对于最终用户,不应该打赌任何性能差异(特别是如果您将数据提取到Tableau中的tde)。在这里,您需要测量是否更容易在python/pandas或Tableau提取工具中维护进程。我相信让Tableau进行连接更简单。但这是你的电话

+0

因此,也许我会添加一个名为RosterDatabase的文件,其中包含每日ID +日期数字和相应信息(经理,位置等)。然后,我将与具有ID +日期唯一ID的较大原始文件一起离开。这似乎是一个公平的解决方案吗? – trench 2014-10-22 13:11:18

+0

是的,任何能够在Tableau中提供单个表格的内容(提取后)都非常公平。 – Inox 2014-10-22 13:46:31

+1

服务器端连接实际上比客户端数据混合更高效,但数据混合在使用得当时非常有用且合理高效。混合是少数几种可用于组合从不同来源动态绘制数据的选项之一,比如将电子表格与数据库中的相关数据进行比较。混合可能会导致幕后出现一些复杂的行为,您必须小心注意混合字段(类似于连接键)。这是一项高级功能。不适合所有情况,但需要时非常有用。 – 2014-10-28 02:07:50