我目前有嵌入更大的计算优化DASK系列过滤 - 懒惰版本Series.isin的()
seq1.isin(seq2[seq3].unique().compute().values)
其中seq3
是布尔系列内的以下的图案。 性能似乎可以接受,但它很丑,使用compute()
强制评估,可能会消除并行机会。 简单地说
seq1.isin(SEQ2 [SEQ3] .unique())
不工作,文档说,参数isin
必须是(我相信NumPy的)阵列。
有没有更好的方法来编写上面的代码? 如果seq1
和seq2
是一样的呢?