经过一段时间的搜索后,我找不到必须是常见问题的答案,因此欢迎使用指针。根据列中列表中的值选择熊猫数据帧的部分
我有一个数据帧:
df = DataFrame({'A' : [5,6,3,4], 'B' : [1,2,3,5], 'C' : [['a','b'],['b','c'] ,['g','h'],['x','y']]})
,我想选择一个子集,(某些行的),其中有在“C”柱在列表中值,其显示在列表中我感兴趣的东西。例如
listOfInterestingThings = [a, g]
因此,当过滤器应用于我想有一个DF1:
df1 =
A B C
5 1 ['a','b']
3 3 ['g','h']
我处理的数据帧是一个巨大的原始数据导入到RAM 12GB〜在当前DF形式。大约是磁盘上的一半,作为一系列json文件。
标准警告:Series和DataFrames中的非标量元素(例如列表)没有很好的支持,并可能导致神秘和意外的行为。警告用具! – DSM
@DSM有趣。不知道。你有什么建议吗?我正在做的是在尝试使用一些ML来训练主题之前对大型文本语料库进行基本操作。数据〜6GB的json文件。每个文档由一个带有“body”和“topics”标签的json元素表示,主题以列表形式呈现,例如['topic1','topic2']我用pd.DataFrame.from_dict将数据加载到df。你有没有更好的方法来处理这种结构的大数据集? –