2017-08-27 269 views
3

我已经列出转换大熊猫一系列列表到数据帧

import pandas as pd 
s = pd.Series([[1, 2, 3], [4, 5, 6]]) 

的系列,我想与每一列数据框的列表。

没有from_items,from_records,DataFrameSeries.to_frame似乎工作。

如何做到这一点?

回答

6

您可以使用from_items像这样(假设你的列表是相同的长度):

pd.DataFrame.from_items(zip(s.index, s.values)) 

    0 1 
0 1 4 
1 2 5 
2 3 6 

pd.DataFrame.from_items(zip(s.index, s.values)).T 

    0 1 2 
0 1 2 3 
1 4 5 6 

取决于您所需的输出。

这可以是比使用apply(如在@Wen's answer使用,然而,也还针对不同长度的列表工作)快得多:

%timeit pd.DataFrame.from_items(zip(s.index, s.values)) 
1000 loops, best of 3: 669 µs per loop 

%timeit s.apply(lambda x:pd.Series(x)).T 
1000 loops, best of 3: 1.37 ms per loop 

%timeit pd.DataFrame.from_items(zip(s.index, s.values)).T 
1000 loops, best of 3: 919 µs per loop 

%timeit s.apply(lambda x:pd.Series(x)) 
1000 loops, best of 3: 1.26 ms per loop 

另外@Hatshepsut's answer被相当快(也适用于不同长度的列表):

%timeit pd.DataFrame(item for item in s) 
1000 loops, best of 3: 636 µs per loop 

%timeit pd.DataFrame(item for item in s).T 
1000 loops, best of 3: 884 µs per loop 

最快溶液似乎是@Abdou's answer(对于Python 2测试;也适用于不同长度的列表;在Python 3.6+)使用itertools.zip_longest

%timeit pd.DataFrame.from_records(izip_longest(*s.values)) 
1000 loops, best of 3: 529 µs per loop 

一个附加选项:

pd.DataFrame(dict(zip(s.index, s.values))) 

    0 1 
0 1 4 
1 2 5 
2 3 6 
+1

如果你想添加它,@ Abdou的'itertools'解决方案似乎更快。但确实需要额外的库。在适用的情况下,还可能注意到相同长度的限制? – Hatshepsut

+1

@Hatshepsut:已添加。相同的长度似乎并不需要,对于s = pd.Series([[1,2,3,4],[4,5,6]])也可以正常工作' – Cleb

1

您可以通过一系列这样的寻找

s.apply(lambda x:pd.Series(x)) 
    0 1 2 
0 1 2 3 
1 4 5 6 

或者

s.apply(lambda x:pd.Series(x)).T 

Out[133]: 
    0 1 
0 1 4 
1 2 5 
2 3 6 
+0

可能不是最好的选择在这里,因为它似乎相当缓慢(见下面我的计时)。 – Cleb

+0

@Cleb试试这个例子's = pd。系列([[1,2,3,4],[4,5,6]])'我认为列表的长度不同〜如果长度相同,你的答案更好〜:) – Wen

+1

当然,那么我的会失败,但哈特谢普苏特人似乎还是比较快。我确实认为所有的列表都有相同的长度,将其添加为评论,谢谢指出! – Cleb

1

迭代:

series = pd.Series([[1, 2, 3], [4, 5, 6]]) 
pd.DataFrame(item for item in series) 

    0 1 2 
0 1 2 3 
1 4 5 6 
+0

相当快;应该把这个添加到下面的时间...(upvoted) – Cleb

3

pd.DataFrame.from_records应该也使用itertools.zip_longest

from itertools import zip_longest 

pd.DataFrame.from_records(zip_longest(*s.values)) 

# 0 1 
# 0 1 4 
# 1 2 5 
# 2 3 6 
+0

似乎是最快的解决方案(upvoted )。您可能想补充说这是一个Python3解决方案;在Python 2中,它将是'itertools.izip_longest'。 – Cleb

1

如果序列的长度是超高(超过1m),你可以使用:

s = pd.Series([[1, 2, 3], [4, 5, 6]]) 
pd.DataFrame(s.tolist())