2017-04-24 86 views
2

数据与我在熊猫系列:如何删除过滤数据大熊猫(数据改写(munging))

data = ["1. stock1 (1991)", 
"3. stock13 (1993)", 
"5. stock19 (1999)", 
"89. stock105 (2001)"] # pandas Series 

我需要过滤每个字符串,并保存为

s.no sdata  year 
1  stock1  1991 
3  stock13  1993 
5  stock19  1999 
89  stock105 2001 

我一直在使用

尝试
data = stock["Rank & Title"].str.split(".") 
+0

您可能需要添加一个标志正则表达式(正则表达式)在你的问题上。 – Jon

+0

这似乎是一个比熊猫更正则的问题 – Jon

回答

1

你可以试试str.extract正则表达式

data = ["1. stock1 (1991)", 
"3. stock13 (1993)", 
"5. stock19 (1999)", 
"89. stock105 (2001)"] 

s = pd.Series(data) 

s.str.extract("(?P<sno>\d+)\.\s(?P<sdata>\w+)\s\((?P<year>\d+)\)", expand=True) 

# sno  sdata year 
#0 1  stock1 1991 
#1 3 stock13 1993 
#2 5 stock19 1999 
#3 89 stock105 2001 

分解的正则表达式(?P<sno>\d+)\.\s(?P<sdata>\w+)\s\((?P<year>\d+)\)可以简化为(\d+)\.\s(\w+)\s\((\d+)\)不点名所捕获的基团(其与?P<name>完成); (\d+)(\w+)(\d+)分别s.nostockname捕获。


或者你可能只是想拆就白空间和高达根据您的实际数据看起来像那么干净列:

(s.str.split(" ", expand=True) 
    # strip period and parenthesis 
.apply(lambda col: col.str.strip(".()")) 
    # rename columns 
.rename(columns={0: "s.no", 1: "sdata", 2: "year"})) 

# s.no  sdata year 
#0 1 stock1 1991 
#1 3 stock13 1993 
#2 5 stock19 1999 
#3 89 stock105 2001