2017-08-25 80 views
0

我有一个数据框df。我想从微博中提取主题标签,其中最大== 45:从熊猫数据框的列中提取主题标签

Max Tweets 
42 via @VIE_unlike at #fashion 
42 Ny trailer #katamaritribute #ps3 
45 Saved a baby bluejay from dogs #fb 
45 #Niley #Niley #Niley 

我尝试这样的事情,但它给空数据框:

df.loc[df['Max'] == 45, [hsh for hsh in 'tweets' if hsh.startswith('#')]] 

是有什么在熊猫,我可以用它来执行这有效且速度更快。

回答

2

您可以使用pd.Series.str.findall

In [956]: df.Tweets.str.findall(r'#.*?(?=\s|$)') 
Out[956]: 
0     [#fashion] 
1 [#katamaritribute, #ps3] 
2      [#fb] 
3 [#Niley, #Niley, #Niley] 

这返回的list个列。

如果要筛选,然后再找到,你可以这样做很容易使用boolean indexing

In [957]: df.Tweets[df.Max == 45].str.findall(r'#.*?(?=\s|$)') 
Out[957]: 
2      [#fb] 
3 [#Niley, #Niley, #Niley] 
Name: Tweets, dtype: object 

这里使用的正则表达式是:

#.*?(?=\s|$) 

要了解它,请将其分解:

  • #.*? - 执行一个字开头的哈希标签
  • (?=\s|$)非贪婪匹配 - 的句子

的单词或月底结束先行。如果有可能,你在有#一个字的中间是而不是一个hashtag,这会产生你不想要的误报。在这种情况下,您可以修改您的正则表达式来包括回顾后:

(?:(?<=\s)|(?<=^))#.*?(?=\s|$) 

回顾后声称,空格或句子的开始必须先于#字符的正则表达式。

+0

有没有办法让单列表中的所有主题标签而不是列中的多个列表?我试图使用追加或加入,但它不工作。 – sparktime12

+1

@ sparktime12您可以在生成的Series上调用.values.reshape(-1,)。tolist()。 –