从熊猫数据框的列中提取主题标签

我有一个数据框df。我想从微博中提取主题标签，其中最大== 45：从熊猫数据框的列中提取主题标签

Max Tweets 
42 via @VIE_unlike at #fashion 
42 Ny trailer #katamaritribute #ps3 
45 Saved a baby bluejay from dogs #fb 
45 #Niley #Niley #Niley

我尝试这样的事情，但它给空数据框：

df.loc[df['Max'] == 45, [hsh for hsh in 'tweets' if hsh.startswith('#')]]

是有什么在熊猫，我可以用它来执行这有效且速度更快。

您可以使用pd.Series.str.findall：

In [956]: df.Tweets.str.findall(r'#.*?(?=\s|$)') 
Out[956]: 
0     [#fashion] 
1 [#katamaritribute, #ps3] 
2      [#fb] 
3 [#Niley, #Niley, #Niley]

这返回的list个列。

如果要筛选，然后再找到，你可以这样做很容易使用boolean indexing：

In [957]: df.Tweets[df.Max == 45].str.findall(r'#.*?(?=\s|$)') 
Out[957]: 
2      [#fb] 
3 [#Niley, #Niley, #Niley] 
Name: Tweets, dtype: object

这里使用的正则表达式是：

#.*?(?=\s|$)

要了解它，请将其分解：

的单词或月底结束先行。如果有可能，你在有#一个字的中间是而不是一个hashtag，这会产生你不想要的误报。在这种情况下，您可以修改您的正则表达式来包括回顾后：

(?:(?<=\s)|(?<=^))#.*?(?=\s|$)

回顾后声称，空格或句子的开始必须先于#字符的正则表达式。

2017-08-25 05:23:57

有没有办法让单列表中的所有主题标签而不是列中的多个列表？我试图使用追加或加入，但它不工作。 – sparktime12

@ sparktime12您可以在生成的Series上调用.values.reshape（-1，）。tolist（）。 –

回答