我已经下载了我的Twitter归档文件,并且正在尝试对我最常说的那些人进行一些分析。将熊猫'findall'结果列表拆分为多个项目,以独特方式进行分组
鸣叫CSV列是这样的:
tweet_id,in_reply_to_status_id,in_reply_to_user_id,retweeted_status_id,retweeted_status_user_id,timestamp,source
我用read_csv()导入tweets.csv文件到一个名为 “INDATA” 数据帧。
然后,为了获取在微博中提到的所有@handles的名单,我用了以下内容:
handles = indata['text'].str.findall('@[a-zA-Z0-9_-]*')
结果:
timestamp
...
2013-04-12 11:24:27 [@danbarker]
2013-04-12 11:22:32 [@SeekTom]
2013-04-12 10:50:45 [@33Digital, @HotwirePR, @kobygeddes, @]
2013-04-12 08:00:03 [@mccandelish]
2013-04-12 07:59:01 [@Mumbrella]
...
Name: text, dtype: object
我想怎么能够做到是由个人处理和日期组成的,以显示我多年来最多与谁交谈过的人数。
有什么建议吗?
非常全面的回答,谢谢Andy。熊猫原生的方式适用于我 - 我喜欢保留时间戳的想法,这样我就可以按日期分组 - 但感谢您向我介绍collection.Counter。 –