我已经导入与Jupyter笔记本(Python的2)熊猫read_csv制表符分隔的文件中提取列名,我已经提取出的关注的Python - 熊猫 - 从数据帧
rawData = pd.read_csv(filename, delim_whitespace = True, header = 20)
columnOfInterest = rawData.ix[:, 9]
格式的单柱我感兴趣的列如下所示:
header1=123;header2=123;header3=123
并非此DataFrame中的每一行都有每个标题,并且我不知道可能的标题的完整集合。 123,我的数据值都是数字。
将列中的元素分开使用后;作为我的分隔符,我所有的行都有许多列等于行中值的数量,这在数据集中是不统一的。我想将其转换为缺少值的矩阵。
我想要做的是从我的DataFrame中取出每一行,提取标题信息,如果标题标签是新的(即它不存在于已处理的任何行中),那么我会喜欢将它添加到我的列名称列表中。当然,我希望从行中删除标题名称和等号,并且我希望我的数据都处于适当的位置(所以,使用附加到每个数据值的标题信息将值放在适当的列中)。所以,我想看起来像这样的东西:
# Original data frame, first 2 rows
['header1=123', 'header2=123', 'header3=123'] # <--- no header4
['header1=123', 'header3=123', 'header4=123'] # <--- no header2
# New data frame, first 2 rows plus column names
header1 header2 header3 header4
123 123 123 null # <--- header4 == null
123 null 123 123 # <--- header2 == null
显然,这似乎是一个正则表达式的工作!然而,我对如何在熊猫中去解决这个问题感到不知所措。缺失的数据应该为空。
谢谢!
圣摩西!这很完美,非常感谢。哦,还有漂亮的图灵头像! –
非常感谢您的帮助。做upvote并接受答案,如果有帮助 – Dark
完成!我早些时候尝试过投票,但我没有足够高的代表分数。有人提出了我的问题,让我跨入门槛,所以现在我可以高兴起来! –