我正试图从长数据集和大数据集中只清理一列。数据有18列,超过10k +行约100s的csv文件,其中我只想清理一列。从长数据集和大数据集中清理一列
输入字段只能从一长串几个
userLocation, userTimezone, Coordinates,
India, Hawaii, {u'type': u'Point', u'coordinates': [73.8567, 18.5203]}
California, USA
, New Delhi,
Ft. Sam Houston,Mountain Time (US & Canada),{u'type': u'Point', u'coordinates': [86.99643, 23.68088]}
Kathmandu,Nepal, Kathmandu, {u'type': u'Point', u'coordinates': [85.3248024, 27.69765658]}
全部输入文件:Dropbox link
代码:
import pandas as pd
data = pandas.read_cvs('input.csv')
df = ['tweetID', 'tweetText', 'tweetRetweetCt', 'tweetFavoriteCt',
'tweetSource', 'tweetCreated', 'userID', 'userScreen',
'userName', 'userCreateDt', 'userDesc', 'userFollowerCt',
'userFriendsCt', 'userLocation', 'userTimezone', 'Coordinates',
'GeoEnabled', 'Language']
df0 = ['Coordinates']
其他各列写入,因为它是在输出。这之后如何去做?
输出:
userLocation, userTimezone, Coordinate_one, Coordinate_one,
India, Hawaii, 73.8567, 18.5203
California, USA
, New Delhi,
Ft. Sam Houston,Mountain Time (US & Canada),86.99643, 23.68088
Kathmandu,Nepal, Kathmandu, 85.3248024, 27.69765658
可能的最简单的建议,或直接我一些例子很多帮助。
谢谢你的答案。 –
非常感谢你..这已经解决了我的一半问题。 –