我是一个机器学习的初学者和wan't使用ML蟒蛇,它是大熊猫模块,以了解将非数字到数字的值。所以我有这样的数据框:使用熊猫库
COL1 COL2 COL3
a 9/8/2016 2
b 12/4/2016 23
...
n 1/1/2015 21
COL1是一个字符串,Col2是一个时间戳,Col3是一个数字。现在我需要对这个Dataframe做一些分析,并且我想将所有的非数字数据转换为数字。我尝试使用DictVectorizer()将COL1和2转换为数字,但首先我不确定这是做这种事情的最佳方式,其次我不知道如何处理时间戳。 当我使用DictVectorizer输出会是这样:
{u'COL3: {0:2, 1:23 , ...,n:21}, 'COL1': {0: u'a', 1:'b', ... , n:'n'}, 'COL2': {0: u'9/8/2016' , 1: u'12/4/2016' , ... , n:u'1/1/2016'}}
但是从我所学到的,应该是这样的,或者至少我知道我需要的东西是这样的:
{COL1:'a', COL2: '9/8/2016' , COL3: 2 and so on}
所以,问题: 1 - 什么是将非数字(包括日期),以数值在sklearn图书馆使用的最佳途径 2 - 什么是使用DictVectorize正道()
任何帮助将是更加感激ated。
谢谢你,它的工作原理为COL1而不是COL2 – faranak777
@Faranak对于'COL2'可以使用熊猫[pd.to_datetime](http://pandas.pydata.org/pandas- docs/stable/generated/pandas.to_datetime.html)函数: 'df ['COL2'] = pd。to_datetime(df ['COL2'])' – Tiphaine