我遇到了一个问题,我必须将其他功能(平均字长)添加到由Scikit学习的CountVectorizer函数创建的令牌计数列表中。假设我有以下代码:向CountVectorizer矩阵添加其他功能
#list of tweets
texts = [(list of tweets)]
#list of average word length of every tweet
average_lengths = word_length(tweets)
#tokenizer
count_vect = CountVectorizer(analyzer = 'word', ngram_range = (1,1))
x_counts = count_vect.fit_transform(texts)
对于每个实例,格式应为(令牌,平均字长)。我最初的想法是简单地使用压缩功能这样串联的两个列表:
x = zip(x_counts, average_lengths)
但后来我得到一个错误,当我尝试适合我的模型:
ValueError: setting an array element with a sequence.
任何人有任何想法如何解决这个问题呢?