我的代码:记号化 - 字符串数组令牌
import numpy as np
import pandas
import codecs
import re
dataframe = pandas.read_csv("tmp.csv", delimiter=",")
dataset = dataframe.values
x = dataset[:,0:1]
y = dataset[:,1]
#j = 0
for data in x:
text = str(data[0])
tokenizer = re.compile('\W+')
tokens = tokenizer.split(text)
i = 0
for token in tokens:
tokens[i] = token.lower()
i += 1
data = tokens
#x[j] = tokens
#j += 1
print(data)
print(x)
虽然print(data)
的形式为['token1', 'token2', ...]
print(x)
的形式[["text1"], ["text2"], ...]
我想要的形式[['token1', 'token2', ...], ['token5', 'token6', ...], ...]
对于x
x[j] = tokens
代替具有计数指数j的data = tokens
返回ValueError: cannot copy sequence with size 4 to array axis with dimension 1
tmp.csv有这种形式:image约3,5万行。
我相对比较新的python,所以我希望任何人都可以帮助我。
请[编辑]你的问题,包括CSV文件的内容 –