我有熊猫文本列:熊猫+ CountVectorizer:如何筛选行快速
df['TEXT_COL']
然后我申请CountVectorizer它:
vectorizer = CountVectorizer()
v = vectorizer.fit_transform(df['TEXT_COL'])
,并得到一组字/特点:
ft = v.get_feature_names()
和TDM:
m = vectorizer.transform(df['TEXT_COL'])
我需要:片DF只包含包含来自feature_set英尺特定功能行。
如何得到它?
熊猫设置:
import pandas as pd
data = [('Word'), ('Word Sea Ocean'), ('Tree'), ('Forest Tree')]
df = pd.DataFrame(data)
df.columns = ['TEXT_COL']
from sklearn.feature_extraction.text import CountVectorizer
vectorizer = CountVectorizer()
v = vectorizer.fit_transform(df['TEXT_COL'])
ft = vectorizer.get_feature_names()
m = vectorizer.transform(df['TEXT_COL'])
用于英尺F:
???
可以显示/发表您的期望的数据集?如果你要搜索所有的功能,那么你将得到几乎所有的行(除了那些只包含停用词的行) – MaxU