我想要做的就是使用scikit.learn中的Kmeans将纯文本文档分为两类。scikit.learn和kmeans的新手段,如何使用K表示将文档集群化(来自文件)?
这是用例场景。 我将会收到一些将被标记为“重要”并且将被标记为“不重要”的样本集。
从scikit.learn实例数据集是从新闻组预定义的格式:
dataset = fetch_20newsgroups(subset='all', categories=categories,
shuffle=True, random_state=42)
我想要做的就是接收来自文本文件中的数据(20newsgroups似乎不是文本文件,同时,我甚至不能将其解压)
我不清楚的是fetch_20newsgroups的数据结构及其工作原理。 而且我应该做的文本文件转换成需要的格式(由fetch_20newsgroups提供这样的一种)
感谢
叫Phyo什么。
非常感谢您,测试.load_files方法后,我可能对NB和LinearSVC有更多问题。我会在那里邀请你。 –
嘿@ogrisel,你能在这里回答我的问题吗? http://stackoverflow.com/q/13068257/200044我打算在scikit-learn上实现多处理 –