text-classification

    0热度

    2回答

    所以我想知道是否会有一种方法来使用NLP/Machine Learing标记/标记电视或电影文件。 我知道有很多正则表达式的方法已经做到了这一点,但不应该有可能通过NLP /机器学习来完成这个任务吗? 例子: The.Heart.Guy.S01E07.Die.Belastungsprobe.German.DL.720p.HDTV.x264-GDR 应该是这样的: The Heart Guy SHO

    -1热度

    1回答

    我是根据我的训练数据集和计算概率来预测一些值,将它们相加总是给我1或100% 这是我的训练数据 Address Location_ID Arham Brindavan,plot no.9,3rd road Near ls Stn,cannop 4485 Revanta,Behind nirmal puoto Mall, G-M link Road, Mulund(

    0热度

    1回答

    我正在用Scikit-learn试验一个简单的朴素贝叶斯。 本质上,我有两个文件夹,分别命名为猫A和猫B,每个文件夹由大约1,500个文本文件组成。 我加载这些文件,以训练分类像这样: # Declare the categories categories = ['CatA', 'CatB'] # Load the dataset docs_to_train = sklearn.datas

    0热度

    1回答

    我想用sklearn构建文本分类器,然后使用coremltools包将其转换为iOS11机器学习文件。 我已经用Logistic Regression,Random Forest和Linear SVC构建了三个不同的分类器,并且它们都能在Python中正常工作。 问题是coremltools包以及它将sklearn模型转换为iOS文件的方式。作为its documentation说,它仅支持这些机

    0热度

    1回答

    我是编程的初学者,但对于荷兰文本分类实验,我想将csv文件的每个实例(行)转换为单独的.txt文件,以便文本可以通过NLP工具进行分析。我的csv看起来像这样。 正如你所看到的,每个实例在列“Taaloefening1”或列“Taaloefening2”文本。现在我需要将每个实例的文本保存在.txt文件中,并且文件的名称需要是id和标签。 我希望能通过使用csv模块编写Python脚本来自动完成此

    1热度

    1回答

    我有文本变量中的单词列表及其标签。我喜欢制作能够预测新输入文本标签的分类器。 我想在Python中使用scikit-learn软件包来使用SVM模型。 我意识到,文本需要转换为矢量形式,所以我想TfidfVectorizer和CountVectorizer。 这是到目前为止我的代码使用TfidfVectorizer: from sklearn import svm from sklearn.fe

    0热度

    1回答

    我试图按照类别对​​文本进行分类。我有9个类别,但我有的句子可以分为更多的类别。我的目标是拿一段文字,找出每个句子的行业,我遇到的一个常见问题是我的培训集没有“色情”类别,并且色情材料的句子归类为“金融”。 我希望我的分类器检查句子是否可以分类到一个类,如果不是只打印该分类不能分类该文本。 我使用Tf-idf矢量化器来转换句子,然后将数据输入到LinearSVC。 任何人都可以帮助我解决这个问题吗

    0热度

    1回答

    我正在学习一点ML,我被困住了。假设我想用k个邻居做一些文本分类。我使用tfidf向量化工具创建一个Matrix术语文档,其中为每个单元存储tf-idf值。 现在,我该如何绘制飞机上的点?我的意思是对于x1-y1,y1是文档1的预测类,但是x? 文档X1中的每个术语都是Vector?我的意思是我无法真正理解文本分类中的哪些是飞机上的点以及如何将它们可视化。谢谢。

    1热度

    1回答

    import numpy as np import pandas as pd from sklearn.pipeline import Pipeline from sklearn.feature_extraction.text import CountVectorizer from sklearn.svm import LinearSVC from sklearn.linear_mode

    0热度

    1回答

    使用R和tm,我加载并清理了一堆文本文档,并将它们制作成语料库。之后,我使用tf-idf构建了他们的DTM,并且可以用于各种分类聚类算法。到现在为止还挺好。 现在,让我们假设我有一个新文档,并尝试计算它与Corpus中文档的距离。当然,我需要将它应用于原始集合的所有转换。但我不明白如何计算新文档的tf-idf矢量,因为tf-idf依赖于整个集合,而不是单个文档。将新文档添加到语料库并重新计算其tf