text-analysis

    0热度

    1回答

    我正在开发一个R项目。我使用的数据集在以下链接处可用 https://www.kaggle.com/ranjitha1/hotel-reviews-city-chennai/data 我已经使用的代码是。 df1 = read.csv("chennai.csv", header = TRUE) library(tidytext) tidy_books <- df1 %>% unnest_tok

    -1热度

    2回答

    我在我的csv中有一个列,其中有一个字段“features”。该领域有数据以这种格式 {""Air conditioning"",""Elevator"",""Smoke detector""} {""Air conditioning"",""Railing Lights"",""Smoke detector""} {""Air conditioning"",""Washer"",""Drye

    0热度

    1回答

    我使用分布式word2vec算法创建了词向量。现在我有单词和相应的向量。如何使用这些单词和向量来构建gen​​sim word2vec模型?

    0热度

    1回答

    我想从它的[0:10]字符的句子列表中切出每个句子。句子的列表 例如:列表名称= sd_list [ '我出生在德里的长大。', '我使用的戴尔Latitude E5140笔记本电脑自2012年', “我在ABC公司工作,因为2014年”] 我试图通过运行下面的代码,每个句子的前10个字符切片和失败。 sent10 = [s[0:10] for s in sd_list] 通过运行这个我遇到了

    2热度

    3回答

    我一直在探索NLP技术,目标是确定调查评论的主题(然后将其与情感分析结合使用)。我想做出高水平的表述,例如“10%的受访者对客户经理做出了积极的评论(+观点)”。 我的方法使用了Named Entity Recognition (NER)。现在我正在处理真实数据,现在我可以看到与识别句子主题相关的复杂性&。这里有5个例子,其中主题是客户经理。出于演示目的,我已将该命名实体加粗。 我们客户经理是伟大

    0热度

    2回答

    如果在400万观测数据文件的每一行中出现约2000字的一个,我正在使用R和写脚本来计算脚本。具有观察值(df)的数据集包含两列,一列包含文本(df $ lead_paragraph),另一列包含日期(df $ date)。 使用以下内容,我可以计算列表(p)中的任何单词是否出现在df文件的lead_paragraph列的每一行中,并将答案作为新列输出。 df$pcount<-((rowSums(s

    1热度

    1回答

    我正在使用R和Python,并试图在一定程度上学习基于文本的分析和NLP。 问题:我如何拆分句子是句子像下面 句子=我喜欢我喜欢的系统,我不喜欢被人跟踪过程中的应用程序组合。 我想这句话分成 我喜欢的应用程序 我喜欢的系统 我不喜欢这个过程所遵循 注:我能够分割一个像下面这样的句子,因为它有一个.来表示句子的结尾 句子=我喜欢这个应用程序。我喜欢这个系统。我不喜欢这个过程。 VJ

    1热度

    2回答

    我在csv文件中有客户服务的客户查询和答案。我需要确定每个问题的主题,然后在此基础上开发一个分类模型。我创建了两个文档术语表(清理文档后),一个用于提问,另一个用于答案。我通过在整个文档中仅使用400次以上的术语(大约4万个问题和答案)缩小了规模。 我想创建一个数据框,将这两个矩阵按行合并,只保留常见的单词并回答dtm(并将它们的频率相加,我应该如何在R中执行此操作?最高频率单词标记的问题。 上的

    1热度

    1回答

    因此,我已经有了TDM,但它在Excel上。所以我将它保存为CSV。现在我想做一些分析,但是我不能将它作为使用tm包的TDM加载。我的CSV看起来是这样的: item01 item02 item03 item04 red 0 1 1 0 circle 1 0 0 1 fame 1 0 0 0 yellow 0 0 1 1

    2热度

    1回答

    我正在研究我的机器学习模型和我拥有的数据的功能。我的数据包含很多文本数据,所以我想知道如何从中提取有价值的功能。相反,我以前的信仰,这往往是由表示与袋的字,或像word2vec:(http://scikit-learn.org/stable/modules/feature_extraction.html#text-feature-extraction) 因为我对这个问题的理解是有限的,我不明白为什