text-analysis

    -1热度

    1回答

    我想在我的矢量中保留单个字符。在scikit-learn CountVectorizer甚至,我保持stop_word参数为None内部实现是从新创建的向量中删除一些字符。如何处理?

    1热度

    1回答

    我只想提取Facebook页面的访问者帖子。我正在使用Rfacebook软件包。 posts -> getPage(page="Troll.Football",token=access_token, feed=T) 此命令也提供管理员帖子。我如何过滤管理员帖子?

    -3热度

    1回答

    我想查找模式并从大量调查数据中提取有用的信息。数据在.xlsx电子表格中进行排序,其中4列与特定问题相对应,每行填充回复者的文本答复。 如何使用python和openpyxl从数据中提取模式,例如单词或短语的频率,四个问题的答案之间的连接或其他任何我应该查找的内容? 我在数据/文本挖掘方面的经验有限,所以如果有一些文档,有用的教程或其他StackOverflow问题,我应该看看,请让我知道。我在这

    2热度

    1回答

    我正在尝试使用sentiwordnet文本文件“SentiWordNet_3.0.0_20130122.txt”。当我导入sentiwordnet.py文件,并尝试运行它,我得到的错误如下:发生 错误为: -------------------------------------------------------------------------- AttributeError Trac

    0热度

    1回答

    我试图检测类似的文本片断,以阻止垃圾邮件发布者发布与小改动相同的垃圾邮件。 为此,我想使用散列而不是将所有句子保存在数据存储中。节省空间并快速查找。 我哈希整个文本,没有标点或怪异的字符,和比较哈希来查找重复的垃圾邮件。 但是,只要垃圾邮件发送者添加一个随机值,系统就会失败。 有没有人有办法改进这个系统?我尝试了感知哈希,但这似乎只对大块文本有效。

    3热度

    3回答

    我有一本大书存储在一个纯文本文件中,并且想分析它以便为每章创建单独的文件。我使用一些简单的正则表达式来查找每章的标题,但我很努力地捕捉到所有的文章。 import re txt = open('book.txt', 'r') for line in txt : if re.match("^[A-Z]+$", line): print line, 我知道这是很不成熟

    0热度

    1回答

    任何自动化的简单文本分析软件? 我需要在下面的文本进行文本分析: http://www.columbia.edu/itc/mealac/pritchett/00generallinks/macaulay/txt_minute_education_1835.html

    -1热度

    2回答

    我有一个包含各种URL的数据集。 https://www.thetrainline.com/buytickets/combinedmatrix.aspx?Command=TimeTable https://wwf-fb.zyngawithfriends.com/wwf-fb.a84485c126e67ea2787c.html http://www.thetrainline.com/destin

    0热度

    3回答

    我是新来的R,但我有情况下,我需要创建新的变量标志,并将其与文本对于特定单词标记为1 。 例如:数据帧 Text flag_USA flag_Canada Canada has 1.6% more total area 0 1 USA has 0.7% more land 1 0 USA has 4 times more arable land

    2热度

    3回答

    我正在使用的文本如下。 到目前为止,我已经导入文本: tempest.v <- scan("data/plainText/tempest.txt", what="character", sep="\n") 确定了所有的扬声器位置的开始: speaker.positions.v <- grep('^[^\\s]\\w+:', tempest.v) 添加标记在文本的末尾: tempest.v