text-analysis

    2热度

    1回答

    我有兴趣提取新闻中报道的超自然活动的数据,以便我可以分析 数据的空间和时间的任何相关性。这个项目只是为了好玩,学习和使用网页抓取,文本提取以及空间和时间相关性分析。所以请原谅我决定这个话题,我想做一些有趣而富有挑战性的工作。 首先我发现这个网站有一些报道的超自然事件的收集,他们收集了2009,2010,2011和2012. 网站的结构是这样的,每年他们有1..10页......并且链接是这样的 为

    0热度

    1回答

    最接近的现有问题,我发现是this或this 我想编写一个接受一个字符串,然后根据什么标准可以是一个函数或类编入它将返回它是一个真正的人名的可能性。目前我预计它会严重偏向英文或欧洲名称或其他名称的英文音译。 (例如,“bob”,“bob smith”和“smith”都应该返回1.0,“sfgoisxdzzg”应该返回类似.001甚至.0000001的值) 有没有人知道这是否已经完成/存在做了什么?

    0热度

    1回答

    如果我在页面中显示用户搜索结果是否有任何jQuery插件或一些C#代码用于基于用户搜索的关键字来概括文本? 例如,如果文字是: some very very very [ some words here ] very very very long text 和用户搜索“单词”应该变成: ... very [ some **words** here ] very ...

    0热度

    1回答

    我有一个超过200万名称,阶段,位置等数据库/字典。示例数据如下: “A person who never made a mistake never tried anything new” “Nelson Mandela” “United States of America” “I didn't attend the funeral, but I sent a nice letter

    0热度

    1回答

    我遇到了几个库,它们根据不同的算法计算Wordnet中各种同义词之间的相似度。我的基本问题是Wordnet是否也提供了synsets之间的相似性度量,还是这种相似性度量总是使用某种算法与第三方实现进行计算?

    1热度

    1回答

    它是确定存储文本数据图中的节点时,文本分析会的要求? 我有一个涉及数千个文档的应用程序,它们通过主题,作者,引用等相互关联。我想存储文档之间的链接,但也能够使用文本分析技术分析文档的文本,文本分析也需要所有节点上分析的文档中的文本在字数等 在我研究了一些期权试图以最佳/最实际到达的时刻到来: 使用关系数据库技术和桥表来管理关系信息(Con:SQL查询以“穿越”的关系将是困难的) 使用图形数据库技术

    0热度

    1回答

    我正在开发一个应用程序,我需要处理包含电子邮件的文本文件。我需要一切从文本标记和下面是令牌的定义:“!” 字母数字 区分大小写(大小写被保留) 和'$'将被视为组成字符。例如:​​,$50是令牌 '。' (点)和','逗号将被视为组成字符,如果它们出现在数字之间。例如: 192.168.1.1,24,500美元 是令牌。 等.. 请建议我对Java的一些开源断词,其易于定制,以满足我的需求。只需使

    3热度

    2回答

    请告诉我如何更好地解决这个问题。 我有俄语的文本,我想找到10个最常用词与形态。 也许有任何开源库可以解决这个问题python?

    0热度

    1回答

    给定一本教科书和一组基于给定教科书的选择题,当然是数字形式,关于如何让计算机解决问题的任何想法? 我在考虑一些简单单词关联的问题(例如,如果答案中的某些单词靠近单词中的问题并以某种方式最小化)。我知道那里有更多的数据分析技术,所以请随时分享您的想法。 不,这完全不是家庭作业或学校相关的,我只是随机的想到了这件事。

    6热度

    1回答

    我尝试了正则表达式stemmer,但是我得到了数百个无关的标记。我只是对“戏剧”主题感兴趣。以下是我正在使用的代码: import nltk from nltk.book import * f = open('tupac_original.txt', 'rU') text = f.read() text1 = text.split() tup = nltk.Text(text1) lo