linguistics

    3热度

    1回答

    我想从短荷兰文文本中提取关键词。是否有这个或我可以使用的某个库的API。 如果这些不适用于荷兰人,任何关于如何提取他们自己的提示也表示赞赏。我已经通过一部分讲话标签和lemmatizer运行文本自己尝试过了。但从那时起,我发现很难提取体面的关键字。 TF-IDF没有用,sice文本太短而无法获得好的结果。 我更喜欢Java,但任何其他语言的实现也非常受欢迎。

    0热度

    1回答

    所以我想提出一个“冰箱贴”互动,我试图找出一个有效的数据集的话,以具有为用户拖动。 我使用的这组数据..但它是不是很大 http://en.wikipedia.org/wiki/Most_common_words_in_English 和想法在哪里可以找到一个更有效的组词,你可以做到这一点

    9热度

    5回答

    想知道是否有人有任何提示或可以指向正确的方向找到/创建某种算法来找到押韵的单词。 我特别不想使用API​​,因为创建算法只是为了创建它是我的最终目标。 不是说它应该很重要,但我用java编码。 谢谢

    0热度

    2回答

    我正在使用Python 2.7的LingPy 1.0.1库,尝试在单个制表符分隔的西班牙语列表上进行同源分析 - 我创建的英文单词。清单名为SE.lxs,看起来像这样: ID Words Spanish 1 dog pero 2 cat gato 3 water agua 4 table meza 5 hand mano 6 red rojo 7 blue azul 8 gr

    0热度

    2回答

    我正试图计算我正在编译的斯瓦希里语语料库的频率分析。目前,这是我有: import os import sys from collections import Counter import re path = 'C:\Python27\corpus\\' cnt = Counter() listing = os.listdir(path) for infile in listin

    6热度

    1回答

    我想在iOS应用程序中生成基于选区分析的英语句子树。 http://en.wikipedia.org/wiki/Parse_tree 我目前的选择似乎是: 写从NSLinguisticTagger标签POS上面我自己的树生成。 将基于python的NLTK嵌入到我的应用程序中。 创建或使用基于服务器的方法。 任何人都可以推荐这些方法之一,或者建议另一种?

    0热度

    2回答

    我正在寻找一个微调未知文字一定长度的解决方案。只保留完整的句子。 所以这样 "Were you born 1. 3. 1987 in Prague? Štěpán Jr. lives there for 3 years now! " 文本应该变成 "Were you born 1. 3. 1987 in Prague? " 的字符限制50,40(和20 --find-下句结尾)。 我读过许

    0热度

    4回答

    这与stackoverflow上的绝大多数问题有点不同(是的,我花时间搜索和阅读),所以请耐心等待。 我有文字A,如:allow *,apolog *等。总共有成千上万的这样的条目。而且我有文件B包含一个文本的主体,与成千上万的单词。我希望能够在FILE A. 例匹配的话在我的文字的话在文件B: 文件B的 “道歉” 将匹配文件中的 “apolog *” 文件B的“一个”既不匹配‘允许*’,也不是‘

    2热度

    2回答

    最初,我有m数组n字符,其中每个数组包含未知(对我来说)所需字的字符(条件:字有含义)。 例如,米 = 4,Ñ = 3:ARRAY0 = { '吨', 'è', 'ç '},ARRAY1 = {' 克'' ø '' 一个 '},数组2 = {' 瓦特 '' d'ý '},ARRAY3 = {' è '' Ø''s'}。每个阵列仅包含一个正确的字母:在ARRAY0是第一个字母,在ARRAY1 - 第

    0热度

    1回答

    我有一个程序,我给它一个名词,并用名词表检查它的数据库,看看这个名词是否在那里。 这适用于单数名词。 例如。 用户类型,'什么是树?' 程序搜索'树'。 但是对于'什么是树? ' 该程序将搜索'树',但数据库只存储单数形式的名词,所以它不会被发现。 我正在考虑在我进行搜索之前取走最后一个s。 例如。 if ((searchnoun.charAt(searchnoun.length-1))=== '