linguistics

    1热度

    1回答

    有没有一种简单的方法可以找到与Python给出的单词列表最小的对?最小的一对是一对两个单词只有一个声音不同(pythonian术语中的一个字符)。因此,例如像一个列表: wordlist = ["paka", "baka", "puki", "paki", "suki", "suku"] 最小对是:“帕卡”和“白痴”,“puki”和“帕基”,“puki”和“寿喜”,“寿喜”和“SUKU “ 我

    0热度

    1回答

    我尝试了一些基本的东西,比如问题是以“who/what/..”开头,但是有很多句子不是以疑问词开始,而是要求像“新加坡酒店”这样的答案。 我弄清楚了这样一个逻辑,即那些没有提供某些信息但在这个意义上不完整的句子只能属于疑问类。有没有这个主题的一些参考?

    1热度

    1回答

    语义互操作性和上层本体之间的关系是什么?

    3热度

    1回答

    是否有任何用于自动检测英语短语(复合)动词的库?也许其他种类的词组构成了特殊的含义?

    8热度

    2回答

    我正在使用卡内基梅隆大学发音字典检测Python中的韵,并且想知道:我如何估计两个词之间的音素相似度?换句话说,是否有一种算法能够识别“手”和“计划”比“手”和“薯条”更接近押韵的事实? 一些方面:首先,我愿意说,两个词押韵,如果他们的主要重读音节和所有后续音节是相同的(c06d,如果你想在Python中复制): def create_cmu_sound_dict(): final_s

    0热度

    2回答

    我猜想一个语言问题,但代码 print "%d" % (5)中调用了(5)是什么? 我叫%d整数表示,但我不知道怎样称呼它实际上代表的东西,不管它是一个数字,一个变量,计算或瓦特/ E的。 它被称为争论? 我不知道,因为我正在做一个任务分配时,我计算的东西在括号,而不是做一个新的变量注释,计算变量并插入该变量像x = 5;print "%d" % (x)

    0热度

    1回答

    我有许多句子的文本语料库,其中标记了一些命名实体。 例如,这句话: 威奇托德州最好的餐厅是什么? 其中被标记为: 是什么<location>最好的餐馆? 我想扩展这个语料库,通过取样或抽样已经存在的所有句子,并用相同类型的其他类似实体(例如,将“wichita texas”替换为“new york”,所以语料库将会变得更大(更多句子)并且更完整(其中的实体的数量)。我列出了类似的实体,包括没有出现

    2热度

    1回答

    我使用OpenNLP的辅助包进行照应解析。所以基本上我有这个输入字符串: “哈利给哥哥写了一封信,他告诉他,他在伦敦遇见了玛丽,他们一起吃了午餐。 集合提到输出的情况如下: 哈利,他,他,他,他,他们 我需要它的专有名词来代替代词。我为此写了一个简单的算法,将每个提到的元素添加到列表中,然后遍历列表,同时用第一个提及(“Harry”)替换每个代词。我的问题是“他的”将是“哈利”而不是“哈利的”。

    9热度

    3回答

    我想从200个单词的列表中创建一些排列 - 这显然会产生一个问题,因为这会导致一些可能的巨大数量的可能排列(短语中最多5个单词)。为了有效地限制这个号码我有一个双管齐下的攻击: 通过POS滤波器通的话,这样只在语言声音短语创建和 过滤器由那些实际的n-gram的排列 - 即有很高的PMI /可能性分数。 这一概念的第二部分有我不知道 - 我知道,NLTK提供找n元语法的能力,但我每次看到示例分析语

    10热度

    1回答

    我试图将电话(字符)出现在一个字符串中,但变音符列表为字符。理想情况下,我在国际音标字母表中有一个单词表,有相当数量的变音符号和它们与基本字符的几种组合。我只用一个词给这里一个MWE,但是同样有单词列表和更多类型的组合。 > word <- "n̥ana" # word constituted by 4 phones: [n̥],[a],[n],[a] > table(strsplit(word