2010-09-25 28 views
31

我想下载一个英文字典 - 而不仅仅是一个word list - 以结构化的格式,如TXT,XML或SQL。我可以从哪里获得含有结构化数据的英文字典?

具体而言,我需要语音发音词性(不需要定义)。

令人惊讶的是,我无法在任何地方在线找到它。 Wiktionary可用for download,但它只是MediaWiki文章本身。抓取所有文章并提取语音和词类将是一项巨大的工作。

这是可用的吗?我不介意付钱。

编辑:有人问我想做什么。我的需要只是好奇心,例如“什么是最常见的双音节动词?”。最终,我的希望将成为帮助您找到可用域名的工具,并且通过将正确的讲话部分与语音匹配的奖励点配对来实现。

注意:交叉发表于English Language and Usage

+0

请检查这里的Excel文件:http://www.freedownloadscenter.com/Themes/School_Themes/AsIfSound_Dictionary.html – 2010-09-25 22:35:36

+1

请注意,如果您决定抓取它应该不会太难。他们在发音上设置了CSS类:' /stʌf/' – Earlz 2010-09-27 19:08:54

+0

这是作为https://phabricator.wikimedia.org/T38881提交的 – Nemo 2015-04-06 12:12:16

回答

2

波特曼,虽然我用SpellChecker tool from DevExpress我知道有存在the OpenOffice dictionaries我很确定他们有一个明确的数据结构。我建议您将其与任何免费/付费文本结合使用以用于语音工具。

希望帮助,

+0

他正在寻找发音和词类,而不是只是一个单词列表(这是DevExpress和OpenOffice提供的)。 – 2010-09-25 16:51:04

+0

@Jess - DevExpress使用OpenOffice的单词列表,但也有一个SpellChecker。我建议他使用标准的.dic和.aff文件来查找单词,然后使用它来保证发音。 – 2010-09-25 16:58:19

+0

OpenOffice文件实际上是Aspell的一个子集。它们只包括拼写。没有词性,也没有发音。 – Portman 2010-09-25 17:28:27

1

这是不是直接回答你的问题,但双音位算法是在寻找单词或短语很好的搜索引擎应用服务器(如Solr的等)相匹配。

我不能说出你的意图是什么,所以我不知道我的建议是否有用。如果它接近您的预期用途,关于Double Metaphone的维基百科页面列出了其大约十二个实现,其中可能值得探索。

http://en.wikipedia.org/wiki/Double_Metaphone

6

WORDNET是我所知道的最好的字典之一。也许你会发现一些有: http://wordnet.princeton.edu/wordnet/related-projects/

+0

这看起来很有前途。我希望数据不是自定义格式,但它看起来可以提取。 – Portman 2010-09-30 16:33:58

+0

它看起来不像它包含发音的信息,例如一个单词的IPA或音节信息。但我可能是错的。 – pilcrowpipe 2017-01-23 06:11:37

15

转到http://www.speech.cs.cmu.edu/cgi-bin/cmudict,你会在https://cmusphinx.svn.sourceforge.net/svnroot/cmusphinx/trunk/cmudict/

最新版本找到了发音词典的下载页面目前cmudict.0.7a。

这是我目前用来实现http://www.haikuvillage.com的音节计数器。这是在Ruby中,如果有帮助,我会很乐意为你开源。语音字典的

+0

酷!这非常有帮助。现在我需要讲话的部分... – Portman 2010-09-30 16:30:53

+0

http://haikuvillage.com/太棒了! – Gourneau 2011-01-04 00:35:44

+0

这是一个相当古老的问题,我有一个很短的时间框架,但如果你仍然愿意分享它,我会对如何将ARPAbet手机转换为音节的来源或解释感兴趣 – TheXenocide 2017-04-21 20:57:25

8

零件在公共领域与高度结构化的格式:http://icon.shef.ac.uk/Moby/mpos.html

每一行是一个入口,由×分离,用在左侧和部分的语音值的字值(动词,等等)在右边。简单的文本文件。

相关问题