我有数百个文件包含我想要与NLTK一起使用的文本。这里有一个这样的文件:从自定义格式的数据创建语料库
বে,বচা ইয়াণ্ঠা,র্চা ঢার্বিত তোখাটহ নতুন, অ প্রবঃাশিত। তবে ' এ বং মুশায়েরা ' পত্রিব্যায় প্রকাশিত তিনটি লেখাই বইযে সংব্যজান ব্যরার জনা বিশেষভাবে পরিবর্ধিত। পাচ দাপনিকেব ড:বন নিয়ে এই বই তৈরি বাবার পরিব্যল্পনাও ম্ভ্রাসুনতন সামন্তেরই। তার আর তার সহকারীদেব নিষ্ঠা ছাডা অল্প সময়ে এই বই প্রব্যাশিত হতে পারত না।,তাঁদের সকলকে আমাধ নমস্কার জানাই। বতাব্যাতা শ্রাবন্তা জ্জাণ্ণিক জানুয়ারি ২ ণ্ট ণ্ট ৮ Total characters: 378
注意,每一行都不会不包含一个新的句子。相反,句子终结者 - 相当于英语的时期 - 就是'。'符号。
有人可以帮我创建我的语料库吗?如果导入到变量MyData中,我需要访问MyData.words()和MyData.sents()。另外,最后一行不应出现在语料库中(它只包含一个字符数)。
请注意,我将需要立即对所有文件运行数据操作。
在此先感谢!
也许,如果你解释什么_corpus_是... – C2H5OH 2012-04-04 07:19:46
一个语料库是一个大文本体。我打算使用NLTK语料库阅读器(如果需要,也可以自己写一个)。使用NLTK的人会知道语料库是什么。 – 2012-04-04 07:31:24
@ C2H5OH http://en.wikipedia.org/wiki/Text_corpus – javanna 2012-04-04 08:55:03