也许这是不可能的,我应该放弃所有的希望。或者,也许有一种非常聪明的方式来做到这一点,我没有想到。我有多种语言的文本文件。如何有选择地删除NLTK中的一种语言?
这里是我的本钱了两个例子:
يبس - ييبس(yabisa, yaybasu)YBS] [ي,ب-س(变得干燥, 僵硬,死板)20 :77 yabasan =干。 يسر - ييسر(yassara, yuyassiru)[y-s-r] [ي-س-ر](致 方便,容易)92:7 nuyassiruhuu =我们会缓解他。
和
祖Hülfe! zuHülfe!帮帮我!帮帮我!
Sonst bin ich verloren!否则我失去了 !祖胡尔夫!祖胡尔夫!帮帮我! 帮助! Sonlore bin ich verloren!否则我迷路了! Der listigen Schlange zum Opfer erkoren, 被选为献给狡猾的 蛇,BarmherzigigeGötter!仁慈的 神!舍恩nahet SIE SICH,它已经变得 接近,舍恩nahet SIE SICH,它已经越来越近,
...这将是非常恼人的经历,为了进一步处理这些行删除一种语言的文字。
我认为这可以在NLTK中完成的一种方式是将文本拆分为令牌,根据小语料库知道每个令牌的出处,然后要求NLTK仅“重构”令牌我选择的。这只是一个狂野的幻想吗?