我正在使用Python 2.7的LingPy 1.0.1库,尝试在单个制表符分隔的西班牙语列表上进行同源分析 - 我创建的英文单词。清单名为SE.lxs,看起来像这样: ID Words Spanish
1 dog pero
2 cat gato
3 water agua
4 table meza
5 hand mano
6 red rojo
7 blue azul
8 gr
我正试图计算我正在编译的斯瓦希里语语料库的频率分析。目前,这是我有: import os
import sys
from collections import Counter
import re
path = 'C:\Python27\corpus\\'
cnt = Counter()
listing = os.listdir(path)
for infile in listin
我正在寻找一个微调未知文字一定长度的解决方案。只保留完整的句子。 所以这样 "Were you born 1. 3. 1987 in Prague? Štěpán Jr. lives there for 3 years now! "
文本应该变成 "Were you born 1. 3. 1987 in Prague? "
的字符限制50,40(和20 --find-下句结尾)。 我读过许