我正在寻找Python的nltk,但它拆分(标记)won't
为['wo',"n't"]
。有没有更强大的库?是否有将句子拆分为单词列表的库?
我知道我可以建立某种类型的正则表达式来解决这个问题,但是我正在寻找一个库/工具,因为它会是一个更直接的方法。例如,在使用句号和逗号的基本正则表达式之后,我意识到像'先生'会打破系统。
(@artsiom)
如果一句 “你会不会?”,分裂()会给我[ “你”, “不会?”。所以还有一个'?'我必须处理。 我正在寻找一种久经考验的方法,它可以消除像上面提到的那样的扭结问题,还有很多我肯定存在的例外情况。当然,如果我找不到任何东西,我会采取分裂(正则表达式)。
很抱歉,如果我错过somenthing但为什么不text.split()? –
你期望什么结果? – Simon