我正在使用R进行文本分析,并且需要将句子的第一个字母转换为小写,同时保留其他大写字母的方式。所以我用命令无法删除txt文件中的空白行R
x <- gsub("(\\..*?[A-Z])", '\\L\\1', x, perl=TRUE)
哪些工作,但部分。问题在于,为了进行文本分析,我必须将pdf文件转换为txt格式,而现在txt文件包含大量空行(分页符,可能返回的内容),因此我使用的命令不会将大写字母出现在新行中。我试图用多个\ s删除空行,使用gsub中的不同组合,\ r,\ n但没有任何效果。当我做检查(X)的TM-包,输出看起来按以下方式:
[346]
[347] Thank you.
[348]
[349] Vice President of Investor Relations
[350]
我将不胜感激,如果有人可以帮助我!
你是什么意思的“句首”字?多少封信?他们全部?他们中有一些? –
只是第一个资本,所以它看起来像: '[341]效率和生产力。我们认为' –