text-processing

    1热度

    1回答

    我在linux机器上有一个巨大的纯文本文件(〜500Gb)。我想要在标题行(文件的第一行)中替换一些字符串,但是我所知道的所有方法似乎都很慢且效率较低。 例如文件: foo apple cat 1 2 2 2 3 4 3 4 6 ... 预期文件输出: bar apple cat 1 2 2 2 3 4 3 4 6 ... sed的: sed -i '1s/foo/bar/

    2热度

    1回答

    在Keras中使用单词的正克是否是真的? 例如,句子列表在X_train数据框中包含“句子”列。 我在接下来的方式标记生成器使用来自Keras: tokenizer = Tokenizer(lower=True, split=' ') tokenizer.fit_on_texts(X_train.sentences) X_train_tokenized = tokenizer.texts_to

    0热度

    1回答

    我想用更多的n-gram来制作word2vec模型。正如我发现的,gensim.models.phrase中的短语类可以找到我想要的短语,并且可以在语料库上使用短语并将其用于word2vec训练函数的结果模型。 因此,首先我要做一些类似于下面的事情,完全像gensim documentation中的示例代码。 class MySentences(object): def __init__

    0热度

    1回答

    对于我工作的一部分,我们根据用户在其驱动器中的所有文件制作完整列表。这些用户必须决定是否归档这些文件(用Y或N表示)。作为对这些用户的服务,我们手动为他们填写。 我们将这些文件导出到excel中的长列表中,该列表将每个文件显示为X:\ 4。经济学\ 10。 XXXXXXXX \ 04。 XXXXXXXXX \ 04。 xxxxxxxxxx \ filexyz.pdf 我认为我们可以很容易地自动执行

    0热度

    2回答

    我使用LOAD DATA INFILE语句将数据从管道分隔的CSV导入到MySQL。我正在使用'\ r \ n'来终止行。我的问题是,每行内的一些数据中有'\ r \ n',导致加载错误。我有类似的文件,只是在数据中使用'\ n'来指示换行符,并且不会引起任何问题。 例GOOD CSV School|City|State|Country\r Harvard University|Cambridg

    -1热度

    3回答

    我正在寻找一种方法来删除markdown文档中的空白部分,更具体地说,更新日志。 举例来说,如果我有: ## Version ### Added - something ### Removed ### Changed - something ### Fixed 我想直到结束: ## Version ### Added - something ### Chang

    3热度

    4回答

    我知道所有的问题关于添加leading zero和全面响应为他们提供诸如Q1,Q2,Q3。 但对我来说,至少根据我目前所知,我不能够解决什么,我要做的事情如下: 添加leading zero使用regex模式匹配 所以一个string,我想在-之后将leading zero仅添加到digits。 例如: Sam <- c("222-88", "537-457", "652-1", "787-892

    1热度

    1回答

    我正在寻找使用shell脚本在某些列中使用X来掩盖某些数据。例如,我想掩盖第一列只有X在新文件中。不知道最好的方法来完成这一点。 输入 DL1234, 454890, tall, A, A7, 1234, 457, Male, Active 所需的输出 XXXXXX, 454890, tall, A, A7, 1234, 457, Male, Active

    1热度

    2回答

    我想从字符串中提取YAML块。该块不是典型的YAML,并以---开头和结尾。我希望这些标记之间没有标记本身的文字。下面是一个试验串(SWIFT 4): ​​ 在纯的正则表达式的图案将是---([\s\S]*?)---。我最初的想法是,因为我是初学者,所以使用VerbalExpressions,但我无法使用言语表达再现这种模式。我得到的最接近是: let tester = VerEx()

    0热度

    1回答

    我试图找出一种方法来导入一个.txt文件,理想地使用python 3.5作为数据框(pandas)。我用不同的数据做了几次。这个文件有几千例/实例,这需要每13线之后是一个空行: Cat1: text … Cat13: text Cat1: text … Cat13: text … 使用下面的代码,我可以访问每一行,并创建一个新的载体每个实例(不幸的列向量而不是行向量,它可以被添加