text-processing

    -1热度

    3回答

    我想从文本文件中提取特定的单词。 以下是示例文本文件: https://drive.google.com/file/d/0BzQ6rtO2VN95d3NrTjktMExfNkU/view?usp=sharing 请检查它。 我想提取字符串为: "Name": "the name infront of it" "Link": "Link infront of it" 说输入文件,我期待着得到这

    1热度

    1回答

    。下面我尝试定义一个识别文件路径的递归指令。我知道在这种情况下,我可以使用正则表达式([a-z]+\/)+[a-z]+来表示这个语法,但是我有一个更复杂的规则集,可以从我的真实代码中受益。当有正斜杠时导致此指令失败的原因是什么? @(define location)@\ @ (cases)@\ @/[a-z]+/@\ @ (or)@\ @/[a-z]+//@(location)@\ @

    1热度

    1回答

    我有一个文件夹中的许多文件: yyyymmdd_hhmmss.mp4 yyyymmdd_hhmmss_suffix1.mp4 yyyymmdd_hhmmss_suffix1_suffix2.mp4 以下文件名格式也是可能的(很少): yyyymmdd_hhmmss_$$$.mp4 yyyymmdd_hhmmss_$$$_suffix1.mp4 yyyymmdd_hhmmss_$$$_s

    0热度

    1回答

    对不起,如果这是一个愚蠢的问题,但我不知道用什么关键字来找到答案,所以没有我得到的是我正在寻找的。 我有一列:df $ infecting_agent。参赛作品有像“金”,“细菌”,“病毒”,“细菌”等 我想两个新列:DF $细菌和DF $病毒 我想所有观察到有“ 1“,如果诊断条目包含”bact“或”cocc“或”staph“,在引用内容之前或之后允许任何内容。我会为病毒列做类似的事情,很多观察

    1热度

    2回答

    有没有某种算法或概念,可以帮助解决以下问题? 说我有两段文字,代码段1和代码段二。 片段1内容如下: “狗吓得不敢出门到风暴” 片段2如下: “犬被吓倒进入阴雨天气“ 有没有一种方法可以比较使用某种算法的片段,或者某种字符串理论系统?我想知道在解决这个问题之前是否有任何种类的系统解决了这个问题。 更新: 好的,举一个更具体的例子,说我想减少票务系统中的错误数量。我想做一些扫描,看看是否有任何相关或

    2热度

    1回答

    我想阅读NLTK的CategorizedPlainCorpusReader中的孟加拉语文本。对于这种快照我孟加拉语文本文件在gedit文本编辑器:文件在崇高的文本编辑器 快照: 从快照可以看到这个问题。问题在于Unicode组合问题(虚线环是一个死牌)。这里是读课文的代码段: >>> path = os.path.expanduser('~/nltk_data/corpora/Bangla')

    -2热度

    1回答

    我有一些联邦pdf格式的填充数据init。可以说,例如i765,我有这种形式的数据可用文本格式,适当填写的细节。我怎样才能从这个表格中提取数据并进行最少的解析。让我们说如何写一个脚本来标识“差异”,这本身就是充满信息。 对于例如:如果一个行包含.. SSN:(空白)和实际填写表单有SSN:ABC @#456 所以填写的信息是什么,但ABC! @#456这只是字符串之间的区别。有没有一种我可以遵循的

    0热度

    1回答

    我试图创建一个矩阵, 为此,我使用该R指令: matrix = create_matrix(tweets[,1], toLower = TRUE, language="english", removeStopwords=FALSE, removeNumbers=TRUE, stemWords=TRUE) 这里将R代码: library(RTextTool

    0热度

    3回答

    我试图创建一个脚本,在文件末尾插入一行。但是,如果我多次调用脚本它不应该在文件中多次创建相同的条目。 所以如果我在第21行插入文件,我知道这是文件的结尾。 sed -i '21s/.*/IP=192.168.1.1/' ip 第21行为空,因此此命令不起作用。无论如何,通过修改这个命令来插入一行到一个空字符串? 我知道其他方法追加到文件的末尾,但我主要关心的是不创建同一行的副本,如果脚本被多次

    0热度

    4回答

    我正试图在R中找到一组函数,它将在字级上运行。例如一个可以返回单词位置的函数。例如,给定以下sentence和query sentence <- "A sample sentence for demo" query <- "for" 该函数将返回4. for是4个字。 如果我可以得到一个效用函数,这将允许我在左右方向上延伸query,这将是非常好的。 例如extend(query, 'rig