tokenize

    0热度

    1回答

    该消息还应显示用户所做的登录尝试次数。如果用户达到最大尝试次数,程序将终止显示消息对话框,显示“超出尝试次数。程序终止“。 如果文本文件中只有一个密码和一个用户名,我的代码将接受用户名和密码。如何扫描文本文件中的所有10个数据,并且如果它匹配用户的输入,它将授予访问权限? 我的文本文件看起来是这样的: [awe1,pass1] [awe2,pass2] [awe3,pass3]

    0热度

    2回答

    我想标记一个句子列表,但保留否定的动词作为唯一的单词。 t = """As aren't good. Bs are good""" print(word_tokenize(t)) ['As', 'are', "n't", 'good', '.', 'Bs', 'are', 'good'] 我想“不是”和“是”分开。随着word_tokenize我得到“不”。同样的其他否定形式,如(不能,没

    0热度

    2回答

    我在Python中的新手。我想知道如何标记来自文件的twitter数据。 我的代码是: with codecs.open('example.csv', 'r',"utf-8") as f: for line in f: tweet = f.readlines() tokens = word_tokenize(tweet["text"]) print(t

    0热度

    1回答

    我使用以下设置来创建ES索引。 "settings": { "analysis" : { "analyzer" : { "my_analyzer" : { "tokenizer" : "standard", "filter" : ["standard", "lowercase", "my_stemmer"] }

    -1热度

    1回答

    我想在ElasticSearch中将“a.b.c”标记为a, a.b, a.b.c, b.c, b, c部分。我尝试了一些正则表达式,但更新tokenizer是乏味的,我在正则表达式非常糟糕,所以我寻求帮助。 我已经尝试过这个公式,但他们并没有给我什么,我想: [(^\\.)]+ [(.+\\.)]+ [^\\p{L}\\d]+

    1热度

    1回答

    使用R编程,我需要从文件中获取令牌ngram = 2。 的问题是,它结合了线,有的令牌有一部分在行结束,并在下一行 Req_tok <-jobs %>% unnest_tokens(ngram,POSITION, token = "ngrams", n = 2) 在文件工作 开始另一部分,我有前两个行: it architect it helpdesk support agents 我

    3热度

    1回答

    我在R中使用tokenizers包来标记文本,但非字母数字符号(如“@”或“&”)已丢失,我需要保留它们。下面是我使用的功能: tokenize_ngrams("My number & email address [email protected]", lowercase = FALSE, n = 3, n_min = 1,stopwords = character(), ngram_delim

    1热度

    1回答

    我们可以在elasticsearch中平等地评分原始字符串和同义词吗? 例如,我创建了同义词文件为: PVT,私人 有限公司,有限 我创建使用同义词象征过滤器的索引。然后我索引的两个文件: curl -XPOST "http://localhost:9200/test1/test?pretty" -d '{ "entityName" : "ABC International Pvt Lt

    2热度

    1回答

    我使用Elasticsearch内置简单分析器https://www.elastic.co/guide/en/elasticsearch/reference/1.7/analysis-simple-analyzer.html,它使用小写标记器。和文本苹果8 IS真棒被标记为以下格式。 "apple", "is", "awesome" 你可以清楚地看到,它错过来标记号8,所以现在如果我只是8

    0热度

    1回答

    我想使用Language.Parser类的ParseInput方法从脚本获取所有令牌。 问题是,只要我没有在脚本中的任何评论,它的工作正常,但当我添加评论停止进一步解析。实际上,它将整个评论和评论后面的所有行作为最后一个标记。 如果您测试代码,您会看到我正在根据您在脚本中放置注释的位置进行更改。 我已经使用了test.ps1中的测试代码,使用不同代码测试的代码仍然表现相同。 $ParsedScri