tokenize

0热度

1回答

该消息还应显示用户所做的登录尝试次数。如果用户达到最大尝试次数，程序将终止显示消息对话框，显示“超出尝试次数。程序终止“。如果文本文件中只有一个密码和一个用户名，我的代码将接受用户名和密码。如何扫描文本文件中的所有10个数据，并且如果它匹配用户的输入，它将授予访问权限？我的文本文件看起来是这样的： [awe1,pass1] [awe2,pass2] [awe3,pass3]

0热度

2回答

Python：保留撇号与动词

我想标记一个句子列表，但保留否定的动词作为唯一的单词。 t = """As aren't good. Bs are good""" print(word_tokenize(t)) ['As', 'are', "n't", 'good', '.', 'Bs', 'are', 'good'] 我想“不是”和“是”分开。随着word_tokenize我得到“不”。同样的其他否定形式，如（不能，没

0热度

2回答

Python：如何从文件标记化？

我在Python中的新手。我想知道如何标记来自文件的twitter数据。我的代码是： with codecs.open('example.csv', 'r',"utf-8") as f: for line in f: tweet = f.readlines() tokens = word_tokenize(tweet["text"]) print(t

0热度

1回答

在弹性搜索中取代原始字符串

我使用以下设置来创建ES索引。 "settings": { "analysis" : { "analyzer" : { "my_analyzer" : { "tokenizer" : "standard", "filter" : ["standard", "lowercase", "my_stemmer"] }

-1热度

1回答

用于提取文件名的模式标记器

我想在ElasticSearch中将“a.b.c”标记为a, a.b, a.b.c, b.c, b, c部分。我尝试了一些正则表达式，但更新tokenizer是乏味的，我在正则表达式非常糟糕，所以我寻求帮助。我已经尝试过这个公式，但他们并没有给我什么，我想： [(^\\.)]+ [(.+\\.)]+ [^\\p{L}\\d]+

1热度

1回答

从r编程中的同一行取得令牌

使用R编程，我需要从文件中获取令牌ngram = 2。的问题是，它结合了线，有的令牌有一部分在行结束，并在下一行 Req_tok <-jobs %>% unnest_tokens(ngram,POSITION, token = "ngrams", n = 2) 在文件工作开始另一部分，我有前两个行： it architect it helpdesk support agents 我

3热度

1回答

如何在R中标记单词时保留非字母数字符号？

我在R中使用tokenizers包来标记文本，但非字母数字符号（如“@”或“&”）已丢失，我需要保留它们。下面是我使用的功能： tokenize_ngrams("My number & email address [email protected]", lowercase = FALSE, n = 3, n_min = 1,stopwords = character(), ngram_delim

1热度

1回答

在Elasticsearch中同等评分同义词

我们可以在elasticsearch中平等地评分原始字符串和同义词吗？例如，我创建了同义词文件为： PVT，私人有限公司，有限我创建使用同义词象征过滤器的索引。然后我索引的两个文件： curl -XPOST "http://localhost:9200/test1/test?pretty" -d '{ "entityName" : "ABC International Pvt Lt

2热度

1回答

在建立的简单分析器工作的弹性搜索分析器以及标记的数字

我使用Elasticsearch内置简单分析器https://www.elastic.co/guide/en/elasticsearch/reference/1.7/analysis-simple-analyzer.html，它使用小写标记器。和文本苹果8 IS真棒被标记为以下格式。 "apple", "is", "awesome" 你可以清楚地看到，它错过来标记号8，所以现在如果我只是8

0热度

1回答

ParseInput根据脚本中的注释更改出令牌

我想使用Language.Parser类的ParseInput方法从脚本获取所有令牌。问题是，只要我没有在脚本中的任何评论，它的工作正常，但当我添加评论停止进一步解析。实际上，它将整个评论和评论后面的所有行作为最后一个标记。如果您测试代码，您会看到我正在根据您在脚本中放置注释的位置进行更改。我已经使用了test.ps1中的测试代码，使用不同代码测试的代码仍然表现相同。 $ParsedScri