information-retrieval

    -3热度

    3回答

    也许这不是最好的论坛来问这个问题,因为我知道这更适合于特定的编码问题。但是,我不知道在哪里问这个问题,如果它揭示了话题,我会立即删除它。 因此,我正在为我的父母餐厅建立一个网站,而且前端目前已经完成。 但是,现在我想获得用户请求,食品订单,并且如果可能将其发送到我的计算机或电子邮件,所以我可以创建一个将此订单发送给我父母gmail的python脚本。 有没有人有消解解决这个问题? 是否需要创建一个

    1热度

    1回答

    我有100个文档(每个文档都是该文档中单词的简单列表)。现在我想创建一个TF-IDF矩阵,这样我就可以按等级创建一个小字搜索。我使用tfidfVectorizer尝试了它,但在语法中丢失了。任何帮助将非常感激。问候。 编辑:我转换列表为字符串,并添加他们到一个父列表: vectorizer = TfidfVectorizer(vocabulary=word_set) matrix = vecto

    -2热度

    1回答

    我开始开发一个软件,通过旅游景点的图像(例如:圣彼得大教堂,斗兽场等)我应该检索哪个是现货(加上相关信息)。除了图像之外,我还将与图像坐标(嵌入为元数据)一起使用。我知道我可以通过使用反向搜索的Google Images API来支持我,在该搜索中,我将图像作为输入,并且我将以响应形式提供一大组图像。 但是,我对你的建议要求是,现在有了所有相似的图像,我可以使用哪种方法来检索照片中的正确地点名称。

    1热度

    1回答

    最近我开始研究排名算法,其中涉及特征提取以及排名。我在微软研究网站上发现的着名学习排名算法数据集具有从文档中提取的查询ID和特征的数据集。有人建议我好好学习,以便将具有查询 - 文档对的数据集按其原始形式进行排序并具有良好的相关性判断。

    0热度

    1回答

    我在寻找建议,了解如何处理此要求。 我必须用Informatica映射创建下面的目标文件。 源文件 Key-1 Key-2 ACCOUNT-1 Key-1 Key-2 ACCOUNT-2 Key-1 Key-2 CC-ACC-1 Key-1 Key-2 CC-ACC-2 Key-1 Key-2 CC-ACC-3 对于上述输入源的布局,我需要具有低于目标文件基于一个输出记录。 基本

    0热度

    1回答

    我在查看信息检索简介中的Vector Space Classification(链接章节)中的表14.1,其中示例14.1所述“显示了五个文档的tf-idf向量表示。使用公式(1 + log tf) * log(4/df)如果tf > 0表13.1然而,当我看着表14.1,它不会出现,这TF-IDF公​​式适用于文献向量 从表13.1文件: 1: Chinese Beijing Chinese

    1热度

    1回答

    我有两个哈希地图,并希望尽可能快地比较它,但问题是,mapA的字符串由两个字与空间连接组成。 mapB的字符串只有一个字。 我不想算OCCURENCES,即已经完成,我想比较两个diferent字符串 mapA: key: hello world, value: 10 key: earth hi, value: 20 mapB: key: hello, value: 5 key: wo

    0热度

    4回答

    这更多的是一个架构问题,您将如何在规模上解决此问题。 假设您有一个数以百万计的单词列表,并且您需要搜索这些数以百万计的单词是否存在于数万亿字的语料库中。 例如: Word_List = ["This", "a", "test", "of", "two", "words","what","words"] The_corpus = ["This", "a", "test", "of", "tw

    0热度

    1回答

    可以说我有一个6个数字的发布列表21992 23523 27822 28002 31010 33122.将它们转换为可变字节编码的过程是什么?

    0热度

    2回答

    给定查询列表并给出一个文档,我想根据它们与给定文档的相关程度对查询进行排名。 对于每个查询,我计算了查询中每个单词的词频。 (术语频率定义为单词在文档中出现的次数除以文档中的单词总数) 现在,我总结了查询中每个术语的术语频率。 例如: search query: "Hello World" document: "It is a beautiful world" tf for 'Hello':