information-retrieval

    12热度

    10回答

    我想抓取特定的东西。特别是像音乐会,电影,艺术画廊开幕式等等发生的事件。任何人都可能花费时间去做。 如何实现爬网程序? 听说蛴螬(grub.org - >维基)和Heritix(http://crawler.archive.org/) 是别人吗? 每个人都有什么意见? -Jason

    4热度

    4回答

    假设您有一个包含varchar列的大表。 你会如何匹配包含在VARCHAR山坳的“首选”,但数据是有点吵,包含偶尔拼写错误,例如,字行: ['$2.10 Cumulative Convertible Preffered Stock, $25 par value', '5.95% Preferres Stock', 'Class A Preffered', 'Series A Peferred

    -2热度

    3回答

    我使用移动Wiki软件的上下文。上下文用于为大量信息单元中的特定情况提供正确的信息。 例如:当你在 客户,系统会检查你的 的位置,并提出您的位置 基础的信息。 又如:你是在 客户和系统检查您 日历找到适合您的任命有适当 信息。 哪些其他方面的资源(旁边的位置和日历数据)用于移动(智能手机)的软件?

    2热度

    5回答

    当你在谷歌搜索(我几乎可以肯定的是AltaVista的做同样的事情),它说:“结果约XXXX 1-10” ...... 这有总是惊讶于我......这是什么意思“关于”? 他们如何计算大致? 我明白他们为什么不能在合理的时间内拿出一个精确的数字,但他们如何达到这个“近似”的呢? 我敢肯定有很多背后的一个,我错过了理论...

    2热度

    4回答

    我想知道是否您知道某处我可以找到有关如何为文档检索构建签名文件的信息。 你知道是否有代码可以使用或查看吗? 我必须在linux平台下用C++创建签名文件。 UPDATE:对不起,我赞赏的帮助,但我指的签名文件不是一种验证文件的方式,而是一种索引文件的方式。 http://en.wikipedia.org/wiki/Signature_files 任何帮助将不胜感激。 感谢,

    1热度

    2回答

    我有大量的基本文本,rtf,html,pdf和chm文件,我将其作为个人知识库存储在USB密钥上。 到目前为止,为了检索信息,我使用了标准文件搜索工具(windows搜索,grep等)。但是现在,由于数据量很大,蛮力搜索可能需要几分钟的时间。 PDF和CHM也更难搜索。 因此,我正在寻找一种文本索引工具,可以在这种情况下很好地工作。我想避免依赖于RDBMS(即SQL Server,MySQL),因

    8热度

    7回答

    我有一个信息检索应用程序,它创建了10万位数量级的位数组。阵列中“置位”位的数量差别很大,从所有清除到所有设置。目前,我正在使用一个简单的位阵列(java.util.BitSet),因此我的每个位阵列都需要几兆字节。 我的计划是看第一个位的基数,然后决定剩下的数据结构。显然有些数据结构对于非常稀疏的位数组更好,而另外一些数据结构对大约一半的位进行设置(当设置了大多数位时,我可以使用否定将其视为稀疏

    3热度

    3回答

    我认为有丰富的自然语言数据与诸如reddit或digg或news.google.com等网站相关联。 我已经做了一点与文本挖掘研究,但无法找到我可以如何使用这些工具来解析像reddit的东西。 你可以想出什么样的应用程序?

    4热度

    4回答

    是否有一个现有的解决方案来动态创建超出给定日期时间格式模式的正则表达式?支持的日期时间格式模式无关紧要(Joda DateTimeFormat,java.text.SimpleDateTimeFormat或其他)。 即对于给定的日期时间格式(例如“dd/MM/yyyy hh:mm”),它将生成相应的正则表达式以匹配指定格式内的日期时间。