2009-11-20 74 views
1

我的队友和我有一个非常具有挑战性的新项目要做,我们应该在下周提交。我们不知道如何做到这一点,并且确实需要帮助。我们是本科生,对信息检索和人工智能是新手,真的需要你的想法。关于设计的问题

的项目大致是:

当专家是在文档中引用, 找到一个专家相对 意见&找出他/她说 有关的话题。

我们可以自由使用任何编程语言,但我们不关心编程。我们希望帮助我们开始。请给我们一个关于如何设计这样的系统以及如何在互联网上检索信息的粗略想法。我们应该如何得到他的意见,然后找到相反的意见?

+0

发布更多信息,请教授帮助获取更多信息。 – JonH

+5

这听起来像一个AI项目,需要一定程度的AI能力,我不认为现在存在......(或者它会产生重大的新闻标题) –

+0

数据的分配是否为这种反对意见挖掘整个互联网? –

回答

2

简单:使用Amazon's Mechanical Turk

如果没有(或相当于)你有麻烦。如果问题没有进一步的限制,那么你将需要一个完整的AI,这种尚未存在的AI。如果有严重的限制,那么你可能有可能在一周内做到这一点。如果专家可以在任何领域(医学,政治,历史,时尚,科学,漫画书等),那么将没有单一的,组织良好的散文库。您必须使用Google来查找Dr. X的意见。一旦你发现了Dr. X的写作(让我们祈祷它的文字,而不是音频),你必须做一些自然语言处理来获得它的主旨,即使你有幸找到一个描述性的标题(“数码摄影绝对是伟大的“)。那么你必须弄清楚它是相反的。 “Neil Gaiman为他的故事创意吸引民间传说”的相反之处是什么?找出你正在寻找的意见将是一个严重的问题。之后,事情变得更加容易:你可以谷歌为主题,并使用相同的魔法工具来找到你正在寻找的。

那么有什么机会解决?搜索其他人已经组织成“专业”和“专业”的意见。一些在线政治论坛是这样组织的。维基百科在其一些文章的特殊部分中引用了相反的观点。科学期刊打印反驳信件。环顾四周,你会发现一个更加干燥的地方。选择一个足够小的竞技场,你会有一个可追溯的问题。

编辑:妈的,奔邓拉普打我的评论我的所有要点。叹息

0

听起来像一个NLP问题给我。至于文件和引用信息,http://citeseerx.ist.psu.edu应该是一个很好的起点。

对于每个纸张,有几个引用其是指在纸张上。至少,你必须扫描论文的摘要和引文的摘要,并运行你自己的算法来确定是否有任何引用是反对意见。也许你的教授可以给你一些近似启发式的提示,但据我所知这是一个非常困难的问题。

我会看更多有趣的方法这个线程。

0

自动提交类似谷歌搜索请求“expert_name吸”,“expert_name错误的”,或者类似的东西。找到具有“PhD”的第一个结果,并在同一句中包含文档链接并返回链接。

0

我想你可能会把这个问题吹得有点过大......作为一个本科项目,我会把它稍微小一些。

除非您的规范说明您必须使用实际的互联网资源,否则您最好创建自己的自定义短文档数据库。将元数据添加到每个文档,说明他们对某些主题提出的观点。

接下来,我将创建链接到每个文档的引文列表,并添加一些表示专家对该主题的立场的元数据。当有人阅读文档时,我会用链接列表来扩充引用列表,这些链接列表中包含对该主题有不同看法的文档。

基本上这将包括这些表:

Document (id, data) 
DocumentPoints (documentId, topic, stance) 
Citation (documentId, topic, stance) 

当有人加载一个文件,该引文拉升为好。对于每个引文,您都可以搜索DocumentPoints以查看具有不同立场的相同主题。这个项目中最困难的部分是创建需要在数据库中存储数据的5或6个文档。之后,解决方案是微不足道的。

在附注中,大多数其他答案都告诉您使用一些现有的解决方案......除非分配告诉您,否则不要这样做。如果你自己解决整个问题,你会更好地了解问题和解决问题的各种方法(这绝对不是唯一/最好的方法)。当老师要求您做某件事情时,您选择实施解决方案的任何产品都不支持,您无法修复它。如果你自己写了,你也可以轻松实现新规范。