2017-05-29 48 views
-2

可以说我正在创建一个小的扩展(因此我的大部分代码都在JS中)。而且,鉴于字符串如列表:机器学习,从字符串中提取信息

歌手 - 歌曲名称

艺术家,歌曲名称

歌曲名称 - 歌手

无关的信息 - 歌曲名 - 歌手

等。

我只需要从字符串中提取歌曲名称,但是,我无法预测字符串可能出现的所有表单。

所以我的问题是什么是最好的方式来提取这些信息?它是机器学习吗?如果是这样,代码可以用JS编写,还是应该使用API​​?或者,除了机器学习以外,还有其他解决方案?

PS

我知道,这个问题并没有真正遵循的是可以在这个网站上提出的问题的指导方针,我知道这是一种开放性的,模糊的,但我不能想想别的地方去问这个,所以

谢谢你提前。

+0

这与机器学习无关。为什么你有这些字符串,它们从哪里来? – juvian

回答

0

素描这会对工作:

  • 化妆的正则表达式所有可能的分割字符(逗号,连字符等。)
  • 将您的字符串使用这个正则表达式
  • 为一体的刺条假设这是一个标题
  • 两片弦假设长片是标题,和更短的是一个艺术家
  • 艺术家和标题(或你与他们的全球数据库获得更好的结果)
  • 搜索,如果一些您的标题是不一样的,有些艺术家的化妆名单 - 这可能是可能的错误
  • 三 - 或 - 更多作品根据您的名单识别艺术家
  • 用于件休息假定低指数(越接近字符串的开头)部分是标题
  • 最终你可以通过谷歌API搜索,如果你打成标题片就比其他部分返回更多的结果

当然这不会理想地工作,但我认为你不期望它。

0

机器学习涉及大量的统计数据。所以,把它放在一个非常基本的概括中:“机器”必须学习的是一个单词或一组单词倾向于是歌曲名称还是艺术家的可行性。

这就是学习部分开始的地方:某人或某个其他机器必须在开始时“教”机器“作为起点。

然而,即使是人类也不知道“飓风”是否是歌曲或例如乐队名称。有需要的上下文信息才能找到正确的分类。

也许,使用已经提供此信息的开放式API将是更好的方法。你也许对这想看看这个问题:

的东西

Is there a free database or web service api for music information (albums, artists, tracks)?

相关问题