我正在构建一些能够或多或少地从任意网站提取关键信息的东西。例如,如果我抓取了一份麦当劳页面,想要通过编程的方式了解麦当劳的开幕式和闭幕时间,那么做一个聪明的方法是什么?如何巧妙地从HTML页面提取信息?
在一般情况下,也许我也想知道麦当劳是卖鸡翅还是麦当劳的地址。
我在想的是我将有一个特定的案例time
,wings
和address
并且具有这三种情况中的每一种都是唯一的代码。
但我不知道我该如何解决这个问题。我已经将网站抓取,HTML和相关信息已经解析为JSON。我目前的做法是找到title
标签,并检查title
标签是否包含关键词,如address
或location
等。如果title
包含那些key words
,那么我将查看当前页面并识别与地址类似的内容块,如内容为城市或国家或内容的词St
或Street
。
我想知道是否有更好的方法来寻找关键数据,并寻找更好的起点或反弹一些想法和whatnot。或者即使有很好的文章可以阅读,但这也会很棒。
让我知道如果这不清楚。
感谢您的帮助。