2016-02-04 106 views
1

我有一个网站的网址,需要找出网站使用哪种语言(无论是西班牙语,法语,意大利语等)。如何确定网站的语言

该网站的域顶高级为.com,这完全没有帮助。我不能简单地检查字符串是否包含“.de”,“.fr”或任何其他国家代码。

我试图获得html标记的lang属性,但有很多网站没有它。此外,我发现here,我可以检查meta标签,这将是这样的:

<meta name="language" content="english"> 

但同样,并非所有网站使用这个标记。

你知道任何其他方式来确定网站的语言吗?

谢谢。

+0

只能通过分析文本。这不是一件容易的事。 –

+1

有没有简单的方法来确定网站的语言,短缺使用某种语言检测算法。可能会有一些SaaS提供商专门从事这方面的工作; Google是你的朋友。 –

+0

没有单一的,可靠的方法。您必须应用启发式算法,因此需要对多个标记进行多次测试,然后计算语言的概率。 – arkascha

回答

1

很遗憾,很多开发人员不认为在他们的网页中添加语言元信息是有用的。也可能是页面上有多种语言 - 据我所知 - 强制使用<div>参数lang或其他类似的东西。以下是一些可以帮助你:

  1. 检查的<meta name="language" content="...">标签
  2. 检查内部<div> S和看,如果这些包含lang参数
  3. 检查菜单(如果有的话) - 这些通常含有太多,少于文本正文的文本
  4. 寻找更小的HTML数据块,您可以轻松解析,并且可以为您提供有关页面使用的语言的更多信息
  5. 最后启动heuristicall Ÿ分析大的文本块

这其实很可悲的事情现在怎么都因为提供这些信息并不难,也不需要投入到做很多额外的时间,但优点是肯定有的特别是当涉及搜索引擎,最重要的是 - 改善有各种残疾的人们的无障碍环境。

+0

是的,许多开发人员忽略语言元数据是一种遗憾。 –

0

您可以使用谷歌翻译,微软翻译或语言层的服务进行语言文本检测。

我已经浏览了这些apis文档和限制和价格,并选择了languagelayer personnaly,因为它是最便宜的,并且易于使用。