我解析新闻来自超过10种不同的语言饲料。如何从多种语言读取数据时避免垃圾/垃圾字符?
所有的解析工作都是在java中完成的,数据存储在MySQL中,然后我的API用PHP编写了响应客户端。
我在阅读数据时经常遇到垃圾字符。
有什么我想:
- 我configured my MySQL存储UTF-8数据。我的数据库,表甚至列都有UTF8作为默认字符集。
- 虽然连接我的数据库,我设置了character set results as utf-8
当我手动运行jar文件中插入数据时,人物的出现很好。但是当我为同一个jar文件设置一个cronjob时,我开始再次面对这个问题。
在英语中,我特别面临诸如this和其他地方语言的问题,该字符看起来完全是垃圾,我甚至无法识别单个字符。
有什么,我失踪?
样品乱码:
古吉特拉:“ર的«‡àª²àªμેમà«àª¸àª¾àª«àª°的«€àª®àª¾àª,સામાન ચà«<ર的«€àª¥àª¶à«‡àª¤à«<મળશેàªμળતર!”
Malyalam:“à'¨àμ‡à'ªàμà'ªà'¾à'³à'¿à'²àμ‡A'•àμà'•àμà'³àμà'³A'•Aμ<à'³àμâ€à '¨à'¿à'°A'•àμà'•AμA'•àμà'±à'šàμà'šàμ”
英语:银行董事会Bureau’的范围扩大到金融行业事业单位
jar文件如何汇编它插入数据库的数据?通过stdin?通过文件? – Siguza
如果您需要特定帮助,您需要显示一些代码。 – jtahlborn
这里猜测,但系统默认代码页(由“cron”拾取)可能是“C”。即普通的旧式ASCII。把你的java包装在一个设置环境“LANG = UTF-8”的脚本中。或者在你的java代码中显式地打开UTF-8文件。 –