unicode-normalization

    0热度

    1回答

    我正在研究从Redshift数据库获取数据的Django应用程序。写给这个Redshift数据库的人做出了一些奇怪的选择。我想弄清楚如何处理它有串这样的事实: Let’s play! \xe2\x9a\xbd\xef\xb8\x8f 随着psycopg2我得到这些进入Python作为 u'Let\u2019s play! \\xe2\\x9a\\xbd\\xef\\xb8\\x8f' 我应

    0热度

    1回答

    有没有办法把字符转换,如: É É é à Ç etc 而且这种类型的惊叹号与空间它建于后: ! 到他们的正常版本。目前,我有这样的代码: $linesvalue = str_replace(["Ç","ç"],"ç",$linesvalue); $linesvalue = str_replace(["É","É","é"],"é",$linesvalue); $lin

    1热度

    1回答

    我正在研究处理韩语句子的程序,我需要一种将音节或块分解为字母的方法。对于那些不知道韩文的人来说,一个音节由2-4个字母组成(Jamo),创造出数千种不同的组合。我想要做的是将这些音节分解成形成它的字母。 我能够通过比较其Unicode值与该范围内的关联字母来获得第一个字母,即以x字母开头的音节位于y范围内。但是,我发现剩下的字母不知所措。 这是一个包含朝鲜语音节Unicode值的表:http://

    0热度

    2回答

    我有每行一个字符的两个文件的差异输出。有时,“不同”行上的输出字符在我的终端中看起来相同。我想通过一个可以将字节值(甚至可能是unicode代码点)添加到输出的函数来管理diff输出,以便我可以看到实际的字节差异。 我无法搞清楚如何获得猛砸字符的字节值。有没有办法做到这一点?我看到各种关于走向另一个方向的答案,但我想从字符到字节值。

    -3热度

    1回答

    我正在与一个远程应用程序似乎做一些神奇的编码。应用程序呈现明确的响应(我将其称为True和False),具体取决于用户输入。我知道两个有效的值,这将会呈现'真',所有其他值都应该是'假'。 我发现(意外)有趣的是,提交损坏的值导致'真'。 示例输入: USER10 //gives True USER11 //gives True USER12 //gives False USER.. //g

    0热度

    2回答

    我已经通过在堆栈溢出类似的问题阅读,但他们不解决unicode的问题,我有:在位置302 “ASCII”编解码器不能解码字节0xc3曾尝试: 进口SYS 重装( SYS) sys.setdefaultencoding函数( “UTF-8”),然而 收到一个错误:NameError:名字 '刷新' 没有定义 我尝试读取文件与丹麦元音:æ,O,A。作为回报,接收'UnicodeDecodeError:

    3热度

    2回答

    我试图让这个JSON URL的内容: http://www.der-postillion.de/ticker/newsticker2.php 问题似乎是的“文本”的内容中使用Unicode。 每次我尝试获取json_decode时,它都会失败,并且没有NULL ...以前从未遇到过这个问题。总是拉这样的json: $news_url_postillion = 'http://www.der-pos

    1热度

    1回答

    我正在接收UTF-8中的xml文档,其中分解的diacretics。直到现在,我只是读取这些值并将它们保存到我的postgreSQL数据库中,而没有做任何修改或转换(psotgreSQL参数:SERVER_ENCODING = UTF8,LC_COLLATE = German_Germany.1252)。 现在我发现,当搜索对于喜欢“Wüste”的值时手动输入它(HEX:57 C3 BC 73 7

    0热度

    1回答

    我使用Java的Runtime.getRuntime().exec(字符串命令)打开指定文件的Windows文件资源管理器。对于我使用的命令: 探险pathToOpen 这适用于几乎所有的时间,除非路径中包含一些Unicode字符,过多的NFD(规范化表标准分解)规范化的形式。 我来举个例子吧。我有以下命令: 资源管理器C:\测试\文件夹 我拥有所有“C盘”,“测试”,并在我的本地文件系统“文件夹

    13热度

    3回答

    我需要从西班牙语和其他语言的字符中删除不同数据集中的重音符号。 我已经根据此post中提供的代码执行了删除特殊口音的功能。问题是该函数速度慢,因为它使用UDF。 我只是想知道如果我可以改善我的功能的性能,以更少的时间获得结果,因为这对小数据框很好,但对于大数据框不好。 在此先感谢。 这里的代码,你就可以运行它,因为它提出: # Importing sql types from pyspark.s