2013-03-14 82 views
1

好日子给大家的读者和帮助者, 我想利用我最近发现的JavaScript函数,它的LZW压缩字符串。字母词典的JavaScript lzw压缩,“只使用这些字符”-string

function lzw_encode(s) { 
    var dict = {}; 
    var data = (s + "").split(""); 
    var out = []; 
    var currChar; 
    var phrase = data[0]; 
    var code = 256; 
    for (var i=1; i<data.length; i++) { 
     currChar=data[i]; 
     if (dict[phrase + currChar] != null) { 
      phrase += currChar; 
     } 
     else { 
      out.push(phrase.length > 1 ? dict[phrase] : phrase.charCodeAt(0)); 
      dict[phrase + currChar] = code; 
      code++; 
      phrase=currChar; 
     } 
    } 
    out.push(phrase.length > 1 ? dict[phrase] : phrase.charCodeAt(0)); 
    for (var i=0; i<out.length; i++) { 
     out[i] = String.fromCharCode(out[i]); 
    } 
    return out.join(""); 
} 

这个功能实际上是工作得很好,唯一的问题Ive得到的是,我想透过WebSocket并没有额外的编码(例如的base64),但是,这并不工作,每次传输编码字符串。有时压缩字符串是不能通过websockets传输的字符,它会抛出一个javascript错误,指出该字符串有非法字符。所以我的想法是在编码过程中只使用可接受的字符,比如应该用于压缩的字符的“白名单”。我从代码 得到的理解是,它采用某个数字的charCode,所以我虽然可以创建自己的charCodeSet,但我真的不知道如何实现它,如果它甚至可以工作。

  • Q1:我能做些什么,所以我的lzw编码只是使用我定义的字符串的字符?
  • 第二季度:我还能怎样“http/s”传输这些websocket不想传输的中文,阿拉伯文和控制字符?

顺便说一句,这是Chrome正在引发错误:

Websocket message contains invalid character(s). 
Uncaught Error: SYNTAX_ERR: DOM Exception 12 

UPDATE1:但如果你看到解码功能藏汉

function lzw_decode(s) { 
    var dict = {}; 
    var data = (s + "").split(""); 
    var currChar = data[0]; 
    var oldPhrase = currChar; 
    var out = [currChar]; 
    var code = 256; 
    var phrase; 
    for (var i=1; i<data.length; i++) { 
     var currCode = data[i].charCodeAt(0); 
     if (currCode < 256) { 
      phrase = data[i]; 
     } 
     else { 
      phrase = dict[currCode] ? dict[currCode] : (oldPhrase + currChar); 
     } 
     out.push(phrase); 
     currChar = phrase.charAt(0); 
     dict[code] = oldPhrase + currChar; 
     code++; 
     oldPhrase = phrase; 
    } 
    return out.join(""); 
} 

这里它可能有帮助我将不得不实施我的自定义字符集,我猜?

回答

1

确定什么字节你可以和不能发送。 (希望从文档的可靠来源,而不是测试,但通过测试验证。)

设计一个转义代码,您使用其中一个有效字符作为转义字符,并且下一个字符也是其中一个有效的字符,编码一个你不能发送的字节。

将其应用于压缩机的输出。最好将压缩工作留给压缩器,不要试图用编码来压缩它。您应该将其编码为一个单独的步骤。

请勿使用LZW。相比于现代方法(zliblz4lzma等)

+0

我apreciate您的建议和工作非常多,为什么我使用LZW的原因是简单的功能和较高的压缩率是无效的和过时,就像我达到50%的比例产生的图像块,我在图像上传和在服务器上做压缩,我再次解压缩,因为在我的应用程序中,我想提供一次上传各种图像的可能性。做压缩加速整个过程很多,并平滑一切,我计算,我仍然获得时间上传压缩之前。我没有发现任何“简单”使用zlib JavaScript lib – beist87 2013-03-14 21:56:28

+0

现在我正在使用哈夫曼压缩,但与霍夫曼我只能够像最大压缩30%。你认为在上传它之前让客户压缩一些东西是一个糟糕的主意吗?我认为它的一种创新 – beist87 2013-03-14 21:58:31

+0

http://nodejs.org/提供了Javascript zlib接口。 – 2013-03-15 00:30:34