寻找一些从未使用Unicode字符 - 一些象征 - 并使用NSString的空格字符更改为别的东西,然后提取你想要什么,以及做琴弦反向编码。
编辑:因此,可以说你的网页作为一个NSData对象:
NSString *str = [[NSString alloc] initWithData:myData encoding:NSUTF8StringEncoding];
NSString *nStr = [str stringByReplacingOccurrencesOfString:@"\uC2A0" withString:@"\u2208"];
NSData *nData = [[nStr ]dataUsingEncoding:NSUTF8StringEncoding];
// do your parsing
// for each parsed string
NSString *nStr = [str stringByReplacingOccurrencesOfString:@"\u2208" withString: @"\uC2A0"];
这将在年底得到您确切的输入字符串。但是,也许你只是想忘掉那些Unicode的空间,只是把它们变成现实空间:
NSString *nStr = [str stringByReplacingOccurrencesOfString:@"\u2208" withString: @" "];
NSString *str = [[NSString alloc] initWithData:myData encoding:NSUTF8StringEncoding];
NSString *nStr = [str stringByReplacingOccurrencesOfString:@"\uC2A0" withString:@"\u2208"];
NSData *nData = [[nStr ]dataUsingEncoding:NSUTF8StringEncoding];
你甚至可以找双空间,并与一个单一的一个替换它们。
这是HTML或XML?周围是什么文字?标签?引号?你有在文件中定义的DTD吗? –
它的XML与被标记包围的文本。 – Gruntcakes
DTD在顶部?喜欢的东西: –