python的字符转换常见bug-创新互联

1.python把一个unicode字符串写入文件为什么会报错？

创新互联坚持“要么做到，要么别承诺”的工作理念，服务领域包括：网站设计制作、成都网站制作、企业官网、英文网站、手机端网站、网站推广等服务，满足客户于互联网时代的桂东网站设计、移动媒体设计的需求，帮助企业找到有效的互联网解决方案。努力成为您成熟可靠的网络建设合作伙伴！

write方法的参数类型是str，str是二进制流（不包含编码信息），当你给出一个unicode对象时，会执行str函数转换成str类型再送给write方法。unicode转str包含一次编码，如不指定则默认使用ascii编码，而ascii编码集里汉字字符是没有对应的，所以报错。

正确做法是在代码里指定编码。比如在open里指定（fp= open('test.txt', 'w', encoding='utf-8')），或者在write的时候手动把unicode对象通过encode方法指定编码产生str。就是说写成fp.write(s.encode('utf8'))。注意unicode对象用encode是有意义的，str对象在py2里允许你对str对象使用encode，然而这是对指定了default encoding的情况下才有效的，因此不推荐新手对str直接encode。

2.Error：UnicodeEncodeError: ‘gbk’ codec can’t encode character u’\u200e’ in position 43: illegal multibyte sequence

原来出现’gbk’ codec can’t encode”的错误的根本原因是，对于前面的，不论是用

titleHtml.decode(“UTF-8”);

还是titleHtml.decode(“UTF-8”, ‘ignore’);

还是titleHtml.decode(“UTF-8”, ‘replace’);

都是可以得到正常的titleUni的Unicode字符的，然后对于此Unicode的字符，需要print出来的话，由于本地系统是Win7中的cmd，默认codepage是CP936，即GBK的编码，所以需要先将上述的Unicode的titleUni先编码为GBK，然后再在cmd中显示出来，然后由于titleUni中包含一些GBK中无法显示的字符，导致此时提示“’gbk’ codec can’t encode”的错误的。

对于此（类）问题：

(1)出现UnicodeEncodeError –> 说明是Unicode编码时候的问题；

(2) ‘gbk’ codec can’t encode character –> 说明是将Unicode字符编码为GBK时候出现的问题；

此时，往往大的可能就是，本身Unicode类型的字符中，包含了一些无法转换为GBK编码的一些字符。

解决办法是：

方案1：

在对unicode字符编码时，添加ignore参数，忽略无法无法编码的字符，这样就可以正常编码为GBK了。

对应代码为：

gbkTypeStr = unicodeTypeStr.encode(“GBK“, ‘ignore’);

方案2：

或者，将其转换为GBK编码的超集GB18030 （即，GBK是GB18030的子集）：

gb18030TypeStr = unicodeTypeStr.encode(“GB18030“);

对应的得到的字符是GB18030的编码。

另外有需要云服务器可以了解下创新互联cdcxhl.cn，海内外云服务器15元起步，三天无理由+7*72小时售后在线，公司持有idc许可证，提供“云服务器、裸金属服务器、高防服务器、香港服务器、美国服务器、虚拟主机、免备案服务器”等云主机租用服务以及企业上云的综合解决方案，具有“安全稳定、简单易用、服务可用性高、性价比高”等特点与优势，专为企业上云打造定制，能够满足用户丰富、多元化的应用场景需求。

新闻标题：python的字符转换常见bug-创新互联
文章起源：http://hbruida.cn/article/ddjpoc.html

python的字符转换常见bug-创新互联

其他资讯