确认一键查看最优答案
本功能為VIP专享,开通VIP获取答案速率将提升10倍哦!
文件本身就是utf8编码的 可是我在读取的时候想把文件中的"锘?"乱码去掉 然后做转换处理 该怎么操作呢
基本做不到如果没有出现解码异常,计算机怎么知道这是乱码比如我把一个孤单的囧字呈现在你面前,你也很难分辨这是乱码还是瑺码吧
关键是乱码从何而来?在文件中的位置有何特征你要是能给个真实的样本最好了。
utf-8是传输码是unicode字符集以特定规律转换而成的。
你先不用?pythonn读(是不是读出来转了编码了),以某个可以查看文件16进制的编辑器(ultraedit可以)查看一下文件最开始的三个字节
既然你说是utf-8文件,湔面又带3个古怪字节估计就是bom了,去除即可没鸟用,linux就不认是windows推荐的标准而已
我现在的问题是去除bom了 在读取源文件内容后 要将其转換成gbk编码输出到另一个文件去, 如果文件中有乱码, 我怎么判断出来,如果是中文字, 我可以读三个字节每次, 问题是如果它本身是乱码 我怎么判断呢 还有如果文件中还包含比如gb2312 两个字节长度的编码,我到时候该怎么判断出来读多少个字节 呵呵 多谢指教
你读取的源文件不是utf-8么?
也就是说茬utf-8文件中有些字符串已经是乱码了?
如果是,那没什么好办法啊
你对这个回答的评价是
版权声明:文章内容来源于网络,版权归原作者所有,如有侵权请点击这里与我们联系,我们将及时删除。