[代发][更新]文本编码转换源码[Python]

[ 7088 查看 / 7 回复 ]

返回列表

_栗子咪

笨蛋

- 被光守护的家族 -
来自：土豆星
性别：土豆
生日：1996-4-20
注册： 2011-01-20
精华：0
学分：0 个
好人卡：17 张
好感度：365
广东省梅州市

2013-11-10 23:07 |只看楼主 楼主

大小: t T

RT。详细|6L|

_栗子咪最后编辑于 2013-12-24 19:47:33

我還沒有被忘記呢
我還沒有被記住呢

TOP

想要查看Key社人物的生日和其他相关信息？请访问Key社人物时间轴展示页面

蓝月狼

- 追逐梦想的星尘 -
来自：暗之门
性别：男
生日：
注册： 2010-08-22
精华：0
学分：0 个
好人卡：44 张
好感度：2957
[妖都]

2013-11-10 23:48 |只看该用户 2^#

大小: t T

...一般我都是直接用UE更改的。。。。。

1 评分次数

KFC第三届版杀戏服日向秀树

TOP

公主的猫

猫~~

- 七载沉眠的思念 -
来自：
人家是女孩子的说
生日：
注册： 2007-02-23
精华：0
学分：0 个
好人卡：30 张
好感度：16
[魔都]

2013-12-22 08:18 |只看该用户 3^#

大小: t T

python字符串+=效率一直不佳，每次都会重新创建对象，因此有强迫症的人可能会这样去转换编码：
"".join([eachfile.decode(de).encode('utf-8') for eachfile in file])
优势是：列表推导可以预先进行存储优化（加速内存分配），join 操作则是内存一次直接拷贝（减少操作次数）
这类做法速度要快好几倍，其它迭代通常也会用类似的思想
缺点是内存吃的要多一些

公主的猫最后编辑于 2013-12-22 08:25:56

1 评分次数

-> KCDDP <-

TOP

枸鸺槿

繁华开一季世事谁可知人生何所似飞鸿

- 荣誉管理组 -
来自：莱普特共和国
性别：土豆
生日：1991-09-01
注册： 2007-12-20
精华：1
学分：1 个
好人卡：28 张
好感度：1309
江苏省南京市

2013-12-22 14:11 |只看该用户 4^#

大小: t T

我觉得注明一下py版本2.7顺便给个py的安装教程比较好
第一次用py的时候因为版本问题，连"hello world"都报错的槿槿泪奔QAQ

TOP

公主的猫

猫~~

- 七载沉眠的思念 -
来自：
人家是女孩子的说
生日：
注册： 2007-02-23
精华：0
学分：0 个
好人卡：30 张
好感度：16
[魔都]

2013-12-22 18:04 |只看该用户 5^#

大小: t T

2.7和3基本上语法通用了，差异主要是在于使用的一些库，还有就是unicode，str和bytes之间的关系，新开发的东西很方便就可以在代码层面上实现兼容，不需要2to3之类的东西

至于安装，大多数linux和unix上现在2.x都是标配，而且比较新的版本很多还并存有3.x（使用命令python 3），gentoo更是已经把3.3作为默认的python。

没有自带3.x的也不担心，随便搜一艘，rpm，deb，dmg包一堆，自己编译一个一般也就15分钟搞定，建议尽量用3吧。

windows的话感觉安装也没压力，安装程序默认进行了文件关联，自带IDEL，唯一的问题可能就是想再命令行下使用需要自己添加环境变量。

语法上建议尽可能遵从3.x
print("hello world!")
这种写法2.6以上版本都不会有问题

-> KCDDP <-

TOP

リン

- 星光等候的天堂 -
来自：
性别：土豆
生日：
注册： 2010-07-10
精华：0
学分：0 个
好人卡：0 张
好感度：517
浙江省宁波市

2013-12-24 19:32 |只看该用户 6^#

大小: t T

好的,这是同学的最新version

# -*- coding:utf-8 -*-

#!/bin/env python

import chardet,sys,thread,os

def encodeFile(fi,de):

# a=raw_input("输入您需要转换文件的绝对路径，回车键结束\n")

#try:

file=open(fi,'r')

# except IOError,diag:

# file.close()

# file=diag

# print'err:%s'%file

eachnewfile=""

for eachfile in file:

eachfile=eachfile.decode(de).encode('utf-8')

eachnewfile+=eachfile

# print eachfile

file.close()

#print '读取完成，等待写入新文件\n'

newfile='uni.'+os.path.split(fi)[-1]

# try:

newWriteFile=open(newfile,'w+')

# except IOError,diag:

# newWriteFile.close()

# newWriteFile=diag

# print'打开新文件出错%s'%newWriteFile

newWriteFile.write(eachnewfile)

#print('保存成功！')

files=sys.argv[1]

def tran_code(file):

try:

ocode=chardet.detect(file)

print file+' is '+ocode['encoding']

encodeFile(file,ocode['encoding'])

except :

print u"自动识别失败请手动输入原始编码\n"

code=raw_input()

try:

encodeFile(file,code)

except :

print 'error'

else:

print file+'.......success!\n'

if os.path.isdir(files):

os.chdir(files)

files = os.listdir(files)

for file in files:

tran_code(file)

else:

#print os.path.split(files)

os.chdir(os.path.split(files)[0])

tran_code(files)

复制代码

此外他还做了这个。你明白的。

# -*- coding:utf-8 -*-

import os,re

import urllib,httplib

import sys

reload(sys)

sys.setdefaultencoding('utf-8')

def envir():

url = "http://222.190.111.117:8023/"

content=''

#httplib.HTTPConnection.debuglevel = 1

page = urllib.urlopen(url)

# print "status:", page.getcode() #200请求成功,404

# print "url:", page.geturl()

# print "head_info:\n", page.info()

#print "Content len:", page.read()

content=str(page.read()).replace(" ","")

#print page.read()

AQI = content.find(u'AQI_data_number')

content=content[AQI+332:AQI+654]

content=content.splitlines()

#print con.encode('utf-8')

a = "API: "+content[0][:3]

b = content[2][4:-5].decode('utf-8')

c = content[3][4:-5].decode('utf-8')

d = u'主要污染物: '+content[-1][4:-5].replace('<sub>','').replace('</sub>','')

return a+'\n'+b+'\n'+c+'\n'+d

print envir()

复制代码

最后一些说（fei）明（hua）。
同学现使用的ＯＳ为Ubuntu,VIM和win8.1,Sublime Text.（当然他还用过MacOSX MountainLion,BackTrack...
リン推荐使用Sublime Text

リン最后编辑于 2013-12-24 19:39:24

TOP

リン

- 星光等候的天堂 -
来自：
性别：土豆
生日：
注册： 2010-07-10
精华：0
学分：0 个
好人卡：0 张
好感度：517
[浙江省宁波市]

2013-12-24 20:40 |只看该用户 7^#

大小: t T

回复 4# 枸鸺槿的帖子

對了有個Pies
最新版本2.5.0
是py 2和3 的兼容層。
詳見開源中國 oschina.net

TOP

公主的猫

猫~~

- 七载沉眠的思念 -
来自：
人家是女孩子的说
生日：
注册： 2007-02-23
精华：0
学分：0 个
好人卡：30 张
好感度：16
[魔都]

2013-12-26 14:28 |只看该用户 8^#

大小: t T

對了有個Pies
最新版本2.5.0
是py 2和3 的兼容層。
詳見開源中國 oschina.net
リン发表于 2013/12/24 20:40:00

如果已经决定把工作环境转移到python3的话，其实寻求一个兼容层意义就不大了
猫自己写的web框架是基于python3的，同时兼容2.7，实际上兼容性的代码总共就是个位数的行，而且都集中在IO操作方面，个人觉得有经验的开发者，编码时就能有效避免兼容问题
更何况现在更多的情况是2to3的情况，极少出现3to2的情况

还有一些问题是兼容层无法直接搞定的历史问题，例如使用相当频繁的print；在2.x时代print是作为语句使用的，但是到了3.x为了适合函数式编程print变为了函数，尽管2.6以后python2也允许print("something")这样的语法，但是print作为语句的特性并没有改变，例如下面的表达式在python3里面是成立的，但是2却报错：
y and print("z")
为了实现兼容就需要定义一个近似的函数
def xprint(*arg,**darg):
#do something
这个实现不仅麻烦，低效，而且今后程序的部署也对兼通层产生了强烈的依赖，成为下一个历史遗留问题。
其实换个思路，解决办法其实很简单：不去使用这样的用法，至少现在不要去使用》《

现在python3遇到的最大囧境是：很多项目几乎都停留在2.x，不论人员还是代码，这使得我们看到的很多第三方3.x库都是2.x环境下开发，然后用2to3转换到3。由于3.x推进缓慢，加上又有2to3这样本身已经很成熟的工具，所以短时间内想让各个项目组转移到3.x环境下进行开发就不太现实。

虽然大多数人目前都还是看好python3的未来，但是这一个未来真正到来还是有些遥远的

公主的猫最后编辑于 2014-01-24 21:03:54

-> KCDDP <-

TOP

返回列表

上一主题 | 下一主题

[代发][更新]文本编码转换 源码[Python]

回复 4# 枸鸺槿 的帖子

[代发][更新]文本编码转换源码[Python]

回复 4# 枸鸺槿的帖子