现在的位置: 首页 > 综合 > 正文

批量转换文件编码

2013年10月14日 ⁄ 综合 ⁄ 共 2865字 ⁄ 字号 评论关闭

背景描述

在eclipse环境下开发程序,默认的【项目】编码一般都会从【工作空间/Workspace】的编码设置继承下来,具体位置是【eclipse】->【窗口】->【首选项】->【常规】->【工作空间】->『文本文件编码』。当然,我们也可以为某个项目特别指定编码格式。正常情况是项目开始时,就规定好编码格式,以后所有创建的文本文件都会按照这个格式进行编码。但有时有可能会发生点意外,比如个别模块与整个项目的编码不同,或是需要整体调整项目编码,这时可以利用Linux的iconv来进行批量转换。

注意:先备份原始文件,以免出现意外情况。

文件扩展名过滤

想要进行批量转换,首先要进行文件过滤,也就是指明哪些文件是需要进行编码转换的。利用下面的语句可以找到当前目录以及子目录下所有文件的后缀

$ vdir -R | grep ^- | grep -oE '[.]\w+$' | sort | uniq
.java
.properties

『vdir -R』列出当前目录以及子目录下所有的目录和文件

『grep ^-』过滤掉目录内容

『grep -oE '[.]\w+$'』去除扩展名以外的内容

『sort』对扩展名进行排序

『uniq』去除重复内容

经过上面的命令过滤后,目标扩展名的结果显示,只有『.java』和『.properties』两种类型的文件。

目标文件定位

上面的例子只是帮助我们来判断有哪些类型的文件需要转换,而实际工作中的情况可能是多变的。我遇到的问题就是要转换那些非Abstract开头并且结尾是UI.java的文件。所以先通过下面命令找出目标文件。

$ find -regextype egrep -regex .*UI.java | grep -v Abstract
./base/client/AssessmentLevelEditUI.java
./base/client/AssessmentLevelListUI.java
./base/client/AssessmentPeriodEditUI.java
./base/client/AssessmentPeriodGuidanceEditUI.java
./base/client/AssessmentPeriodListUI.java
./base/client/AssessmentRatioEditUI.java
./base/client/AssessmentRatioListUI.java
./floatingbonus/client/FloatingBonusAssessmentEditUI.java
./floatingbonus/client/FloatingBonusAssessmentListUI.java
./floatingbonus/client/FloatingBonusSclassApplyEditUI.java
./floatingbonus/client/FloatingBonusSclassApplyListUI.java

格式转换

然后利用『iconv』命令来进行文件编码转换,新文件的扩展名为*.test。注意一下选项-s和-c的用法。

$ iconv --help
Usage: iconv [OPTION...] [-f ENCODING] [-t ENCODING] [INPUTFILE...]
or:    iconv -l

Converts text from one encoding to another encoding.

Options controlling the input and output format:
  -f ENCODING, --from-code=ENCODING
                              the encoding of the input
  -t ENCODING, --to-code=ENCODING
                              the encoding of the output

Options controlling conversion problems:
  -c                          discard unconvertible characters
  --unicode-subst=FORMATSTRING
                              substitution for unconvertible Unicode characters
  --byte-subst=FORMATSTRING   substitution for unconvertible bytes
  --widechar-subst=FORMATSTRING
                              substitution for unconvertible wide characters

Options controlling error output:
  -s, --silent                suppress error messages about conversion problems

Informative output:
  -l, --list                  list the supported encodings
  --help                      display this help and exit
  --version                   output version information and exit

Report bugs to bug-gnu-libiconv@gnu.org

转换命令:

$ for file in `find -regextype egrep -regex .*UI.java | grep -v Abstract`; do iconv -s -c -f UTF-8 -t GB2312 $file > $file.test ; done

转换后的文件列表如下:

$ find . -name *.test
./base/client/AssessmentLevelEditUI.java.test
./base/client/AssessmentLevelListUI.java.test
./base/client/AssessmentPeriodEditUI.java.test
./base/client/AssessmentPeriodGuidanceEditUI.java.test
./base/client/AssessmentPeriodListUI.java.test
./base/client/AssessmentRatioEditUI.java.test
./base/client/AssessmentRatioListUI.java.test
./floatingbonus/client/FloatingBonusAssessmentEditUI.java.test
./floatingbonus/client/FloatingBonusAssessmentListUI.java.test
./floatingbonus/client/FloatingBonusSclassApplyEditUI.java.test
./floatingbonus/client/FloatingBonusSclassApplyListUI.java.test

文件替换

最后一步就是把*.test文件替换原始文件。

$ for file in `find . -name *.test` ; do mv $file ${file/.test/} ; done

抱歉!评论已关闭.