使用python批量转换文件编码为UTF-8的实现

脚本专栏 2024/12/28 佚名

3 1 2

快活林资源网 Design By www.csstdc.com

由于这两天换了IDE，在导入以前的工程的时候发现了一个大问题，由于以前脑残的我不知道改编码方式，导致出现了大量的GBK，这就很难受，要是一个两个还好说，可是这么多要是一个一个的改我会觉得现在的我比以前还脑残，于是乎，我就想用python批量的修改一下，然后就产生了这篇文章，其中好多不足的地方还请大佬指导

本来一开始的思路还是比较清晰，觉得也比较简单，天真的认为用GBK的方式读取出文件内容，然后UTF8写入就好了，可是在实际的操作中我发现我就是太天真了，出现了大量的问题，比如说：

怎么查看文件的编码方式

好吧我承认就出现了这一个问题。

那么遇到问题我们该怎么办呢，没错，Google，果然功夫不负会Google人，我看到了一个函数，就是chardet.detect()函数，当然要导入chardet模块，也就是pip，如果是Anaconda的环境当我没说，pip了不要打我。言归正传，这个函数是干嘛用的呢？

这个函数会返回一个含有三个键值对的字典类型

‘encoding': 编码方式
‘confidence': 检测的正确率
‘language' : 语言

是不是看到encoding后眼前一亮，这样取出encoding的值然后比较不知道是啥了，然后我就在一边感叹python的强大的第三方库的支持一边开始了对这个函数的测试，先建两个txt，然后脸滚键盘，保存的时候一个是UTF-8，一个是GBK，值得竹注意的是读取方式应该是二进制，也就是'rb'，接着就是兴致勃勃地Ctrl Shift F10，出现了惊人的一幕：

{'encoding': 'utf-8', 'confidence': 0.99, 'language': ''}

看看，看看这美丽的单引号，然后直接和”utf-8”比较不就结束了，万万没想到，他竟然是False，我还以为我看错了，就疯狂Ctrl F5，等待奇迹的出现，功夫不负有心人，果然，奇迹没有出现，于是我type了一下，嗯，果然是str类型的，又试了下和”utf-8”比较不就结束了，没错，结果是True，你们听我解释，我昨天做的时候真不是这样的，不管了，写都写了，按昨天的思路来吧，大家凑活看吧（不要打我），现在我们假设他是False，并且类型是NoneType，并且转为str后是None，你们要相信我昨天真的是这样的！

好了就这样吧，那既然是无法比较怎么办呢，没错，拿出一开始脸滚键盘的那两个测试文件来，用他们呢读取出的字典的值作比较不就好了（一说到这我就莫名的心痛），然后我们在想一下是把文件编码改为UTF-8，所以本来就是UTF-8的我们就不用管他，我都脸滚键盘的建测试文件了我还在意这些细节干嘛，不说了，难受，效果图也不贴了，直接上代码你们自己看吧。。。

# coding utf-8
import os
import chardet


# 获得所有java文件的路径,传入根目录路径
def find_all_file(path: str) -> str:
  for root, dirs, files in os.walk(path):
    for f in files:
      if f.endswith('.java'):
        fullname = os.path.join(root, f)
        yield fullname
      pass
    pass
  pass


# 判断是不是utf-8编码方式
def judge_coding(path: str) -> dict:
  with open('utf.txt', 'rb') as f:  # 删除就行
    utf = chardet.detect(f.read()) # 同上

  with open(path, 'rb') as f:
    c = chardet.detect(f.read())

  if c != utf:            # 改为 c != 'utf-8'
    return c


# 修改文件编码方式
def change_to_utf_file(path: str):
  for i in find_all_file(path):
    c = judge_coding(i)
    if c:
      change(i, c['encoding'])
      print("{} 编码方式已从{}改为 utf-8".format(i, c['encoding']))


def change(path: str, coding: str):
  with open(path, 'r', encoding=coding) as f:
    text = f.read()

  with open(path, 'w', encoding='utf-8') as f:
    f.write(text)


# 查看所有文件编码方式
def check(path: str):
  for i in find_all_file(path):
    with open(i, 'rb') as f:
      print(chardet.detect(f.read())['encoding'], ': ', i)


def main():
  my_path = 'C:\\WorkSpace'
  change_to_utf_file(my_path)
  # check(my_path)


if __name__ == '__main__':
  main()

python批量转换UTF-8,python,转换为UTF-8

快活林资源网 Design By www.csstdc.com

广告合作：本站广告合作请联系QQ：858582 申请时备注：广告合作（否则不回）
免责声明：本站资源来自互联网收集,仅供用于学习和交流,请遵循相关法律法规,本站一切资源不代表本站立场,如有侵权、后门、不妥请联系本站删除！

快活林资源网 Design By www.csstdc.com

评论“使用python批量转换文件编码为UTF-8的实现”

暂无评论...

www.csstdc.com 快活林资源网

120,135影音资源

344,641技术资源

22,817软件资源

435,032站长资源

最新文章

《三国志8重置版》劝降机制介绍

2024/12/28

《欢欣森活》最新官方配置要求一览

2024/12/28

《欢欣森活》存档方法

2024/12/28

《炉石传说》2024新赛季上线更新内容问题汇

2024/12/28

《南瓜恐慌》进不去游戏解决方法

2024/12/28

《战舰世界》语音包文件夹位置介绍

2024/12/28

一句话新闻

苹果官宣WWDC 2024！预计会有大批AI功能 - 2024/12/28

3月27日消息，苹果宣布2024年全球开发者大会（WWDC）将于6月10日至6月14日举行，巧合的是，这次大会与端午假期重合。

苹果官方表示：

在线参加 Apple 每年规模最大的开发者盛会。亲眼见证 Apple 最新平台、技术和工具的发布。了解如何创建和改进你的 App 和游戏。与 Apple 设计师和工程师互动交流，与全球开发者社区建立联系。以上活动均免费在线举行。

探索各种新的工具、框架和功能，助力你打造出理想的 App 和游戏。通过视频讲座学习新技能，与 Apple 专家进行一对一会面，以推进你的项目，完善你的构思。

Swift Student Challenge 旨在支持和鼓舞下一代开发者、创作者和企业家。太平洋时间 3 月 28 日，我们将公布今年的获奖者名单。获奖者将有资格参加在 Apple Park 举办的特别活动。我们还会选出 50 名杰出获胜者，他们将受邀前往库比提诺，获得为期三天的非凡体验，包括参加 Apple Park 的特别活动。

使用python批量转换文件编码为UTF-8的实现

Python第三方库的几种安装方式(小结)

在PyTorch中使用标签平滑正则化的问题

评论“使用python批量转换文件编码为UTF-8的实现”

RTX 5090要首发性能要翻倍！三星展示GDDR7显存

更新日志

友情链接

使用python批量转换文件编码为UTF-8的实现

Python第三方库的几种安装方式(小结)

在PyTorch中使用标签平滑正则化的问题

评论“使用python批量转换文件编码为UTF-8的实现”

RTX 5090要首发 性能要翻倍！三星展示GDDR7显存

更新日志

友情链接

RTX 5090要首发性能要翻倍！三星展示GDDR7显存