使用 Chardet 自动检测文本编码

Python 中的 chardet 库可以用来猜测文件的编码,还有一个性能更好的 cchardet 无缝替换。


pip install cchardet
In [1]: import cchardet as chardet

In [2]: chinese_bytes = "中文".encode("utf-8")

In [3]: chardet.detect(chinese_bytes)
Out[3]: {"confidence": 0.7524999976158142, "encoding": "UTF-8"}

