使用 Chardet 自动检测文本编码

python 中的 chardet 库可以用来猜测文件的编码

usage

pip install cchardet
In [1]: import cchardet as chardet

In [2]: chinese_bytes = "中文".encode("utf-8")

In [3]: chardet.detect(chinese_bytes)
Out[3]: {"confidence": 0.7524999976158142, "encoding": "UTF-8"}

及时获取更新,请关注公众号“爬虫技术学习(spider-learn)”

公众号“爬虫技术学习(spider-learn)”

About 逸飞

后端工程师

发表评论

电子邮件地址不会被公开。 必填项已用*标注