改善charset detection by cyfung1031 · Pull Request #1140 · scriptscat/scriptcat
- 改善 charset 判断
charset 判断并不容易
现存的node跟browser通用的 js lib 好像只有这个 chardet 比较理想。
在这个基础上引入我自家的理论,能准确有效判断charset.
我加了测试。如果你用原 chardet 的 detect 是无法准确判断出正确charset.
原理不解释了。你问问 copilot 吧
(我的自家理论,AI生成不出来,但应该能看懂)
- 新增 utf-32le utf-32be 支持
原生 TextDecoder 未支持 utf-32le utf-32be
透过手动转换 (LE直接DataView转换,BE要编译)
整合至 bytesDecode
- 修改 unit test
实际 detect 对像是脚本代码
你只用几个 byte 测试肯定什么都试不出来
至少给它一句句子