文章目录
article
数据编码
AI文章摘要
qwen-turbo-latest
加载中...
字符编码与存储编码
计算机只能处理二进制数字, 为了满足计算机处理自然语言的需求, 需要对自然语言的字符编码成二进制数字.
- 字符编码: 将字符编码成二进制数的过程称为字符编码, 而存储字符与二进制值关系的表叫做字符集.
- 存储编码: 将字符编码产生的二进制值再进行编码, 使之适用于存储的过程叫做存储编码
ANSI(ASCII)编码集
ASCII是美国信息交换标准代码, 字符编码方式为1个字节编码128种字符, 存储编码方式为1字节直接存储. ANSI则扩展ASCII使用1个字节的其他数值编码其他字符, 扩展到255个字符. 一般ANSI和ASCII同等对待.
UCS字符集
UCS(Universal Char Set), 即通用字符集, 包含世界各国的文字和符号, 应对单字节编码带来的字符空间有限问题.
早期的UNICODE即UCS-2编码方式集采用2字节编码, 存储方式为2字节直接存储, 得到普及但是字符空间有限
后期的UNICODE即UCS-4编码方式采用4字节编码, 存储方式也是4字节直接存储, 但存储空间较大没有得到普及
UNICODE中广泛采用的是如今的UTF-8存储编码, UTF-8是可变长编码, 一个英文占据1字节, 一个中文占据3字节.
转义字符
ASCII码表虽然用0-255的数字表示特定字符, 但对人类记忆有一定的困难. 转义字符就是为了解决这个问题而产生的.
一个字符串中, 一个字符使用其ASCII值存储, 但若通过 ‘'就可以转译为其他字符并存储其ASCII值
例如: ’n’输出的ASCII值是110,而’\n’输出的ASCII值为10,是制表符.