汉字字符集编码查询excel(中国汉字字符编码)

Excel表格网 2022-11-12 15:42 编辑:admin 278阅读

1. 中国汉字字符编码

计算机中目前最普遍使用的汉字字符编码是ASCII码。

ASCII 码使用指定的7 位或8 位二进制数组合来表示128 或256 种可能的字符。标准ASCII 码也叫基础ASCII码,使用7 位二进制数(剩下的1位二进制为0)来表示所有的大写和小写字母,数字0 到9、标点符号,以及在美式英语中使用的特殊控制字符。

奇校验规定正确的代码一个字节中1的个数必须是奇数,若非奇数,则在最高位b7添1;偶校验规定:正确的代码一个字节中1的个数必须是偶数,若非偶数,则在最高位b7添1。

后128个称为扩展ASCII码。许多基于x86的系统都支持使用扩展(或“高”)ASCII。扩展ASCII 码允许将每个字符的第8 位用于确定附加的128 个特殊符号字符、外来语字母和图形符号。

2. 汉字字符编码表

1汉字符等于2个英文成数字字符。

在 ASCII 编码中,一个英文字母字符存储需要1个字节。在 GB 2312 编码或 GBK 编码中,一个汉字字符存储需要2个字节。

字符指类字形单位或符号,包括字母、数字、运算符号、标点符号和其他符号,以及一些功能性符号。字符是电子计算机或无线电通信中字母、数字、符号的统称,其是数据结构中最小的数据存取单位,通常由8个二进制位(一个字节)来表示一个字符。

字符是计算机中经常用到的二进制编码形式,也是计算机中最常用到的信息形式。

3. 汉字字符编码最常用

电脑内部处理汉字所采用的编码形式是机内码。大部分电脑要用于信息管理,因此,需要把有关的信息进行二进制编码。国际上通用的是ASCII码,即美国标准信息交换码,它用七位二进制编码来表示十进制数、英文字母和常用符号,如运算符、括号、标点符号、标识符等,还有一些控制符,一共可以表示128个字符。其中十个阿拉伯数字,五十二个大小写拉丁字母,32个标点符号和控制符和运算符,以及34个控制符。ASCII码是为信息交换规定的标准,由于字符数量有限,编码简单,所以输入、存储、内部处理时也往往使用这种标准。由于中国的汉字数量众多,所以汉字编码要用两个字节。汉字的国家标准编码是GB2312-80,这个标准用两个字节构成一个汉字字符编码,规定第一个字节和第二个字节的最高位均为1,通常用十六进制数表示。如“啊”字的编码是B0A1。

4. 汉字字符编码采用的是

普遍使用的的字符编码是ASCII,

目前采用的字符编码主要是ASCⅡ码,它已经被国际标准化组织(ISO)采纳,作为国际通用的信息交换标准代码,ASCⅡ码是一种西文机构代码。

在ASCll 码中,一个英文字母占1个字节。

ASCII 码使用指定的7 位或8 位二进制数组合来表示128 或256 种可能的字符。标准ASCII 码也叫基础ASCII码,使用7 位二进制数(剩下的1位二进制为0)来表示所有的大写和小写字母,数字0 到9、标点符号,以及在美式英语中使用的特殊控制字符。

BIG5 码,又称大五码,是使用繁体中文社区中最常用的电脑汉字字符集标准,共收录13,060个汉字。Big5虽普及于台湾、香港与澳门等繁体中文通行区,但长期以来并非当地的国家/地区标准或官方标准,而只是业界标准。

Big5码是一套双字节字符集,使用了双八码存储方法,以两个字节来安放一个字。第一个字节称为“高位字节”,第二个字节称为“低位字节”。“高位字节”使用了0x81-0xFE,“低位字节”使用了0x40-0x7E,及0xA1-0xFE。

GBK

GBK全称《汉字内码扩展规范》,是我们常说的“国标”,该编码几乎涵盖了所有的中文汉字,其中最常用的就是GB2312——国标2312。

5. 汉字字符编码最普遍

GB国标码:中文内码之一,代表中文简化字,在中国大陆广泛使用,影响所及,使用量渐见普及。“国家标准信息交换用汉字编码”(GB2312-80标准),简称国标码。国标码是指1980年中国制定的用于不同的具有汉字处理功能的计算机系统间交换汉字信息时使用的编码。国际码是二字节码,用两个七位二进制数编码表示一个汉字。目前国标码收入6763个汉字,其中一级汉字(最常用)3755个,二级汉字3008个,另外还包括682个西文字符、图符。

6. 汉字字符编码转换

不是!第一种可能:在编程中,c语言、java等编程语言当中,因为汉字编码不属于ascii,而是由8位的汉字编码组成,所以在编程语言当中算的是2个字符第二种可能:在vb、excel这类的为了方便使用者使用,都将汉字在查找的时候计算的是1个字符总结:虽然算法不同,但是在电脑存储盒计算的时候都是按照2个字符来算的!所以得出结论,汉字不是一个字符而是两个字符!

7. 汉字字符编码范围

在电脑内,汉字的编码分为四种:输入码、 国标码、内码和字型码。

输入码:包括拼音编码和字型编码。微软拼音ABC就是拼音编码,五笔字型输入法就是字型编码。

国标码:又称为汉字交换码,在计算机之间交换信息用。用两个字节来表示,每个字节的最高位均为0,因此可以表示的汉字数为2的14次幂,就是16384个。将汉字区位码的高位字节、低位字节各加十进制数32(即十六进制数的20),便得到国标码。例如“中”字的国标码为8680(十进制)或7468(十六进制)。

内码:汉字内码是在设备和信息处理系统内部存储、处理、传输汉字用的代码。无论使用何种输入码,进入计算机后就立即被转换为机内码。规则是将国标码的高位字节、低位字节各自加上128(十进制)或80(十六进制)。例如,“中”字的内码以十六进制表示时应为F4E8。这样做的目的是使汉字内码区别于西文的ASCII,因为每个西文字母的ASCII的高位均为0,而汉字内码的每个字节的高位均为1。

字型码:表示汉字字形的字模数据,因此也称为字模码,是汉字的输出形式。通常用点阵、矢量函数等表示。用点阵表示时,字形码指的就是这个汉字字形点阵的代码。根据输出汉字的要求不同,点阵的多少也不同。简易型汉字为16′16点阵、提高型汉字为24′24点阵、48′48点阵等。如果是24′24点阵,每行24个点就是24个二进制位,存储一行代码需要3个字节。那么,24行共占用3′24=72个字节。计算公式:每行点数/8′行数。依此,对于48′48的点阵,一个汉字字形需要占用的存储空间为48/8′48=6′48=288个字节。

8. 常用汉字字符编码

计算机全部采用二进制表示字符,我们在进行程序设计时一般使用Unicode码。Unicode 是为了解决传统的字符编码方案的局限而产生的,它为每种语言中的每个字符设定了统一并且唯一的二进制编码,以满足跨语言、跨平台进行文本转换、处理的要求。1990年开始研发,1994年正式公布。 另外,ASCII(American Standard Code for Information Interchange,美国标准信息交换代码)是基于拉丁字母的一套电脑编码系统,主要用于显示现代英语和其他西欧语言。它是现今最通用的单字节编码系统,并等同于国际标准ISO/IEC 646。请注意,ASCII是American Standard Code for Information Interchange缩写,而不是ASCⅡ(罗马数字2),有很多人在这个地方产生误解。

9. 汉字字符集编码查询

1981年,国家标准局公布了《信息交换用汉字编码字符集基本集》(简称汉字标准交换码),共分两级,一级3755个字,二级3008个字,共6763个字。这种汉字标准交换码是计算机的内部码,可以为各种输入输出设备的设计提供统一的标准,使各种系统之间的信息交换有共同一致性,从而使信息资源的共享得以保证。

目前,正在制定《信息交换用汉字编码字符集辅助集》,以满足少数用字量超过基本集的用户和台湾、香港等地的需要。

10. 中国汉字字符编码大全

取值范围是0~127 在字符编码方面,ASCII码为标准符号、数字、英文等进行了保留,取值范围是0~127,还有一部分作为扩展ASCII码128~255 当操作系统采用非ASCII编码时(比如汉字编码),一般用扩展ASCII码来进行,约定用128~255范围的编码连续2~3甚至4个来进行汉字编码,(比如国标用连续两个128~255的编码表示1个汉字,分别是区码和位码的编码;UTF-8可以用3个连续的数来表示一个汉字),具体编码规则要看具体定义,一般不相同的。

因此,在处理字符串时,如果是有符号字符串,遇到小于0的字符,会结合后面紧跟的字符来组成一个汉字,大于0的为标准西文字符;如果是无符号的,则可以判断是否大于127。ascii码是目前计算机中用得最广泛的字符集及其编码,是由美国国家标准局(ANSI)制定的ASCII码(American Standard Code for Information Interchange,美国标准信息交换码),它已被国际标准化组织(ISO)定为国际标准,称为ISO 646标准。适用于所有拉丁文字字母,ASCII码有7位码和8位码两种形式。

顶一下
(0)
0%
踩一下
(0)
0%
相关评论
我要评论
点击我更换图片