什么是字节和字符-字节与字符区别-什么介绍-静秋百科网

猜您喜欢：：

在计算机世界里，最让人头大、也最让人头疼的事，往往就是这两个词：字节和字符。别被它们绕晕了，实际上它们就像我们日常买东西时，把“整件衣服”（字符）拆成了“颗纽扣”和“个扣眼”（字节）来理解。先说说字节。
要是把一个字节想象成银行卡里的余额，那它就是一个固定的数字，比如 256 要么 128。
这个数字的大小是固定的，大家叫它“单元”要么“bit（二进制位）”，但它的数值本身是整数。在咱们日常用的 ASCII 编码里，一个字节只能存一个数字，并且只有 7 种字体。
比如 A 是 65，Z 是 90。
这时候，路由器、电脑网卡这些硬件，最怕的就是数据打架。它们想发数据，得整规整齐地放满几个字节，比如发个图片，可能就是一个字节存一个像素，要么四字节存一个颜色，要么十六字节存一个颜色。之故此会出现“打架”的难题，实际上是出于数据的时候，忒好办乱。想象一下，你在发送数据，要是每个字节都单独发，结局就是乱码，接收端收到一堆没头没尾的数字，直接崩溃。
故此，为了不让数据乱飞，咱们引入了“字节对齐”。
比如在 C 语言里，发一个字符串"abc"，不是直接发这 3 个数字，而是先把它们打包进几个字节，比如 3 个字节，4 个字节，要么 8 个字节。
这时候，别看接收端收到的还是那几个数字，但它们在内存里的位置是固定的。
比如第一个字节在偏移量 0 的位置，第二个在 1，第三个在 2。
这种机制，让数据管得着，接收端收到数据时，知道“哦，这里有个字节，这是第三个数据的头”。再聊聊字符。字符是“原子”，是组成语言的积木块，是屏幕上显示出来的每一个符号。它本身没有大小，它只负责“装东西”。它的大小彻底取决于你给它的指令，要么你选用的编码方式。
要是它是字符级编码呢？那就挺灵活，中文字符可能占一个字节，英文字母占一个字节，数字占一个字节。但字符本身是个无单位的概念，它只是一个“占位符”。这就引出了咱们最头疼的痛点：字节对齐和字符集。就像你买衣服，衣服是字符，纽扣是字节。你总得把纽扣数对，才能把衣服穿好。在计算机里，就是要把字符打包进字节，再把字节分成一个个单元对齐。举个例子，假设你发一个 "HelloWorld" 字符串。用 ASCII 编码，每个字符占一个字节。
那它占用了 12 个字节。
这时候，路由器和接收端的 CPU 就得在处理这 12 个字节单元。但要是你用的是 UTF-8 编码，情况就彻底不同了。对于中文字符，每个字符占 3 个字节；对于英文字母，占 1 个字节。
这时候，一个只包含 5 个字符的 "Hello"，在 UTF-8 里可能只占 5 个字节，但在某些特定场景下（比如为了鲁棒性），链路层可能会要求每个字符串段起码对齐到 4 个字节。
这时候，接收端就会困惑：“哦，这里明明只有 5 个字符，如何_aligned_到 4 个字节了？” 这就害得了两种常见的毛病。一种是截断毛病。你当作你发了一个整个的字符串，结局出于对齐的缘由，后端接收到一个只有一半的数据包，害得后续逻辑出错。
比如你要发 4 个大字符，但链路层只发了一半，接收端收到 2 个，后续读取接口可能出于索引偏移而乱套。另一种是数据竞争。出于字节对齐，接收端收到数据时，知道前几个字节是哪个字节的头。但有时候，发送方和接收方对“字节”的定义不一样。发送方可能把 8 个字节分成了 4 个字符，接收方可能认定 8 个字节应当分成 2 个字符。
这时候，数据就启动错位了。
比方说，原本应当从第 1 个字节启动读字符串，实际从第 2 个字节启动读，害得整体偏移了 1 个字符的位置，再往前推，后面的一系列操作全错了。这些毛病在大规模系统里，特别是金融、医疗这些对数据精度要求极高的领域，就是致命的。比方说在金融交易里，一次计算毛病可能害得资金损失。而在网络传输里，字节对齐的失效可能会害得数据包被丢弃，整个连接就断了。故此，字节和字符的关系，就像硬币的两面。字符是内容，字节是容器。内容不能随意装，务必容器合适。容器不合适，内容就装不稳。而我们处理这些数据，核心就是要把“字符”这种无序的、灵活的单元，粗暴地塞进“字节”这种有序、固定的单元里。在这个过程中，数据结构往往是最终的仲裁者。C 语言里的 `char` 类型，就是给字符定了标准大小（一般是 1 个字节）。但在实际开发中，要是直接用 `char` 存字符串，往往出于长度不一致，底层就会打乱字节对齐。
这时候，就需求用 `std::string` 要么 `std::vector` 这种容器类来帮忙。它们内部维护一个“字符数组”，并且确保每一个元素在内存中都是对齐的。当你从 `std::string` 取出一个字符（比如 `s[5]`）时，底层会去读取那个位置的字节，并且一般会再往前补几个零，确保后面那 4 个字节是整个的 4 字节块。
这样，当你把读取到的 4 个字节传回去给接收端时，接收端就能毫发无损地知道：“哦，这是字符串的第 5 个字符，它占据了第 1 到第 4 个字节”。自然，技术不是万能的。
有时候，为了兼容老旧系统，大家会搞“字符集对齐”，强制所有字符都按 1 个字节对齐。
这就像规定所有商品务必都是 10 厘米长，哪怕有的东西天生就是 11 厘米。别看这样能避免怪的截断，但也牺牲了灵活性。而在现代网络传输中，随着断点续传、流媒体、云存这些技术的发展，用户对数据的灵活性要求越来越高。
这时候，要是硬要强制对齐，反而可能引入不必要的延迟或开销。故此，总结一下，字节和字符的关系，就是“容器”和“内容”的关系。字符是我们要表达的意图，字节是承载意图的管道。设计系统时，别只盯着字符看，也别只盯着字节看，得把这两者结合起来。在 C 语言里，你得学会用 `size_t` 这种无符号整数来存长度，出于长度本身就是不定长的，不能硬塞进 `char` 里。你要理解，当你用 `char` 传一个字符串时，你是在传递一堆随机的字节单元，这些单元的首地址是不连续的，它们的起始位置可能差 1 个字节，也可能差 2 个字节，就连更多。接收端收到这些单元时，务必自己去对齐，要么等待接收端供给对齐服务。在实际工程里，特别是在做网络协议要么嵌入式开发时，你时常能看到各种怪的字节偏移量。
比方说，发送一个字符，但底层发送时，这个字符的字节偏移量是 +1。接收端收到，然后去读，发现不对，便往回推，发现前一个字节是空的，就跳过它，再读下一个。
这实际上就是字节对齐的副功能——为了强行把“字符”塞进“字节”里，最终把“字符”给“挤”跑了。并且，不同语言对字符集的处理也不尽相同。
比如 C 语言里的 `char`，在 32 位系统上是 1 个字节，64 位系统上还是 1 个字节。但 `wchar_t` 在 Windows 上是 2 个字节，在 Linux 上是 4 个字节。
这就是字符集对齐带来的庞大差异。
要是你在一个 Linux 系统上写个代码，然后在 Windows 系统上跑，挺好办出于 `wchar_t` 和 `char` 的大小不一样，害得字符串长度变了，接收端的数据流就全乱了。故此，作为工程师，我们要么用 `wchar_t` 来应对多字节字符集，要么在传输时就把 `wchar_t` 转成 `char`，要么用 `uint16_t` 这种固定大小的容器来存。别总想着直接拿 `char` 去装中文，也别总想着把 `wchar_t` 硬塞进 `char` 数组。最终，字节和字符，它们共同构成了我们数字世界的血肉与骨骼。字符是我们要传递的信息，字节是承载信息的砖瓦。砖瓦的大小是固定的，信息的内容是无限的。我们要么用砖瓦去装信息，要么用信息去调整砖瓦的大小。
只有当它们“咬合”得刚好，数据才能顺畅流动，没有断点，没有乱码，没有数据竞争。
这就是我们在这个代码世界里，反复调试、反复踩坑、最终修成正果的奥秘所在。

好文推荐：：

不锈钢烤漆护栏多少钱一平方-不锈钢烤漆护栏单价

云南大学物理考研分数(云南大学物理考研分数)