c++如何从二进制流中安全地读取带符号的64位整数【技巧】

　　发布于2026-05-03　阅读（0）

扫一扫，手机访问

C++如何从二进制流中安全地读取带符号的64位整数【技巧】

从二进制流里读取一个带符号的64位整数，听起来像是基础操作，但暗坑不少。一个安全的读取流程，必须同时处理好地址对齐、字节序转换和缓冲区边界这三个核心问题。简单来说，可以概括为：用 std::memcpy 到栈变量绕过对齐问题；根据 std::endian::native 与协议字节序决定是否调用 std::byteswap；读前校验剩余字节数 ≥8，避免越界。

用 `std::int64_t` 读取前先确认字节序和对齐

二进制流可不会主动告诉你数据类型。如果直接使用 reinterpret_cast 或者把指针强转为 std::int64_t* 来读取，很可能导致程序崩溃或者读出错误数据——尤其是在非对齐地址上操作时。比如，从一个 char* 指针偏移3个字节的位置开始读取8字节，在 x86_64 架构上或许能被容忍，但在 ARM64 上，大概率会直接触发一个 bus error。

更安全的做法是，利用 std::memcpy 将数据拷贝到栈上的局部变量中，这样可以巧妙地绕过处理器的对齐检查：

std::int64_t value;
std::memcpy(&value, ptr, sizeof(value));
// 再按需处理字节序

永远避免使用 *reinterpret_cast(ptr)。这种方式不仅依赖地址对齐，而且严重缺乏可移植性。
如果数据流来自网络或者跨平台存储的文件，需要特别注意：ptr 指向的这8个字节，默认很可能采用大端序（Big-Endian），而常见的 x86 架构是小端序（Little-Endian），这时就必须进行手动翻转。
判断本机字节序，在 C++20 及以上可以使用 std::endian::native == std::endian::big；否则，需要查询编译器定义的 __BYTE_ORDER__ 等宏。

处理大小端不一致时用 `std::byteswap`（C++23）或手动翻转

举个例子，假设你从磁盘文件里读到了8个字节：{0x00,0x00,0x00,0x00,0x00,0x00,0x00,0x01}。它的本意是表示数值1。但如果在小端机器上直接用 memcpy 而不做处理，你得到的 value 将会是 0x0100000000000000（即十进制72057594037927936），这显然是错误的。因此，在拷贝后，必须先统一转换为本机字节序：

// C++23 推荐
std::int64_t value;
std::memcpy(&value, ptr, sizeof(value));
if constexpr (std::endian::native == std::endian::big) {
    value = std::byteswap(value);
}

对于 C++20 之前的版本，需要手写字节翻转函数。通常的做法是先用 uint8_t buf[8] 读入，然后按照目标字节序重新排列索引。
不要依赖 ntohll() 这类函数——它们并非标准 C++ 的一部分，POSIX 标准也不保证其存在，在 Windows 平台上通常没有。
如果数据流遵循的协议明确规定了字节序（例如 Protocol Buffers 始终使用小端序），那么可以直接应用固定的翻转逻辑，无需在运行时查询 std::endian。

避免符号扩展错误：别用 `int64_t` 读取后再转 `uint64_t`

有一种常见的误解是：“先按无符号数读进来，再转换成有符号数”。代码可能长这样：uint64_t u = read_as_uint64(); int64_t s = static_cast(u);。这种做法在 u >= 0x8000000000000000ULL（即最高位为1）时，会触发未定义行为（UB），因为该值已经超出了 int64_t 所能表示的正数范围。

正确的做法是直接读取到 int64_t 变量中，让编译器按照补码规则来解释这8个字节：

std::int64_t value;
std::memcpy(&value, ptr, sizeof(value)); // 此时 value 已是正确带符号值

在现代计算机普遍使用补码表示有符号整数的前提下，最高位为1时，value 自动就是负数，不需要任何额外操作。
如果后续需要进行大小比较（例如判断 value < 0），直接使用 int64_t 类型的变量即可。
只有在需要进行位运算（如应用掩码、移位操作）时，才考虑将其转换为 uint64_t 类型。转换必须使用 std::bit_cast(value)（C++20）或再次借助 memcpy，以保证符合严格别名规则。

边界检查不能省：读之前确认剩余字节数 ≥ 8

越界读取是另一个致命问题，它可能导致访问非法内存，或者错误地将后续字段的数据当作当前数值来解析。即使你对数据流对象的“长度足够”有信心，显式的边界检查也绝不能省略：

立即学习“C++免费学习笔记（深入）”；

if (ptr + sizeof(std::int64_t) > end_ptr) {
    throw std::runtime_error("insufficient bytes for int64_t");
}
std::int64_t value;
std::memcpy(&value, ptr, sizeof(value));

不要单纯依赖 std::istream::read() 的失败状态——在某些实现下，即使只读到了部分字节，流状态也可能不会设置为失败。
如果数据来自 socket 或管道这类流式接口，单次 read() 调用的返回值很可能小于请求的长度，此时必须循环读取直到凑满8个字节，或者明确处理文件结束（EOF）的情况。
在调试时，观察 ptr 和 end_ptr 之间的差值，往往比分析错误调用堆栈能更快地定位出数据截断的问题根源。

最后，最容易被忽略的往往是字节序和对齐问题组合在一起引发的效应：你以为用了 memcpy 就万事大吉，结果程序在 ARM 设备上因为未对齐访问而崩溃；你以为已经处理好了网络字节序，却忘了实际协议规定的是小端序。所以，每次从二进制流中读取 int64_t 之前，不妨在心里快速确认三件事：地址对齐了吗？字节序对上了吗？缓冲区够长吗？ 养成这个习惯，能避开绝大多数隐蔽的坑。

本文转载于：https://www.php.cn/faq/2314005.html 如有侵犯，请联系zhengruancom@outlook.com删除。
免责声明：正软商城发布此文仅为传递信息，不代表正软商城认同其观点或证实其描述。

上一篇：C++如何实现深拷贝一个包含指针的类 _ 资源管理策略【干货】

下一篇：golang如何实现微服务链路追踪_golang微服务链路追踪实现方法

产品推荐

售后无忧
立即购买>

DAEMON Tools Lite 10【序列号终身授权 + 中文版 + Win】

￥150.00
office旗舰店
售后无忧
立即购买>

DAEMON Tools Ultra 5【序列号终身授权 + 中文版 + Win】

￥198.00
office旗舰店
售后无忧
立即购买>

DAEMON Tools Pro 8【序列号终身授权 + 中文版 + Win】

￥189.00
office旗舰店
售后无忧
立即购买>

CorelDRAW X8 简体中文【标准版 + Win】

￥1788.00
office旗舰店

正版软件

centos查看python版本_CentOS系统python默认版本由python2改为python3

一、了解现状：CentOS中的Python环境在CentOS系统中，如果已经安装了yum，那么系统中通常已经存在某个版本的Python 2。在命令行中直接输入python命令，你大概率会看到Python 2的环境被唤醒： [root@instance-hrnebyqu src]# python P

2分钟前 0
正版软件

c++如何计算文件的MD5哈希值_分块读取与加密库结合【实战】

如何用C++稳健地计算大文件的MD5哈希值？直接使用 std::ifstream 将整个文件读入内存再计算MD5，对于大文件（例如超过1GB）来说，无异于一场“内存灾难”——要么内存溢出，要么直接触发系统的OOM杀手。稳妥的做法，必须是分块读取文件，并配合加密库进行增量哈希更新。加密库选择：为何

3分钟前 0
正版软件

C++ std::assume_aligned _ C++20编译器指针对齐优化【详解】

std::assume_aligned：一份与编译器的“对齐契约”，用错后果很严重先明确一个核心概念：std::assume_aligned 不是用来“让”指针对齐的魔法函数，而是你向编译器做出的一份“保证声明”——“我发誓，这个指针已经对齐好了”。一旦这份保证是假的，未定义行为（UB）就会找上

4分钟前 0
正版软件

PHP函数如何适配边缘计算硬件设备_PHP在工业级硬件部署【教程】

PHP函数如何适配边缘计算硬件设备：工业级硬件部署实战指南将PHP部署到边缘计算硬件上，常会遇到一个根本性的矛盾：PHP并非为裸金属或资源高度受限的嵌入式环境而生。直接移植，往往会遭遇启动失败、内存溢出或定时器失准等问题——这通常不是简单的配置错误，而是其运行时模型与底层硬件环境不匹配导致的必然结

5分钟前 0
正版软件

C++如何自定义cout的输出格式 _ 操纵符(Manipulator)实现【实战】

C++如何自定义cout的输出格式 | 操纵符(Manipulator)实现【实战】什么是操纵符，为什么不能直接用cout就完事？很多初学者会问，既然cout能输出，为什么还要搞出hex、setw这些“操纵符”来多此一举？这恰恰是理解C++流式输出的关键一步。简单来说，操纵符（Manipula

5分钟前 0