C语言结构体写入文件“错误”,根据结构体成员名计算偏移的方法
发表于: 2018-06-22 21:17:51 | 已被阅读: 34 | 分类于: C语言
结构体
在各种编程语言中,都是建立自定义数据体的一种非常好的途径。但是有时忽略结构体成员自动对齐,带来的结果会让人迷惑。此外,获取结构体成员在结构体中的偏移,方法很多。最近常用C语言,今天发现了一种非常不错的获取结构体成员偏移的方法,仅仅根据结构体成员名即可计算出偏移。
结构体成员自动对齐,引起写到文件“错误”
这里的“错误”加了引号,说明并不是真正的错误,而是看着“好像错了”,执行下面代码:
// 文件名 t.c
#include <stdio.h>
#include <sys/types.h>
#include <sys/stat.h>
#include <fcntl.h>
#include <unistd.h>
typedef struct __TEST
{
char mchar;
int mint;
short mshort;
}TEST;
int main()
{
TEST test;
test.mchar = 1;
test.mshort = 2;
test.mint = 4;
int fd = open("data.bin", O_RDWR|O_CREAT);
write(fd, &test, sizeof(TEST));
close(fd);
return 0;
}
我们编译,并且执行:
$ gcc t.c -o t
$ ./t
按理说,
1 2 0 0 0 4 0
但是,我们查看
$ od -tx1 -Ax data.bin
000000 01 06 40 00 04 00 00 00 02 00 40 00
00000c
长度跟想象的不一样,而且
这个就是
- char short 和 int 分别占 1 2 4 字节内存
- TEST 结构体第一个成员先占了 1 字节内存
- 第二个成员 4 字节,必须 4 字节对齐,于是在第一个成员后面补了 3 位
- 第三个成员 2 字节,由于已经 4 字节对齐,所以在后面补了 2 位
- 虽然第一个成员补了 3 位,但是有效的只有原来的 1 位,第三个成员也如此。所以
06 40
都是残留在内存中的野值。
这么一解释,输出结果似乎又正确了哈。
取消结构体成员自动对齐,使数据更加紧凑
虽然结构体的成员自动对齐,可以提升访问速度,但是也会带来一些不方便。例如,从上面的
#include <stdio.h>
#include <sys/types.h>
#include <sys/stat.h>
#include <fcntl.h>
#include <unistd.h>
typedef struct __TEST
{
char mchar;
int mint;
short mshort;
}TEST;
int main()
{
TEST test;
int res = 0;
int fd = open("data.bin", O_RDWR|O_CREAT);
// mint 的偏移似乎在 1 字节(char占1字节)
lseek(fd, 1, SEEK_SET);
read(fd, &res, 1);
close(fd);
printf("res: %d\n", res);
return 0;
}
编译执行,得到的好像是野值:
$ gcc t.c -o t
$ ./t
res: 6
这还是因为结构体成员自动对齐的缘故,按照上面分析,偏移应该是 4,所以应该是
lseek(fd, 4, SEEK_SET);
再编译执行,发现输出正确了。
$ gcc t.c -o t
$ ./t
res: 4
但是计算对齐后的偏移,很容易出错。当然有解决办法,其实只要在声明结构体时,加入关键字
#include <stdio.h>
#include <sys/types.h>
#include <sys/stat.h>
#include <fcntl.h>
#include <unistd.h>
typedef struct __TEST
{
char mchar;
int mint;
short mshort;
}__attribute__((packed)) TEST;
int main()
{
TEST test;
int res = 0;
test.mchar = 1;
test.mshort = 2;
test.mint = 4;
int fd = open("data.bin", O_RDWR|O_CREAT|O_TRUNC);
write(fd, &test, sizeof(TEST));
// mint 的偏移 1
lseek(fd, 1, SEEK_SET);
read(fd, &res, 1);
close(fd);
printf("res: %d\n", res);
return 0;
}
编译执行,发现偏移是 1,正确读出结果了,写入的数据也变得紧凑了。
$ gcc t.c -o t
$ ./t
res: 4
$ od -tx1 -Ax data.bin
000000 01 04 00 00 00 02 00
000007
计算结构体成员偏移的方法
上面取消结构体成员自动对齐后,虽然成员的偏移变得更加容易看出,但是仍然容易出错。而且如果后期添加结构体成员,偏移可能会变,例如,当在 TEST 结构体添加成员:
typedef struct __TEST
{
char mchar;
char mchar2;
int mint;
short mshort;
}__attribute__((packed)) TEST;
此时,
那么,有方便的获取成员偏移的方法吗?肯定是有的,C语言可以直接取变量地址,利用这点,就可以计算出结构体的成员偏移。
#include <stdio.h>
#include <sys/types.h>
#include <sys/stat.h>
#include <fcntl.h>
#include <unistd.h>
typedef struct __TEST
{
char mchar;
int mint;
short mshort;
}__attribute__((packed)) TEST;
int main()
{
TEST test;
size_t baseAddr = 0, mintAddr = 0;
baseAddr = (size_t)(&test);
mintAddr = (size_t)(&(test.mint));
printf("baseAddr: %ld, mintAddr: %ld\n", baseAddr, mintAddr);
printf("mint offset: %ld\n", mintAddr - baseAddr);
return 0;
}
编译执行,得到:
$ gcc t.c -o t
$ ./t
baseAddr: 140723789483952, mintAddr: 140723789483953
mint offset: 1
发现,我们仅仅
其实,结构体本身的地址,我们并不关心,因为最后总是要减掉的,那么,如果
#include <stdio.h>
typedef struct __TEST
{
char mchar;
int mint;
short mshort;
}__attribute__((packed)) TEST;
int main()
{
size_t offset = (size_t)( &( ((TEST*)0)->mint) );
printf("mint offset: %ld\n", offset);
return 0;
}
编译执行,发现一样成功获得了
$ ./t
mint offset: 1
如此以来,获取结构体成员的偏移,完全可以定义成一个宏:
#define OFFSET(type, member) ( (size_t)( &( ((type*)0)->member) ) )
我们将其应用到上面的例子中,试试效果。
#include <stdio.h>
#include <sys/types.h>
#include <sys/stat.h>
#include <fcntl.h>
#include <unistd.h>
#define OFFSET(type, member) ( (size_t)( &( ((type*)0)->member) ) )
typedef struct __TEST
{
char mchar;
int mint;
short mshort;
}__attribute__((packed)) TEST;
int main()
{
TEST test;
int res = 0;
test.mchar = 1;
test.mshort = 2;
test.mint = 4;
int fd = open("data.bin", O_RDWR|O_CREAT|O_TRUNC);
write(fd, &test, sizeof(TEST));
// 使用 宏 OFFSET 获得偏移
lseek(fd, OFFSET(TEST, mint), SEEK_SET);
read(fd, &res, 1);
close(fd);
printf("res: %d\n", res);
return 0;
}
编译执行,发现成功了:
$ gcc t.c -o t
$ ./t
res: 4
这个