C语言基本功修炼秘籍第1节，序列点（sequence point）是什么？C语言程序什么时候会产生序列点？

文章目录

C语言基本功修炼秘籍第1节，序列点（sequence point）是什么？C语言程序什么时候会产生序列点？

		发表于: 2019-07-10 07:47:37 | 已被阅读: 491 | 分类于: C语言

C语言程序开发中，有时候一条很不起眼的语句，就能导致非常难排查的 bug 产生。相应的，一段很C语言代码即使很简单，背后可能也隐藏着比较深入的知识点。例如下面这段C语言代码，请看：

#include <stdio.h>

int main()
{
    int i = 0;
    int a[3] = {};

    a[i] = i++;
    printf("a[i]: %d, i: %d\n", a[i], i);

    return 0;
}

这段C语言代码足够简单，但是比较有经验的程序员应该能够发现不妥之处，事实上，使用 gcc 编译这段C语言代码，是会产生警告的：

为什么会有这样的警告呢？

读者应该能够注意到“may be”这两个单词，“operation on ‘i’ may be undefined”意为“对‘i’的操作

可能

是未定义的”。

“可能”这个词出现在人类交谈使用的自然语言里并不稀奇，但是它出现在决不允许出现歧义的“形式语言”（C语言属于“形式语言”）中就非常不可思议了。对于计算机来说，要么是，要么不是，怎么可能出现“可能”这样模棱两可的情况呢？

读者应该听说过“C语言是一门可移植的编程语言”，这里的可移植并不是指我们在随意一个平台编译的C语言程序，能够在所有其他平台运行。而是指程序员编写一份C语言代码，可以在其他平台编译，并且运行结果一致。

要实现这种“可移植性”，各个平台的C语言编译器需要遵守同一个标准——即程序员常说的C语言标准。需要说明的是，C语言标准并不包含所有的情况，对于C标准未明确要求的语法，编译器们可以根据实际情况自我调整。

例如，C语言标准规定 char 类型占用一个字节内存空间，所有规范的C语言编译器都应遵守，所以不管什么平台，C语言程序中所有的 char 类型通常都占用一个字节内存空间。至于 int 类型，C语言标准并没有规定其占用多少内存空间，因此有的平台 int 类型占用 2 字节，有的平台 int 类型占用 4 字节，这是允许的。

可移植的C语言代码，不能假定自己将要运行的平台，编写时应考虑所有未定义的标准。

现在回到前面的C语言代码示例：“对‘i’的操作

可能

是未定义的”，这里的“可能”实际上就是指C语言标准没有定义，在不同的平台运行结果可能会不一致。

什么“未定义”呢？

编译器在处理上述示例C语言代码时，引发警告的是下面这句：

a[i] = i++;

这句有什么问题吗？当然了，i 的初值为 0，那么程序处理这句代码时，a[i] 中的 i 是执行过 i++ 后的 i 呢，还是执行 i++ 之前的 i 呢？遗憾的是，C语言标准并没有对这一顺序做出约束，所以这两种情况都有可能，因此上述C语言语句经过不同的编译器处理，是有可能产生不同的结果的。

读者请注意编译器警告信息里的“[-Wsequence-point]（序列点）”，这是很多C语言初学者容易忽略，但是又非常重要的知识点。

序列点（sequence point）

序列点（sequence point），或者翻译为“顺序点”，它在C语言程序中的作用是：当C语言程序执行到某个序列点时，程序保证该点之前所有语句的副作用（side effect）都执行完毕，该点之后的所有语句的副作用则全都不执行。

关于“副作用”的概念，可以参考我之前的文章《》。

可见，序列点其实就是用于确定C语言语句执行顺序的概念。在实际的C语言程序开发中，其实我们不经意间就会用到这个概念了，主要涉及以下 3 点：

表达式与表达式之间具有确定的执行顺序
表达式与表达式之间没有确定的执行顺序
表达式的计算未排序

执行无确定顺序的C语言表达式可能导致比较严重的不可预测的情况发生，这种情况可能在并行处理中出现，导致竞争条件。即使是非并发的情况，也有可能出现问题。例如下面这个表达式：

(a=1) + (b=a);

读者应该明白，虽然对 a 的赋值语句 a=1 只有一句，但是计算机处理时仍然可能需要多条指令才能完成，很有可能出现这种情况：程序对 a 赋值才完成前半段时，b=a 被执行了，然后对 a 赋值的下半段才完成，这将导致 b 中存储的实际上是 a 无意义的中间状态。

序列点实例

首先，C语言中的“+”运算符不关联序列点，假设某段程序中有两个函数 f() 和 g()，那么在处理 f()+g() 表达式时，f() 和 g() 的执行顺序实际上是不确定的，在不同的编译器上，f() 和 g() 都有可能先执行。

C语言中的逗号“,”运算符则可引入序列点，因此在处理表达式 f(), g() 时，执行顺序就确定了：C语言程序必定先执行 f()，再执行 g()。

在单个表达式中多次修改同一变量时，序列点也会起作用。例如这句C语言代码：

i = i++;

这句C语言代码不仅仅对 i 做了赋值操作，还对其做了自加操作。因此，在不同的编译器上，最终 i 的值实际上是不确定的，自加操作可能在赋值之前执行，也可能在赋值之后执行，甚至还有可能与赋值操作交叉运行，导致“中间态”的出现。

C#区分了赋值和自加运算符的优先级，从而保证了该类型表达式的确定结果。

C语言中的序列点

上面的实例中讨论了C语言中的“+”不产生序列点，“,”产生序列点，那么还有哪些运算符产生序列点呢？

逻辑运算符 && 和 ||，以及前面已经讨论的逗号“，”运算符是能够产生序列点的。例如，在表达式 *p++ !=0 && *q++ !=0中，因为 && 运算符产生序列点，所以在程序访问 q 之前，可以保证 *p++ !=0所有的副作用都完成。
三元运算符“?:”第一个操作数结束处将产生序列点。例如在表达式a=(*p++)?(*q++):0中，*q++执行之前，可以确保*p的自加副作用已经完成。
完整的表达式末尾将产生序列点。包括一条普通的以“;”结尾的C语言语句（例如赋值语句 a=b;），return 语句，if、switch、while、do while 以及 for 语句的控制表达式。
函数调用处将产生序列点。虽然被调用函数的各个参数计算顺序是没有指定的，但是能够确保的是，在进入被调用函数之前，传递给它的所有参数的副作用都将完成。

例如在表达式 f(i++) + g(j++) + h(k++) 中，在进入函数 f() 之前，i会完成自加。同样的，j和k在进入 g() 和 h() 之前也会完成自加。但是正如前面所说，f()、g()、h() 三个函数本身的计算顺序是不确定的，如果 f() 访问了 j 和 k，它可能会发现两者都没有自加，或者只有一个完成了自加。 5. 函数返回时将产生序列点。这是肯定的，C语言程序中，调用者调用函数后，总是会等待其完成，这其实隐含着一种顺序。 6. 各个声明运算符之间将产生序列点。例如在表达式 int x=a++, y=a++ 中，对两个 a++ 的计算之间。 7. 在输入/输出格式说明符关联的转换之后将产生序列点。例如，在表达式 printf("%n%d", &a, 3) 中，在计算 %n 之后，打印 3 之前有一个序列点。

小结

本文以一段非常简单的C语言程序为切入点，较为详细的讨论了很多初学者容易忽略的C语言中的“序列点”概念。文章最后列举了C语言中产生序列点的场景，希望能够对读者有所参考，便于读者写出更加稳健的C语言程序。