一个C程序的完整生命周期


用一个程序快速回顾 C 核心语法

市面上有很多成熟的 C 编译器可以选择,但不同的编译器可能存在着所支持平台(类 Unix、Windows)以及 C 标准(C89、C99、C11、C17)上的差异,因此在选择时需要特别注意这些问题。这门课里使用的 GCC 和 Clang 都支持 C 语言的最新标准 C17,并且都可以运行在类 Unix 与 Windows 系统上。

源码

#include <stdlib.h>
#include <stdio.h>
#include <stdint.h>
#include <assert.h>
#include <stdbool.h>

// 定义用到的宏常量与宏函数
#define BOOL_TRUE  1
#define BOOL_FALSE 0
#define typename(x) _Generic((x),\
    unsigned short: "unsigned short int",\
    unsigned long: "unsigned long int",\
    default: "unknown")

// 定义枚举类型IP_ADDR_TYPE,用于表示联合中生效的字段
typedef enum {HOST,IP} IP_ADDR_TYPE;

// 定义结构 CONN
typedef struct {
    size_t id;
    uint16_t port;
    bool closed;
    IP_ADDR_TYPE addr_type;
    union {
        char host_name[256];
        char ip[24];
    };
} CONN;

// 定义函数 findAddr,用于打印CONN对象信息
inline static const char* findAddr(const CONN* pip) {
    //运行时断言,判断传入的CONN指针是否有效
    assert(pip != NULL);
    return pip->addr_type == HOST?pip->host_name:pip->ip;
}

// 入口函数
int main(int argc, char* argv[]){
    // 静态断言,判断CONN对象的大小是否符合要求
    static_assert(sizeof(CONN)<=0x400,"the size of CONN object exceeds limit.");
    // 构造一个数组,包含三个CONN对象
    const CONN conns[] = {
        [2] = {1,80,BOOL_TRUE,IP,{ .ip= "127.0.0.1"}},
        [0] = {2,8080,BOOL_FALSE,IP,{ .ip= "192.168.1.1"}},
        {3,8088,BOOL_FALSE,HOST,{ .host_name= "http://localhost"}}
    };
    // 遍历上述CONN数组,并打印其中的内容
    for (size_t i = 0; i<(sizeof(conns)/sizeof(CONN));++i) {
        printf(
            "Port: %d\n"
            "Host/Addr:%s\n"
            "Internal type of `id` is: %s\n\n",
            conns[i].port,
            findAddr(&conns[i]),
            typename(conns[i].id)
        );
    }
    return EXIT_SUCCESS;
}

这段代码用到了横跨 K&R C 到 C17 标准的许多语言特性,创建了多个基于自定义类型构建的对象,并在程序的最后将这些对象的相关信息打印了出来。

入口函数

所有的 C 程序都会使用 main 函数作为入口函数。入口函数,就是指程序开始运行时,代码中会被首先调用的那个函数。在 main 函数中,我们可以通过它接收到的实际参数,来选择性地访问程序在开始运行时,由用户传递给程序的外部参数。

main 函数在执行结束时会返回一个整数,用于表示程序执行完毕时的状态,通常返回数字 0 表示程序正常退出,返回其他数字则代表异常退出。为了保持代码的可读性,这里我们使用标准库中定义的宏常量 EXIT_SUCCESS ,作为程序退出的返回值。顾名思义,这个宏常量对应的实际值就是数字 0。

数组

在 main 函数内部,我们使用了“括号列表(brace-enclosed lists)”的方式,完成了对数组 conns 的初始化过程。而在初始化列表中,我们还使用了指派初始化(为初始化列表中的项设定“指派符”)的方式,来明确指定这些项在数组中的具体位置。比如这里第一项对应的 “[2]” ,就表示将该项设置为数组 conns 中的第 3 个元素(索引从 0 开始)。

结构与联合

数组 conns 内部,存放有若干个类型为 CONN 的结构对象。在 C 语言中,结构和联合(有时也被称为结构体与联合体)通常用来组织复杂类型的自定义数据。在结构中,所有定义字段的对应数据按照内存连续的方向排列;而在联合中,定义的字段同一时间只会有一个“生效”。

对结构 CONN 对象的初始化过程中,也同样使用了类似数组的括号列表初始化,以及指派初始化。但和前面数组初始化不同的是,这里的指派是针对结构与联合类型内部的成员字段的,因此需要使用 “.” 符号来引用某个具体成员,而非数组所使用的形式。

控制结构

使用了 for 语句以循环的形式遍历了数组 conns 中的内容。除此之外,C 语言中常用的控制结构还有 switch 语句、while 语句、以及 goto 语句等等。

指针

指针是 C 语言中最危险但也最强大的“武器”之一。借助指针,我们能够灵活地操控程序享有的内存资源。

我们将数组 conns 中各个元素的地址传递给了函数 findAddr,而该函数则接收一个指向 CONN 类型对象的常量指针。所以,通过该指针,我们无法在函数内部修改指针所指向对象的值。而这在一定程度上保证了函数仅能够拥有足够完成其任务的最小权限。

编译器对 C 源代码的处理过程分为几个阶段,其中,宏是最先被处理的一个部分。在这段代码的开头处,我们通过宏指令 “#include” 引入了程序正常运行需要的一些外部依赖项,这些引入的内容会在程序编译时得到替换。随后,我们又通过 “#define” 指令定义了相应的宏常量与宏函数,而其中的宏函数 typename 则使用到了 C11 标准新引入的 _Generic 关键字,以用来实现基于宏的泛型。

断言

在 C 代码中,我们通常会使用断言,来对某种需要支持程序正常运行的假设性条件进行检查。而当条件不满足时,则在程序编译或运行时终止,并向用户抛出相应的错误信息。C 语言提供静态与动态两种类型的断言,其中静态断言会在代码编译时进行检查;而动态断言则会在程序运行过程中,执行到该断言语句时再进行检查。

函数内联

在函数 findAddr 的定义代码中,我们为其添加了名为 inline 的关键字。通过使用该关键字,我们可以“建议”编译器将该函数的内部逻辑直接替换到函数的调用位置处,以减少函数调用时产生的开销。这种方式通常使用在那些函数体较小,且会被多次调用的函数上,以产生较为显著的性能提升。

其他特性

如果你对其中的一些特性感到陌生,可以选择在 GeeksforGeeks网站上直接查找特定主题并学习,或者查阅《C Primer Plus》这些入门书籍。

总结

C语法总结

C 语言的编程范式

抛开语法细节,从总体上来看,C 语言是一种“命令式”编程语言,和它类似的还有 Java、C#、Go 等语言。

命令式编程(Imperative Programming)是这样一种编程范式:使用可以改变程序状态的代码语句,描述程序应该如何运行。这种方式更关注计算机完成任务所需要执行的具体步骤。

以 C 语言为例,解决这个需求的步骤可能会是这样:使用数组,构造一块可以存放这些数字的内存空间;使用循环控制语句,依次检查内存中的这些数字是否满足要求(即大于 7);对于满足要求的数字,将它们拷贝到新的内存空间中,暂存为结果。

#define ARR_LEN 5
int main(void) { 
  int arr[ARR_LEN] = { 1, 5, 10, 9, 0 };
  for (int i = 0; i < ARR_LEN; ++i) {
    if (arr[i] > 7) {
      // save this element somewhere else.
    }
  }
  return 0;
}

相对于命令式编程语言,其他语言一般会被归类为“声明式”编程语言。声明式编程(Declarative Programming)也是一种常见的编程范式。不同的是,这种范式更倾向于表达计算的逻辑,而非解决问题时计算机需要执行的具体步骤。

比如说,还是刚才那个需求,在使用声明式编程语言时,对应的解决步骤可能是:构建一个容器来存放数据;按照条件对容器数据进行筛选,并将符合条件的数据作为结果返回。如果以 JavaScript 为例,对应的代码可能如下所示:

let arr = [1, 5, 10, 9, 0]
let result = arr.filter(n => n > 7)

可以看到的是,相较于命令式编程,声明式编程更倾向于表达在解决问题时应该做什么(构建容器、筛选),而不是具体怎么做(分配内存、遍历、拷贝)。

通常来说,命令式编程语言和声明式编程语言的差异,主要体现在两者的语言特性相较于计算机指令集的抽象程度。其中,命令式编程语言的抽象程度更低,这意味着该类语言的语法结构可以直接由相应的机器指令来实现。而声明式编程语言的抽象程度更高,这类语言更倾向于以叙事的方式来描述程序逻辑,开发者无需关心语言背后在机器指令层面的实现细节。两种语言在使用上各有其适用场景,并无孰好孰坏之分。

C 程序的编译和运行

编写完一段 C 代码,接下来的步骤就是对这段代码进行编译了。在执行编译命令时,为了保证程序的健壮性,我们一般会同时附带参数 “-Wall”,让编译器明确指出程序代码中存在的所有语法使用不恰当的地方。

gcc HelloWorld.c -o HelloWorld -Wall && ./HelloWorld

一般来说,C 代码的完整编译过程可以分为如下四个阶段:

编译过程

HelloWorld编译流程

  1. 代码预处理:编译器会首先移除源代码中的所有注释信息,并处理所有宏指令。其中包括进行宏展开、宏替换,以及条件编译等。
  2. 编译优化:编译器会分析和优化源代码,并将其编译成对应的汇编格式代码,这部分代码中含有使用汇编指令描述的原始 C 程序逻辑。
  3. 汇编:编译器会将这些汇编代码编译成具有一定格式,可以被操作系统使用的某种对象文件格式。
  4. 链接:通过链接处理,编译器会将所有程序目前需要的对象文件进行整合、设置好程序中所有调用函数的正确地址,并生成对应的二进制可执行文件。

Author: Andy Zhang
Reprint policy: All articles in this blog are used except for special statements CC BY 4.0 reprint polocy. If reproduced, please indicate source Andy Zhang !
评论
  TOC