sys_fork

羽蒙 · 发表于 2014-8-8 10:48:05

fork 简介：
fork系统调用的功能是为当前进程创建一子进程，该子进程事实上是父进程的一个拷贝，只不过它的pid号和其它少数参数不同而已。fork系统调用是进程管理中一个重要的系统调用，也是shell命令解释程序常用的一个系统调用。如果调用成功，fork系统调用对父进程返回新生成的子进程的进程标识号pid,对子进程返回0；否则，将出错原因存入error变量，并向父进程返回-1。产生的出错原因有两种：
EAGAIN 表示fork难以为子进程的PCB的数据项分配足够的内存空间，如拷贝父进程的页表时申请内存失败。
ENOMEM 表示fork为自己的存在申请内存空间失败，甚至可能连存放进程控制块的内存都不够。
2）fork 功能的实现
查看“include/asm-i386/unistd.h”，fork系统调用的对应函数是不带参数的，该系统调用的设置应使用的宏应为：
static inline _syscall0(int,fork)
这样，在调用fork时，系统将调用宏指令_syscall0，进而，调用0x80号中断，寄存器eax中的值为__NR_fork,这是fork传给int $0x80的唯一的参数。
调用中断“int $0x80”以后，在汇编过程“system_call”中，将通过eax中的值__NR_fork（即2）与4的乘积作为相对于系统调用表（sys_call_table）偏移，找到入口：
.long SYMBOL_NAME(sys_fork)
于是，系统流程转向函数sys_fork（）。（“arch/i386/kernel/process.c”）：
asmlinkage int sys_fork(struct pt_regs regs)
{
            return do_fork(SIGCHLD, regs.esp, &regs);
}
SIGCHLD是在定义的一个宏，它告诉do_fork（）函数应创建一子进程。前面提到过，调用宏过程“SAVE_ALL”将现有通用寄存器保存，提供了一种传递参数的方式，这里，sys_fork（）将所保存的寄存器组结构“struct pt_regs”类型的regs作为参数传递给do_fork（），并且传递了其中的栈寄存器项：regs.esp
于是，系统流程进入了文件“linux/kernel/fork.c”中定义的函数体do_fork（）。用户进程由do_fork()函数创建，它也是fork系统调用的执行者。do_fork()在task数组中找到空闲位置，继承父进程现有资源，初始化进程时钟、信号、时间等数据。下面一节介绍该函数的大概流程。
do_fork（）函数的大概流程
do_fork（）函数一开始就“作最坏的打算”，将可能返回的值error初始值置为-ENOMEM，它告诉系统，内存已被用完。然后，才进入主流程。
首先，do_fork（）函数调用kmalloc为进程申请内存空间，GFP_KERNEL表示允许内存一时申请不到时转入睡眠，这儿不作考虑，如果申请内存失败的话，将返回NULL。这时，do_fork（）函数转入bad_fork执行，这儿，do_fork（）函数直接返回出错信息，告诉系统，内存已被用完。
然后，do_fork（）函数调用alloc_kernel_stack（）宏，为进程申请堆栈页面，同样，如果申请失败，执行语句：
goto bad_fork_free_p;
这儿，有必要看一下标号bad_fork_free_p后的程序段：
bad_fork_free_p:
            kfree(p);
bad_fork:
                  return error;
可以看到，随着对进程初始化工作的逐渐深入，一旦出现错误，需要做的回复工作也逐渐增多，因此，在do_fork（）函数的回复部分，与出错的次序出现了一个有趣而且巧妙的对称。
然后，执行语句：
   error = -EAGAIN;
表示“ENOMEM”的危险已经过去，现在还存在“EAGAIN”的危险。
紧接着下面的语句是：
*p = *current;
它将当前进程的内容赋给新产生的进程，这时，子进程完全继承了父进程的内容，并且与之完全共享，这当然是不合理的，接下去的工作是使子进程拥有自己的特征。
首先要改变进程的所属的全局执行域结构中的use_count值，表示本域的进程数增了1，同样，也要改变进程所属的全局执行文件格式中的use_count值。
下面，设置与新进程相关的参数：
1．p->did_exec = 0，表示进程未被执行过；
2．p->swappable = 0，表示由于是新建进程，暂时拒绝被调用出内存；
3．p->kernel_stack_page = new_stack；为核心栈分配的一个物理页置入kernel_stack_page数据项；
4．设置进程状态为TASK_UNINTERRUPTIBLE，表示本进程将被置于等待队列中，由于资源未分配好，因此置为不可中断，使其待资源有效时唤醒，不可由其它进程通过信号唤醒；
5． p->flags &= ~(PF_PTRACED|PF_TRACESYS|PF_SUPERPRIV);
            p->flags |= PF_FORKNOEXEC;
这两条语句表示，拒绝新建进程具有超级用户特权或被跟踪，同时使PF_FORKNOEXEC置位，表示新建进程还没执行；
6．“p->pid = get_pid(clone_flags);”语句中，get_pid（）函数先判断调用它的do_fork()是否进行clone系统调用，这儿显然不是（关于clone系统调用，在2.4节有简单介绍），那么返回一不大于0x8000的进程标志号，它还进行了与组标识号及区标识号进行区别的判断；
7．由于新产生的进程的状态还是为TASK_UNINTERRUPTIBLE，因此不将其放入就绪队列，将next_run，prev_run项均置为NULL。将指向原始父进程、父进程指针项赋值为当前进程Current；
8．为新进程的后续进程初始化等待队列；
9．“p->signal = 0;”表示新建进程尚未收到任何信号；
10．初始化时间数据成员：
   init_timer(&p->real_timer);
            p->real_timer.data = (unsigned long) p;
这两条语句初始化进程的定时数据结构timer_list类型的real_timer。
            p->it_real_value = p->it_virt_value = p->it_prof_value = 0;
            p->it_real_incr = p->it_virt_incr = p->it_prof_incr = 0;
以上两条语句初始化用于进程计时的数据项，将其均置为0，其中it_real_value, it_real_incr与系统计时变量jiffies保持一致，它表示真实时间; it_virt_value, it_virt_incr用于虚拟软件及时，它仅在进程运行时有效，因此，该数据项用于进程内计时，当时间到时，发送信号  ，具体代码见于文件“/kernel/sched.c”内的do_it_virt（）函数体：
      if (it_virt <= ticks) {
                  it_virt = ticks + p->it_virt_incr;
                  send_sig(SIGVTALRM, p, 1);    /*向进程发送信号SIGVTALRM*/
it_prof_value, it_prof_incr也用于虚拟的的软件定时，但还包括操作系统为进程运作而运行的时间，前者为时间值，后者为时间增量。它在时间到时发信号SIGPROF，这种计时工具可用来对用户使用系统的时间计时，以便进行清算等。
对进程计时用于控制进程运行时间，它可由另一系统调用setitimer来实现，它的其中一项参数就是指定设置的计时类型，即ITIMER_REAL ，ITIMER_VIRTUAL 以及ITIMER_PROF。
   p->utime = p->stime = 0;
            p->cutime = p->cstime = 0;
            …………………….
   p->start_time = jiffies;
该三条语句表示分别将进程用户态时间总和、进程核心态时间总和、子进程用户态时间总和、子进程核心态时间总和置为0，将建立该进程的系统时间置为jiffies，设置当前进程的建立时间。
11．“SET_LINKS(p);”语句将新进程与初始进程相关联，“task[nr] = p;”将其放入当前所有进程数组，“nr_tasks++;”表示当前进程增加了一个。
以上11步工作将新生成的进程的参数全部设置完毕，现为其分配应有的内存，用来保存与新进程相关的文件系统，内存页面，信号处理程序等工作，这儿，有必要再来看一下fork系统调用的处理函数：
asmlinkage int sys_fork(struct pt_regs regs)
{
            return do_fork(SIGCHLD, regs.esp, &regs);
}
其中SIGCHLD的宏定义值为17，再来看“sched.h”中定义的“克隆”标志：
#define CSIGNAL             0x000000ff          /* 在进程终止时须发的信息 */
#define CLONE_VM    0x00000100          /* 子进程共享父进程虚拟内存 */
#define CLONE_FS    0x00000200          /* 子进程共享父进程文件系统信息 */
#define CLONE_FILES    0x00000400          /* 子进程共享父进程打开文件 */
#define CLONE_SIGHAND    0x00000800 /* 子进程共享父进程信号操纵函数 */
#define CLONE_PID    0x00001000          /* 子进程共享父进程的进程号*/
可知，fork（）系统调用的clone_flags中，只有CSIGNAL非零，因此，子进程必须有自己的一套虚拟操作结构。
回到do_fork()函数，转入内存申请工作，以第一项申请为例：
   if (copy_files(clone_flags, p))
            goto bad_fork_cleanup;
即如果申请失败，返回的非零值使流程转向bad_fork_cleanup标记处，申请过程在函数体copy_files（）中进行。在此函数体内，观察语句：
   oldf = current->files;
   if (clone_flags & CLONE_FILES) {
            oldf->count++;
            return 0;
   }
因为CLONE_FILES没有置位，因此不能在此直接返回，于是只能为新进程分配有关文件信息的结构所占用的内存：
   newf = kmalloc(sizeof(*newf), GFP_KERNEL);
   tsk->files = newf;
如果申请失败，返回-1，那么，正如前面所述， fork为自己的数据项申请内存空间失败，这时，返回EAGAIN。
接下去是拷贝父进程打开文件的结构指针，在进程控制块task_struct中，定义了一files_struct数据项 files，其结构如下所示：
struct files_struct {
            int count;
   fd_set close_on_exec;
            fd_set open_fds;
   struct file * fd[NR_OPEN];
};
其中，count 表示共享该文件组的进程数目，因此，设置初始值为零，每当进程结束时，会将该数据项减一；fd数据项是一指向本进程所打开文件的指针，它是一“NR_OPEN”的数组，“NR_OPEN”在“limit.h”中宏定义为256，这样，一进程最多可打开256个文件。
申请完file_struct 节点以后，执行代码：
   if (copy_fs(clone_flags, p))
         goto bad_fork_cleanup_files;
同样，转入函数体copy_fs（），该函数拷贝父进程的在VFS中的位置。在Linux系统中，进程本身也是一种文件，fs_struct结构的root指向根目录结点，pwd指向当前进程工作目录结点。count表示文件的引用次数，初始值设为1，umask表示文件的缺省创建模式，继承父进程的方式。
这里顺便简单介绍一下inode 结构，在Linux的EXT2文件系统里面，inode是基本的文件（或目录，但Linux系统中，两者等价）描述块，一般来说，它包含了此文件的一些关键信息：所在设备、类型、大小、时间属性、在设备上的位置、用户属性等等。
接下去do_fork()执行copy_sighand（）函数，该函数将父进程的与信号处理有关的结构拷贝到新产生进程。
最后执行copy_mm（）函数，该函数为新进程开辟新的页面，然后将父进程的所有mm_struct结构类型的数据项“mm”拷贝到子进程，修改一些特征参数，如count值，将def_flags初始设为0，即不对任何标志位置位（def_flags标志位保存mm_struct结构所指的虚存的信息，如锁定（VM_LOCKED）等）。
如下语句为新进程分配页表：
         if (new_page_tables(tsk)) {
               tsk->mm = NULL;
               exit_mmap(mm);
               goto free_mm;
         }
如分配页表失败，转到free_mm处释放先前为mm所申请的存储空间后，返回出错信息。若成功，转到函数dup_mmap（）为新进程分配虚存链（vm_area_struct结构）的存储空间，并调用“build_mmap_avl(mm);”为之建立AVL树结构。vm_area_struct结构保存进程所有开辟的虚拟空间的信息，并通过语句：“flush_tlb_mm(current->mm)”通报系统，从current->mm开始的存储结构已被改变，需要重新设置快表。
   在进程间资源共享上，Linux采用一种“写时拷贝”的策略，即共享双方中的一方试图改变共享资源时，把资源拷贝给另一方。这儿所说的资源特指存储空间。
fork的返回工作——返回到system_call
这一节主要还是在do_fork()函数中工作，但是由于还得牵涉到返回entry.S中进行系统调用返回的处理工作，所以单独列出一节。
关键的一步是：
   copy_thread(nr, clone_flags, usp, p, regs);
该函数在文件“/arch/i386/kernel/process.c”中定义，或许该函数仅仅是设置进程的TSS(Task State Segment)，但是其中的下述语句值得注意：
   childregs = ((struct pt_regs *) (p->kernel_stack_page + PAGE_SIZE)) - 1;
   p->tss.esp = (unsigned long) childregs;
这两条语句使子进程的保存状态的堆栈段指向新开辟的堆栈。
p->tss.eip = (unsigned long) ret_from_sys_call;
            *childregs = *regs;
   childregs->eax = 0;
   eip得到ret_from_sys_call的入口地址，使得子进程被唤醒后，从ret_from_sys_call开始执行。将eax置零，表示子进程成功创建，返回０。
最后执行：
１．“p->swappable = 1;”，注意到do_fork()在开始时将其置零，现置位。
２．“p->exit_signal = clone_flags & CSIGNAL;”将父进程传入的信号SIGCHLD放入exit_signal，用来被强行终止时发送（注意CSIGNAL低八位为ff，见２.３节）
３．“p->counter = (current->counter >>= 1);”：该语句将子进程的时间片定为父进程的一半，体现了一种差别。４．“wake_up_process(p);”唤醒新进程放入就绪队列，等待调度，返回。

		自动登录	找回密码
密码			我要注册

sys_fork

浏览过的版块

站长推荐 /1