1.system在C语言里是源码什么意思
2.一个Linux多进程编程?
3.linux如何查看命令的源码
4.linux 进程加载 - execve 系统调用
5.linux源码中的struct pt_regs数据结构是干什么的?
6.linux内核情景分析之execve的实现
system在C语言里是什么意思
system()函数功能强大,很多人用却对它的分析原理知之甚少先看linux版system函数的源码:#include <sys/types.h>
#include <sys/wait.h>
#include <errno.h>
#include <unistd.h>
int system(const char * cmdstring)
{
pid_t pid;
int status;
if(cmdstring == NULL){
return (1);
}
if((pid = fork())<0){
status = -1;
}
else if(pid = 0){
execl("/bin/sh", "sh", "-c", cmdstring, (char *)0);
-exit(); //子进程正常执行则不会执行此语句
}
else{
while(waitpid(pid, &status, 0) < 0){
if(errno != EINTER){
status = -1;
break;
}
}
}
return status;
}
分析一下原理估计就能看懂了:
当system接受的命令为NULL时直接返回,否则fork出一个子进程,源码因为fork在两个进程:父进程和子进程中都返回,分析这里要检查返回的源码pid,fork在子进程中返回0,分析源码半身裙在父进程中返回子进程的源码pid,父进程使用waitpid等待子进程结束,分析子进程则是源码调用execl来启动一个程序代替自己,execl("/bin/sh",分析 "sh", "-c", cmdstring, (char*)0)是调用shell,这个shell的源码路径是/bin/sh,后面的分析字符串都是参数,然后子进程就变成了一个shell进程,源码这个shell的分析参数是cmdstring,就是源码system接受的参数。在windows中的shell是command,想必大家很熟悉shell接受命令之后做的事了。
再解释下fork的原理:当一个进程A调用fork时,系统内核创建一个新的进程B,并将A的内存映像复制到B的进程空间中,因为A和B是一样的,那么他们怎么知道自己是父进程还是子进程呢,看fork的返回值就知道,上面也说了fork在子进程中返回0,在父进程中返回子进程的pid。
windows中的情况也类似,就是execl换了个又臭又长的名字,参数名也换的看了让人发晕的,我在MSDN中找到了原型,给大家看看:
HINSTANCE ShellExecute(
HWND hwnd,
LPCTSTR lpVerb,
LPCTSTR lpFile,
LPCTSTR lpParameters,
LPCTSTR lpDirectory,
INT nShowCmd
);
用法见下:
ShellExecute(NULL, "open", "c:\\a.reg", NULL, NULL, SW_SHOWNORMAL);
你也许会奇怪 ShellExecute中有个用来传递父进程环境变量的参数 lpDirectory,linux中的execl却没有,这是因为execl是编译器的函数(在一定程度上隐藏具体系统实现),在linux中它会接着产生一个linux系统的调用 execve, 原型见下:
int execve(const char * file,const char **argv,const char **envp);
看到这里就会明白为什么system()会接受父进程的环境变量,但是用system改变环境变量后,system一返回主函数还是没变。原因从system的实现可以看到,它是通过产生新进程实现的,从我的分析中可以看到父进程和子进程间没有进程通信,子进程自然改变不了父进程的环境变量。
使用了system函数就能执行dos指令。
#include <stdio.h>
#include <stdlib.h>
xiaoyu()
{
char *a;
int n=0;
FILE *f;
f=fopen("file.bat","w+");/*新建一个批处理*/
if(f==NULL)
exit(1);
a="echo"; /*DOS命令*/
for(n=;n<=;n++)/*大写A-Z*/
fprintf(f,"%s %c\n",a,n);/*利用ASCII码输出A-Z,写出批处理*/
fclose(f);
system("file.bat");/*运行批处理*/
}
main()
{
char *string;
xiaoyu();
string="echo C语言的system函数\n";/*输出中文*/
system(string);
system("pause");/*程序暂停*/
}
C中可以使用DOS命令,以后编程通过调用DOS命令很多操作就简单多了。
一个Linux多进程编程?
1 引言
对于没有接触过Unix/Linux操作系统的人来说,fork是最难理解的概念之一:它执行一次却返回两个值。fork函数是Unix系统最杰出的成就之一,它是七十年代UNIX早期的开发者经过长期在理论和实践上的艰苦探索后取得的成果,一方面,它使操作系统在进程管理上付出了最小的代价,另一方面,又为程序员提供了一个简洁明了的多进程方法。与DOS和早期的Windows不同,Unix/Linux系统是真正实现多任务操作的系统,可以说,不使用多进程编程,就不能算是真正的Linux环境下编程。
多线程程序设计的概念早在六十年代就被提出,但直到八十年代中期,ppp项目源码怎么运行Unix系统中才引入多线程机制,如今,由于自身的许多优点,多线程编程已经得到了广泛的应用。
下面,我们将介绍在Linux下编写多进程和多线程程序的一些初步知识。
2 多进程编程
什么是一个进程?进程这个概念是针对系统而不是针对用户的,对用户来说,他面对的概念是程序。当用户敲入命令执行一个程序的时候,对系统而言,它将启动一个进程。但和程序不同的是,在这个进程中,系统可能需要再启动一个或多个进程来完成独立的多个任务。多进程编程的主要内容包括进程控制和进程间通信,在了解这些之前,我们先要简单知道进程的结构。
2.1 Linux下进程的结构
Linux下一个进程在内存里有三部分的数据,就是"代码段"、"堆栈段"和"数据段"。其实学过汇编语言的人一定知道,一般的CPU都有上述三种段寄存器,以方便操作系统的运行。这三个部分也是构成一个完整的执行序列的必要的部分。
"代码段",顾名思义,就是存放了程序代码的数据,假如机器中有数个进程运行相同的一个程序,那么它们就可以使用相同的代码段。"堆栈段"存放的就是子程序的返回地址、子程序的参数以及程序的局部变量。而数据段则存放程序的全局变量,常数以及动态数据分配的数据空间(比如用malloc之类的函数取得的空间)。这其中有许多细节问题,这里限于篇幅就不多介绍了。系统如果同时运行数个相同的程序,它们之间就不能使用同一个堆栈段和数据段。
2.2 Linux下的进程控制
在传统的Unix环境下,有两个基本的操作用于创建和修改进程:函数fork( )用来创建一个新的进程,该进程几乎是当前进程的一个完全拷贝;函数族exec( )用来启动另外的进程以取代当前运行的进程。Linux的进程控制和传统的Unix进程控制基本一致,只在一些细节的地方有些区别,例如在Linux系统中调用vfork和fork完全相同,而在有些版本的Unix系统中,vfork调用有不同的功能。由于这些差别几乎不影响我们大多数的编程,在这里我们不予考虑。
2.2.1 fork( )
fork在英文中是"分叉"的意思。为什么取这个名字呢?因为一个进程在运行中,如果使用了fork,就产生了另一个进程,于是进程就"分叉"了,所以这个名字取得很形象。下面就看看如何具体使用fork,这段程序演示了使用fork的基本框架:
void main(){
int i;
if ( fork() == 0 ) {
/* 子进程程序 */
for ( i = 1; i <; i ++ ) printf("This is child process\n");
}
else {
/* 父进程程序*/
for ( i = 1; i <; i ++ ) printf("This is process process\n");
}
}
程序运行后,你就能看到屏幕上交替出现子进程与父进程各打印出的同步看剧源码下载一千条信息了。如果程序还在运行中,你用ps命令就能看到系统中有两个它在运行了。
那么调用这个fork函数时发生了什么呢?fork函数启动一个新的进程,前面我们说过,这个进程几乎是当前进程的一个拷贝:子进程和父进程使用相同的代码段;子进程复制父进程的堆栈段和数据段。这样,父进程的所有数据都可以留给子进程,但是,子进程一旦开始运行,虽然它继承了父进程的一切数据,但实际上数据却已经分开,相互之间不再有影响了,也就是说,它们之间不再共享任何数据了。它们再要交互信息时,只有通过进程间通信来实现,这将是我们下面的内容。既然它们如此相象,系统如何来区分它们呢?这是由函数的返回值来决定的。对于父进程,fork函数返回了子程序的进程号,而对于子程序,fork函数则返回零。在操作系统中,我们用ps函数就可以看到不同的进程号,对父进程而言,它的进程号是由比它更低层的系统调用赋予的,而对于子进程而言,它的进程号即是fork函数对父进程的返回值。在程序设计中,父进程和子进程都要调用函数fork()下面的代码,而我们就是利用fork()函数对父子进程的不同返回值用if...else...语句来实现让父子进程完成不同的功能,正如我们上面举的例子一样。我们看到,上面例子执行时两条信息是交互无规则的打印出来的,这是父子进程独立执行的结果,虽然我们的代码似乎和串行的代码没有什么区别。
读者也许会问,如果一个大程序在运行中,它的数据段和堆栈都很大,一次fork就要复制一次,那么fork的系统开销不是很大吗?其实UNIX自有其解决的办法,大家知道,一般CPU都是以"页"为单位来分配内存空间的,每一个页都是实际物理内存的一个映像,象INTEL的CPU,其一页在通常情况下是字节大小,而无论是数据段还是堆栈段都是由许多"页"构成的,fork函数复制这两个段,只是"逻辑"上的,并非"物理"上的,也就是说,实际执行fork时,物理空间上两个进程的数据段和堆栈段都还是共享着的,当有一个进程写了某个数据时,这时两个进程之间的数据才有了区别,系统就将有区别的乘客端司机端源码"页"从物理上也分开。系统在空间上的开销就可以达到最小。
下面演示一个足以"搞死"Linux的小程序,其源代码非常简单:
void main()
{
for( ; ; ) fork();
}
这个程序什么也不做,就是死循环地fork,其结果是程序不断产生进程,而这些进程又不断产生新的进程,很快,系统的进程就满了,系统就被这么多不断产生的进程"撑死了"。当然只要系统管理员预先给每个用户设置可运行的最大进程数,这个恶意的程序就完成不了企图了。
2.2.2 exec( )函数族
下面我们来看看一个进程如何来启动另一个程序的执行。在Linux中要使用exec函数族。系统调用execve()对当前进程进行替换,替换者为一个指定的程序,其参数包括文件名(filename)、参数列表(argv)以及环境变量(envp)。exec函数族当然不止一个,但它们大致相同,在Linux中,它们分别是:execl,execlp,execle,execv,execve和execvp,下面我只以execlp为例,其它函数究竟与execlp有何区别,请通过manexec命令来了解它们的具体情况。
一个进程一旦调用exec类函数,它本身就"死亡"了,系统把代码段替换成新的程序的代码,废弃原有的数据段和堆栈段,并为新程序分配新的数据段与堆栈段,唯一留下的,就是进程号,也就是说,对系统而言,还是同一个进程,不过已经是另一个程序了。(不过exec类函数中有的还允许继承环境变量之类的信息。)
那么如果我的程序想启动另一程序的执行但自己仍想继续运行的话,怎么办呢?那就是结合fork与exec的使用。下面一段代码显示如何启动运行其它程序:
char command[];
void main()
{
int rtn; /*子进程的返回数值*/
while(1) {
/* 从终端读取要执行的命令 */
printf( ">" );
fgets( command, , stdin );
command[strlen(command)-1] = 0;
if ( fork() == 0 ) {
/* 子进程执行此命令 */
execlp( command, command );
/* 如果exec函数返回,表明没有正常执行命令,打印错误信息*/
perror( command );
exit( errorno );
}
else {
/* 父进程, 等待子进程结束,并打印子进程的返回值 */
wait ( &rtn );
printf( " child process return %d\n",. rtn );
}
}
}
此程序从终端读入命令并执行之,执行完成后,父进程继续等待从终端读入命令。熟悉DOS和WINDOWS系统调用的朋友一定知道DOS/WINDOWS也有exec类函数,其使用方法是类似的,但DOS/WINDOWS还有spawn类函数,因为DOS是单任务的系统,它只能将"父进程"驻留在机器内再执行"子进程",这就是spawn类的函数。WIN已经是多任务的系统了,但还保留了spawn类函数,劳务公司系统源码查询WIN中实现spawn函数的方法同前述UNIX中的方法差不多,开设子进程后父进程等待子进程结束后才继续运行。UNIX在其一开始就是多任务的系统,所以从核心角度上讲不需要spawn类函数。
在这一节里,我们还要讲讲system()和popen()函数。system()函数先调用fork(),然后再调用exec()来执行用户的登录shell,通过它来查找可执行文件的命令并分析参数,最后它么使用wait()函数族之一来等待子进程的结束。函数popen()和函数system()相似,不同的是它调用pipe()函数创建一个管道,通过它来完成程序的标准输入和标准输出。这两个函数是为那些不太勤快的程序员设计的,在效率和安全方面都有相当的缺陷,在可能的情况下,应该尽量避免。
2.3 Linux下的进程间通信
详细的讲述进程间通信在这里绝对是不可能的事情,而且笔者很难有信心说自己对这一部分内容的认识达到了什么样的地步,所以在这一节的开头首先向大家推荐著名作者Richard Stevens的著名作品:《Advanced Programming in the UNIX Environment》,它的中文译本《UNIX环境高级编程》已有机械工业出版社出版,原文精彩,译文同样地道,如果你的确对在Linux下编程有浓厚的兴趣,那么赶紧将这本书摆到你的书桌上或计算机旁边来。说这么多实在是难抑心中的景仰之情,言归正传,在这一节里,我们将介绍进程间通信最最初步和最最简单的一些知识和概念。
首先,进程间通信至少可以通过传送打开文件来实现,不同的进程通过一个或多个文件来传递信息,事实上,在很多应用系统里,都使用了这种方法。但一般说来,进程间通信(IPC:InterProcess Communication)不包括这种似乎比较低级的通信方法。Unix系统中实现进程间通信的方法很多,而且不幸的是,极少方法能在所有的Unix系统中进行移植(唯一一种是半双工的管道,这也是最原始的一种通信方式)。而Linux作为一种新兴的操作系统,几乎支持所有的Unix下常用的进程间通信方法:管道、消息队列、共享内存、信号量、套接口等等。下面我们将逐一介绍。
2.3.1 管道
管道是进程间通信中最古老的方式,它包括无名管道和有名管道两种,前者用于父进程和子进程间的通信,后者用于运行于同一台机器上的任意两个进程间的通信。
无名管道由pipe()函数创建:
#include <unistd.h>
int pipe(int filedis[2]);
参数filedis返回两个文件描述符:filedes[0]为读而打开,filedes[1]为写而打开。filedes[1]的输出是filedes[0]的输入。下面的例子示范了如何在父进程和子进程间实现通信。
#define INPUT 0
#define OUTPUT 1
void main() {
int file_descriptors[2];
/*定义子进程号 */
pid_t pid;
char buf[];
int returned_count;
/*创建无名管道*/
pipe(file_descriptors);
/*创建子进程*/
if((pid = fork()) == -1) {
printf("Error in fork\n");
exit(1);
}
/*执行子进程*/
if(pid == 0) {
printf("in the spawned (child) process...\n");
/*子进程向父进程写数据,关闭管道的读端*/
close(file_descriptors[INPUT]);
write(file_descriptors[OUTPUT], "test data", strlen("test data"));
exit(0);
} else {
/*执行父进程*/
printf("in the spawning (parent) process...\n");
/*父进程从管道读取子进程写的数据,关闭管道的写端*/
close(file_descriptors[OUTPUT]);
returned_count = read(file_descriptors[INPUT], buf, sizeof(buf));
printf("%d bytes of data received from spawned process: %s\n",
returned_count, buf);
}
}
在Linux系统下,有名管道可由两种方式创建:命令行方式mknod系统调用和函数mkfifo。下面的两种途径都在当前目录下生成了一个名为myfifo的有名管道:
方式一:mkfifo("myfifo","rw");
方式二:mknod myfifo p
生成了有名管道后,就可以使用一般的文件I/O函数如open、close、read、write等来对它进行操作。下面即是一个简单的例子,假设我们已经创建了一个名为myfifo的有名管道。
/* 进程一:读有名管道*/
#include <stdio.h>
#include <unistd.h>
void main() {
FILE * in_file;
int count = 1;
char buf[];
in_file = fopen("mypipe", "r");
if (in_file == NULL) {
printf("Error in fdopen.\n");
exit(1);
}
while ((count = fread(buf, 1, , in_file)) > 0)
printf("received from pipe: %s\n", buf);
fclose(in_file);
}
/* 进程二:写有名管道*/
#include <stdio.h>
#include <unistd.h>
void main() {
FILE * out_file;
int count = 1;
char buf[];
out_file = fopen("mypipe", "w");
if (out_file == NULL) {
printf("Error opening pipe.");
exit(1);
}
sprintf(buf,"this is test data for the named pipe example\n");
fwrite(buf, 1, , out_file);
fclose(out_file);
}
2.3.2 消息队列
消息队列用于运行于同一台机器上的进程间通信,它和管道很相似,事实上,它是一种正逐渐被淘汰的通信方式,我们可以用流管道或者套接口的方式来取代它,所以,我们对此方式也不再解释,也建议读者忽略这种方式。
2.3.3 共享内存
共享内存是运行在同一台机器上的进程间通信最快的方式,因为数据不需要在不同的进程间复制。通常由一个进程创建一块共享内存区,其余进程对这块内存区进行读写。得到共享内存有两种方式:映射/dev/mem设备和内存映像文件。前一种方式不给系统带来额外的开销,但在现实中并不常用,因为它控制存取的将是实际的物理内存,在Linux系统下,这只有通过限制Linux系统存取的内存才可以做到,这当然不太实际。常用的方式是通过shmXXX函数族来实现利用共享内存进行存储的。
首先要用的函数是shmget,它获得一个共享存储标识符。
#include <sys/types.h>
#include <sys/ipc.h>
#include <sys/shm.h>
int shmget(key_t key, int size, int flag);
这个函数有点类似大家熟悉的malloc函数,系统按照请求分配size大小的内存用作共享内存。Linux系统内核中每个IPC结构都有的一个非负整数的标识符,这样对一个消息队列发送消息时只要引用标识符就可以了。这个标识符是内核由IPC结构的关键字得到的,这个关键字,就是上面第一个函数的key。数据类型key_t是在头文件sys/types.h中定义的,它是一个长整形的数据。在我们后面的章节中,还会碰到这个关键字。
当共享内存创建后,其余进程可以调用shmat()将其连接到自身的地址空间中。
void *shmat(int shmid, void *addr, int flag);
shmid为shmget函数返回的共享存储标识符,addr和flag参数决定了以什么方式来确定连接的地址,函数的返回值即是该进程数据段所连接的实际地址,进程可以对此进程进行读写操作。
使用共享存储来实现进程间通信的注意点是对数据存取的同步,必须确保当一个进程去读取数据时,它所想要的数据已经写好了。通常,信号量被要来实现对共享存储数据存取的同步,另外,可以通过使用shmctl函数设置共享存储内存的某些标志位如SHM_LOCK、SHM_UNLOCK等来实现。
linux如何查看命令的源码
linux 提供了多种方法来查看命令源码:使用 strace 命令跟踪系统调用,并从输出文件中找到包含 execve() 的行,显示可执行文件。使用 file 命令查看可执行文件的类型。使用 nm 和 objdump 命令列出符号和反汇编内容,但需具备更高级别的技术知识。
如何查看 Linux 命令的源码
Linux 系统提供了一种简单的方法来查看命令的源码。通常情况下,这些命令是使用 C 语言编写的,并存储在可执行文件中。
方法:
最常用的方法是使用 strace 命令,它可以跟踪程序执行时发出的系统调用。
步骤:
打开终端窗口。使用 strace 命令并指定要查看源码的命令,如下所示:
strace -e trace=file command/command
例如:
strace -e trace=file ls
strace 将输出有关命令执行的详细信息,包括调用的函数和打开的文件。使用文本编辑器(如 vi 或 nano)打开 strace 输出文件(默认情况下位于 /tmp/strace.out)。在输出文件中,找到包含 execve() 系统调用的行。此行将显示命令及其源码所在的可执行文件。使用 file 命令查看可执行文件的类型,如下所示:
file executable/executable
例如:
file /bin/ls
这将显示可执行文件的信息,包括其类型(如 ELF 文件)。
其他方法:
除了 strace 之外,还可以使用以下方法查看命令的源码:
nm:此命令列出可执行文件中的符号(函数和变量)。objdump:此命令以反汇编形式显示可执行文件的内容。
这些方法需要更高级别的技术知识,但可以提供有关命令实现更详细的信息。
linux 进程加载 - execve 系统调用
在 Linux 平台下,程序运行的最后一步是加载过程。此过程由加载器负责,将生成的可执行代码放到指定内存位置并从预设地址执行。加载基于 ELF 格式可执行文件,不同于直接拷贝到内存的二进制文件,因为 ELF 文件格式包含额外的结构,如代码、数据段以及页表等。加载器需要解析 ELF 文件,将代码和数据部分放置到链接指定的内存位置,执行代码开始运行。
加载过程涉及 ELF 文件格式和链接知识,深入了解可参考相关文档。对于 Linux 平台的 ELF 文件加载,不深入讨论共享库的源码实现,而是关注 execve 系统调用。execve 用于启动新程序执行,根据指定的文件名或目录名找到可执行文件,并用它取代当前进程的数据、代码和堆栈段。此过程涉及多个 exec 函数变体,其本质上调用 glibc 中的 __execve 函数,向内核发起执行。
execve 系统调用被定义在内核文件 fs/exec.c 中,通过 getname() 函数将用户空间文件名指针拷贝到内核,返回一个结构包含内核和用户空间文件名地址。接下来,调用 do_execve 函数进行参数处理,紧接着调用 do_execveat_common 函数,真正开始文件处理。核心数据结构 linux_binprm 包括了 execve 系统调用所需的所有资源。
整个 do_execveat_common 实现分为三部分,执行流程清晰。在 exec_binprm 中,调用 search_binary_handler 函数遍历系统已注册的加载器,尝试解析当前可执行文件并加载。formats 是全局链表,包含所有加载程序,每个加载器由 struct linux_binfmt 描述。list_for_each_entry() 依次调用 load_binary 回调函数,确定是否能找到处理当前文件的加载器。对于 ELF 格式的文件,调用 load_elf_binary 函数进行实际加载。
load_elf_binary 函数解析 ELF 文件,主要操作文件段加载。分析此函数前,需了解 ELF 文件格式,目标文件段类型分为指令、数据和未初始化数据。链接过程产生可执行文件,内存访问权限划分内存区域,形成多个 segment。加载过程分为读取 ELF 头获取信息和读取 segment 头表,根据信息将 segment 放置到不同内存区域。
核心操作包括读取 ELF 文件头部、解析段表以及将段合并到内存区域。load_elf_binary 函数直接操作 ELF 文件,读取头部和段表信息,根据段属性分配内存区域。整个加载过程涉及系统调用、内核栈保存和恢复,最终完成程序替换并执行新程序。
整个加载过程总结为几个关键阶段,包括文件解析、段合并和内存映射。由于篇幅限制,代码逻辑分析未详述,有兴趣深入了解者可查阅内核源码和相关文档。
linux源码中的struct pt_regs数据结构是干什么的?
该结构体描述了在执行系统调用时,用户态下的CPU寄存器在核心态的栈中的保存情况。
通过这个参数,sys_execve能获得保存在用户空间的以下信息:可执行文件路径的指针(regs.ebx中)、命令行参数的指针(regs.ecx中)和环境变量的指针(regs.edx中)。
linux内核情景分析之execve的实现
Linux内核中的execve函数实现涉及到用户态CPU寄存器在内核栈中的保存和系统调用的细节。首先,理解sys_execve源码中的do_execve函数至关重要。它涉及到一个名为linux_bin_fmt的结构,该结构存储了内核对各种可执行程序格式的支持信息,包括加载和执行函数,以及保存文件路径、参数和环境变量的linux_bin_prm结构。
do_execve的实现从读取可执行文件的头部字节开始,通过prepare_binprm函数,将文件头部数据放入bprm->buf缓存。内核通过search_binary_handler遍历formats队列,识别文件的正确格式并调用相应的处理函数,如load_aout_binary处理a.out格式。
在load_aout_binary中,如遇到/bin/echo,会调用flush_old_exec,涉及信号处理函数指针复制、内存空间处理(包括信号处理模式、用户空间的清理)和文件关闭等。其中,make_private_signal和exec_mmap函数分别处理信号处理和内存映射,根据close_on_exec位图关闭相关文件。
在载入新程序时,内核会复制可执行文件路径到内核空间,然后查找并打开文件,读取前字节初始化数据结构。接下来,通过formats队列的遍历,找到合适的代理加载器(如a.out的load_aout_binary)来执行后续的加载和初始化操作,如设置信号处理、用户空间和文件资源等。
最终,新进程会通过各个代理加载器的定制化空间申请和参数映射,调用start_thread启动进程。尽管描述了大致流程,但实际执行中涉及许多细节问题,如线程隔离、用户空间计数处理等,需要深入内核代码才能详细了解。
从Linux内核分析ELF文件加载
从Linux内核分析ELF文件加载,本文旨在解析程序运行时内存映射与ELF文件分析起始地址之间的差异。原因在于Linux内核在加载程序时执行页对齐(4k)操作。此操作直接影响内存映射起始地址。
程序执行通常始于内核的do_execve函数,随后执行流程涉及exec_binprm函数。search_binary_handler最终通过fmt->load_binary(bprm)调用ELF文件的加载函数,此过程主要负责加载ELF文件,解析Program Head,并将类型为PT_LOAD的Segment加载至内存中。加载前需调用elf_map函数进行内存映射。
观察elf_map函数实现,可见对映射地址和大小执行页对齐操作。这一处理解释了为何程序运行时内存映射显示的起始地址与ELF文件中的起始地址存在差异。这是由于内核执行的页对齐操作所导致。
内存映射过程与ELF文件解析相辅相成。第一个Segment起始地址为0x,已经过页对齐(4k),因此内存映射显示的地址保持不变。而第二个Segment起始地址为0xcca8,未执行页对齐,映射后地址变为c。
总结而言,本文通过深入分析Linux内核源码,清晰地描绘了ELF文件在内核中的加载机制,并解答了上篇文章中遗留的疑问。对于有兴趣深入了解的读者,代码示例可在作者的GitHub页面获取(github.com/javonhe/mult...)。如文章对您有所启发,敬请转发分享,诚挚感谢。
通过do_execve源码分析程序的执行(上)(基于linux0.)
execve函数是操作系统的关键功能,它允许程序转变为进程。本文通过剖析do_execve源码,揭示程序转变成进程的机制。do_execve被视为系统调用,其运行过程在前文已有详细解析,此处不再赘述。分析将从sys_execve函数开启。
在执行_do_execve前,先审视内核栈。接下来,我们将深入理解do_execve的实现。
在加载可执行文件时,存在两种情况:编译后的二进制文件与脚本文件。脚本文件需加载对应解释器,本文仅探讨编译后的二进制文件。解析流程如下:首先验证文件可执行性和当前进程权限,通过后,仅加载头部数据,具体代码在真正运行时通过缺页中断加载。然后,申请物理内存并存储环境变量和参数,该步骤在copy_string函数中实现。
完成上述步骤后,内核栈结构发生变化。接着,执行代码释放原进程页目录和页表项信息,解除物理地址映射,这些信息通过fork继承。随后,调用change_ldt函数设置代码段、数据段基地址和限长,其中数据段限长为MB,代码段限长根据执行文件头部信息确定。完成物理地址映射后,内存布局随之调整。
紧接着,通过create_tables函数分配执行环境变量和参数的数组。执行完毕后,内存布局进一步调整。最后,设置栈、堆位置,以及eip为执行文件头部指定值,esp为当前栈位置,至此,可执行文件加载阶段完成。下文将探讨执行第一条指令后的后续步骤。