1.linux内核通信核心技术:Netlink源码分析和实例分析
2.Freeradius files peap-mschapv2 动态vlan
3.一文读懂Linux 审计(auditd)原理分析(收藏起来!)
4.Mellanox ConnectX-6-dx智能网卡 openvswitch 流表卸载源码分析
5.深入理解kubernetes(k8s)网络原理之五-flannel原理
linux内核通信核心技术:Netlink源码分析和实例分析
Linux内核通信核心技术:Netlink源码分析和实例分析
什么是netlink?Linux内核中一个用于解决内核态和用户态交互问题的机制。相比其他方法,netlink提供了更安全高效的交互方式。它广泛应用于多种场景,例如路由、tool.lu 源码用户态socket协议、防火墙、netfilter子系统等。
Netlink内核代码走读:内核代码位于net/netlink/目录下,包括头文件和实现文件。头文件在include目录,提供了辅助函数、宏定义和数据结构,对理解消息结构非常有帮助。关键文件如af_netlink.c,其中netlink_proto_init函数注册了netlink协议族,使内核支持netlink。
在客户端创建netlink socket时,使用PF_NETLINK表示协议族,SOCK_RAW表示原始协议包,NETLINK_USER表示自定义协议字段。sock_register函数注册协议到内核中,以便在创建socket时使用。
Netlink用户态和内核交互过程:主要通过socket通信实现,包括server端和client端。netlink操作基于sockaddr_nl协议套接字,区块链直播源码nl_family制定协议族,nl_pid表示进程pid,nl_groups用于多播。消息体由nlmsghdr和msghdr组成,用于发送和接收消息。内核创建socket并监听,用户态创建连接并收发信息。
Netlink关键数据结构和函数:sockaddr_nl用于表示地址,nlmsghdr作为消息头部,msghdr用于用户态发送消息。内核函数如netlink_kernel_create用于创建内核socket,netlink_unicast和netlink_broadcast用于单播和多播。
Netlink用户态建立连接和收发信息:提供测试例子代码,代码在github仓库中,可自行测试。核心代码包括接收函数打印接收到的消息。
总结:Netlink是一个强大的内核和用户空间交互方式,适用于主动交互场景,如内核数据审计、安全触发等。早期iptables使用netlink下发配置指令,但在iptables后期代码中,使用了iptc库,核心思路是使用setsockops和copy_from_user。对于配置下发场景,netlink非常实用。简单的源码图
链接:内核通信之Netlink源码分析和实例分析
Freeradius files peap-mschapv2 动态vlan
在实现radius认证和根据用户的vlan下发的环境与目标下,以ubuntu.为平台进行详细步骤的阐述:
首先,安装freeradius,随后在配置文件中修改default_eap_type的值为peap,以启用EAP模块。
在查看tls-config tls-common时,确认使用的公钥、私钥、ca期限均来自系统内部。若使用系统内部证书或考虑引入第三方解决方案如letsencrypt或freeradius证书工具,应避免直接使用系统证书。
接着,创建证书,这一环节需在完成系统证书配置后进行。
启用EAP模块后,编辑配置文件 /etc/freeradius/3.0/clients.conf,添加允许的nas(网络访问服务器)ip与连接时使用的密钥,此处指接入点、交换机等设备信息。
在用户管理中,通过 /etc/freeradius/3.0/users添加用户,确保配置与实际使用场景相符。
为了进行eap认证的测试,安装eapol_test工具,此工具是wpa_supplicant中的测试程式。在下载并编译wpa_supplicant源码后,源码搭建好处使用netlink库,以完成eapol_test的安装。
执行测试时,需创建eapol_test配置文件与测试脚本,以模拟认证过程。
接下来,将创建证书的步骤列出,包括编辑ca.cnf、client.cnf、inner-server.cnf、server.cnf配置文件。对于每个配置文件中的countryName、stateOrProvinceName、localityName、organizationName四个属性,应保持一致性,避免出现配置错误。
完成证书生成后,编辑配置文件 /etc/freeradius/3.0/mods-available/eap,进一步完善认证与vlan下发的相关配置,以确保freeradius服务能够根据用户身份动态分配vlan。
一文读懂Linux 审计(auditd)原理分析(收藏起来!)
Linux审计机制的核心组件主要分布在几个关键文件中。在`kernel/audit.c`文件中,提供了核心的审计功能,实现审计记录的源码宝典指标公式生成、存储及管理。`kernel/auditsc.c`文件则深入实现了系统调用审计和事件过滤机制,通过内核调用,能够精准地追踪和记录系统调用活动。
用户可以通过`auditctl`命令向内核添加审计规则,内核在接收到规则后,会在创建进程时自动创建`audit_context`实例,并在系统调用开始时调用`audit_alloc`函数初始化审计上下文,准备记录相关事件。
为了方便学习者深入理解Linux内核源码,推荐加入一个专门的交流群(群号:),群内提供了精选的学习资源,包括书籍、视频教程等。前名入群者将额外获得一份价值元的内核资料包,内容涵盖视频教程、电子书、实战项目及代码。
学习Linux内核源码,不妨选择直通车路径,涵盖内核源码解析、内存优化、文件系统管理、进程控制、设备驱动编程、网络协议栈等多个方面,确保全面深入地掌握内核知识。
审计子系统状态管理关键在于`state`字段,该字段定义了审计活动的级别,包括`AUDIT_DISABLED`(不记录系统调用)、`AUDIT_SETUP_CONTEXT`(在进程描述符创建时创建审计上下文,但不记录系统调用)等状态。`list`字段用于管理审计缓冲区,确保数据高效传输至用户态进程`auditd`。
在审计规则匹配过程中,`action`字段表示执行的操作,例如`AUDIT_NEVER`表示不执行任何操作,而`AUDIT_ALWAYS`则生成审计记录。`mask`字段则通过位串形式定义了系统调用审计的范围。`fields`和`values`数组用于指定规则条件,`field_count`字段表示条件的数量,规则具体参数在`audit.h`文件中定义。
当`auditd`守护进程向内核发送请求时,内核通过调用`audit_add_rule`函数添加新的审计规则。
审计子系统的初始化通过`audit_init`函数完成,除了设置关键数据结构外,还创建了用于与用户层通信的netlink套接字。
审计实现的核心流程包括记录事件、写入记录消息以及结束审计记录三个步骤。`audit_log_format`函数用于将记录消息写入审计缓冲区,`audit_log_end`函数则确保审计记录被发送到用户空间守护进程。
系统调用审计是审计机制的高级应用,它依赖于扩展的审计上下文,以更细致地跟踪系统调用。审计在系统调用进入和退出时分别触发,通过`audit_syscall_entry`和`audit_syscall_exit`函数实现,这些函数依赖于特定体系结构的中断处理代码。
回顾相关技术文档,如《irq_desc数据结构分析》、《Linux网络中断后,下半部的处理流程》、《初学者十分钟搞定Linux中的iptraf命令》等,以及深入研究Linux内核网络协议栈和性能分析工具`perf`的使用,将有助于更全面地理解Linux内核的底层机制和功能。
Mellanox ConnectX-6-dx智能网卡 openvswitch 流表卸载源码分析
Mellanox ConnectX-6-dx智能网卡凭借其流表卸载功能,能够无缝融入当前服务器ovs的部署环境。然而,DPU bluefield 2的引入促使ovs需要从服务器迁移至DPU,这无疑对上层neutron架构带来了显著的改造挑战。
在OFED的Linux InfiniBand Drivers版本中,openvswitch采用2..2版本,配合dpdk的.版本,智能网卡的流表卸载主要分为两种途径:netdev_offload_dpdk,通过用户态驱动卸载,和netdev_offload_tc,通过内核态驱动卸载,后者依赖于tc-flow内核模块。
ovs-dpdk的netdev_offload_dpdk采用异步方式,由offload_main线程配合工作队列执行,以避免阻塞包转发线程。在rdma-core中,Mellanox网卡的用户态驱动被集成,因为rdma技术要求用户态操作,以绕过内核TCP/IP协议栈,除非使用iWARP。
相比之下,早期的网卡依赖rdma-core封装的用户态驱动,通过ioctl或netlink接口调用内核驱动进行硬件操作。而netdev_offload_tc则通过tc-flow模块实现内核卸载。
ovs revalidator线程在流程中扮演重要角色,它负责更新卸载流表的统计信息,并在必要时异步删除超时流。对于硬件寄存器中的流表统计,revalidator线程会定时查询,确保信息的实时性。
深入理解kubernetes(k8s)网络原理之五-flannel原理
flannel在Kubernetes(k8s)网络架构中扮演着关键角色,其提供多种网络模式,其中最为广泛应用的是VXLAN模式。本文旨在深入探讨VXLAN模式下flannel的运作原理,同时对UDP模式进行简要介绍。
VXLAN模式下的flannel依赖于VXLAN协议,实现跨主机Pod间的通信。这种模式下,flannel的组件工作流程涉及多个关键步骤。首先,flannel-cni文件作为CNI规范下的二进制文件,负责生成配置文件并调用其它CNI插件(如bridge和host-local),从而实现主机到主机的网络互通。flannel-cni文件并非flannel项目源码,而是位于CNI的plugins中。
在flannel-cni工作流程中,kubelet在创建Pod时,会启动一个pause容器,并获取网络命名空间。随后,它调用配置文件指定的CNI插件(即flannel),以加载相关参数。flannel读取从/subnet.env文件获取的节点子网信息,生成符合CNI标准的配置文件。接着,flannel利用此配置文件调用bridge插件,完成Pod到主机、同主机Pod间的数据通信。
kube-flannel作为Kubernetes的daemonset运行,主要负责跨节点Pod通信的编织工作。它完成的主要任务包括为每个节点创建VXLAN设备,并更新主机路由。当节点添加或移除时,kube-flannel会相应地调整网络配置。在VXLAN模式下,每个节点上的kube-flannel会与flanneld守护进程进行通信,以同步路由信息。
在UDP模式下,每个节点运行flanneld守护进程,参与数据包转发。flanneld通过Unix域套接字与本地flanneld通信,而非通过fdb表和邻居表同步路由信息。当节点新增时,kube-flannel会在节点间建立路由条目,并调整网络配置以确保通信的连续性。
flannel在0.9.0版本前,使用不同策略处理VXLAN封包过程中可能缺少的ARP记录和fdb记录。从0.9.0版本开始,flannel不再监听netlink消息,优化了内核态与用户态的交互,从而提升性能。
通过理解flannel的运行机制,可以发现它在VXLAN模式下实现了高效的跨节点Pod通信。flannel挂载情况不影响现有Pod的通信,但新节点或新Pod的加入需flannel参与网络配置。本文最后提示读者,了解flannel原理后,可尝试自行开发CNI插件。