1.linuxä¸cpå½ä»¤å¦ä½ç¨ Cè¯è¨å®ç°
2.[转]Megatron-LM源码系列(八): Context Parallel并行
3..cp是源码什么意思?
4.å¨linuxä¸installå½ä»¤åcpå½ä»¤çåºå«
linuxä¸cpå½ä»¤å¦ä½ç¨ Cè¯è¨å®ç°
1ï¼é¦å éè¦äºè§£cpçåçã2ï¼å¯ä»¥åècpçæºç å»äºè§£å ¶åç
3ï¼cpå½ä»¤çæºç å¯ä»¥å¨linuxå æ ¸ä¸æ¾å°ã
4ï¼æè ä¸è½½busyboxå ¶ä¸ä¹ä¼æcpçæºç
åªæäºè§£å ¶åçä¹åæè½è°å¦ä½å®ç°ãåè代ç å¦ä¸ï¼
#include <stdio.h>#include <stdlib.h>
#include <sys/stat.h>
#include <sys/types.h>
#include <fcntl.h>
#include <errno.h>
#include <unistd.h>
#include <string.h>
#define BUF_SIZE
#define PATH_LEN
void my_err(char *err_string, int line )
{
fprintf(stderr,"line:%d ",line);
perror(err_string);
exit(1);
}
void copy_data(const int frd,const int fwd)
{
int read_len = 0, write_len = 0;
unsigned char buf[BUF_SIZE], *p_buf;
while ( (read_len = read(frd,buf,BUF_SIZE)) ) {
if (-1 == read_len) {
my_err("Read error", __LINE__);
}
else if (read_len > 0) { //æ读åé¨ååå ¥ç®æ æ件
p_buf = buf;
while ( (write_len = write(fwd,p_buf,read_len)) ) {
if(write_len == read_len) {
break;
}
else if (write_len > 0) { //åªåå ¥é¨å
p_buf += write_len;
read_len -= write_len;
}
else if(-1 == write_len) {
my_err("Write error", __LINE__);
}
}
if (-1 == write_len) break;
}
}
}
int main(int argc, char **argv)
{
int frd, fwd; //读åæ件æ述符
int len = 0;
char *pSrc, *pDes; //åå«æåæºæ件路å¾åç®æ æ件路å¾
struct stat src_st,des_st;
if (argc < 3) {
printf("ç¨æ³ ./MyCp <æºæ件路å¾> <ç®æ æ件路å¾>\n");
my_err("arguments error ", __LINE__);
}
frd = open(argv[1],O_RDONLY);
if (frd == -1) {
my_err("Can not opne file", __LINE__);
}
if (fstat(frd,&src_st) == -1) {
my_err("stat error",__LINE__);
}
/*æ£æ¥æºæ件路å¾æ¯å¦æ¯ç®å½*/
if (S_ISDIR(src_st.st_mode)) {
my_err("ç¥è¿ç®å½",__LINE__);
}
pDes = argv[2];
stat(argv[2],&des_st);
if (S_ISDIR(des_st.st_mode)) { //ç®æ è·¯å¾æ¯ç®å½ï¼å使ç¨æºæ件çæ件å
len = strlen(argv[1]);
pSrc = argv[1] + (len-1); //æåæåä¸ä¸ªå符
/*å æ¾åºæºæ件çæ件å*/
while (pSrc >= argv[1] && *pSrc != '/') {
pSrc--;
}
pSrc++;//æåæºæ件å
len = strlen(argv[2]);
// . 表示å¤å¶å°å½åå·¥ä½ç®å½
if (1 == len && '.' == *(argv[2])) {
len = 0; //没æç³è¯·ç©ºé´ï¼åé¢å°±ä¸ç¨éæ¾
pDes = pSrc;
}
else { //å¤å¶å°æç®å½ä¸ï¼ä½¿ç¨æºæ件å
pDes = (char *)malloc(sizeof(char)*PATH_LEN);
if (NULL == pDes) {
my_err("malloc error ", __LINE__);
}
strcpy(pDes,argv[2]);
if ( *(pDes+(len-1)) != '/' ) { //ç®å½ç¼ºå°æåç'/'ï¼åè¡¥ä¸â/â
strcat(pDes,"/");
}
strcat(pDes+len,pSrc);
}
}
/* æå¼ç®æ æä»¶ï¼ ä½¿æéä¸æºæ件ç¸å*/
fwd = open(pDes,O_WRONLY | O_CREAT | O_TRUNC,src_st.st_mode);
if (fwd == -1) {
my_err("Can not creat file", __LINE__);
}
copy_data(frd,fwd);
//puts("end of copy");
if (len > 0 && pDes != NULL)
free(pDes);
close(frd);
close(fwd);
return 0;
}
[转]Megatron-LM源码系列(八): Context Parallel并行
原文链接: Megatron-LM源码系列(八): Context Parallel并行
Context Parallel并行(CP)与sequence并行(SP)相比,核心差异在于SP只针对Layernorm和Dropout输出的源码activation在sequence维度进行切分,而CP则进一步扩展,源码对所有input输入和所有输出activation在sequence维度上进行切分,源码形成更高效的源码并行处理策略。除了Attention模块外,源码react源码架构其他如Layernorm、源码Dropout等模块在CP并行中无需任何修改,源码因为它们在处理过程中没有涉及多token间的源码交互。
Attention模块之所以特殊,源码是源码因为在计算过程中,每个token的源码查询(query)需要与同一sequence中其他token的键(key)和值(value)进行交互计算,存在内在依赖性。源码源码存放平台因此,源码在进行CP并行时,源码计算开始前需要通过allgather通信手段获取所有token的KV向量,反向计算时则通过reduce_scatter分发gradient梯度。
为了降低显存使用,前向计算阶段每个GPU仅保存部分KV块,网页photoshop源码反向阶段则通过allgather通信获取全部KV数据。这些通信操作在特定的rank位置(相同TP组内)进行,底层通过send和recv等操作实现allgather和reduce_scatter。
以TP2-CP2的transformer网络为例,CP并行的通信操作在Attention之前执行,其他则为TP通信。Windowsxp源码baiduyunAG表示allgather,RS表示reduce_scatter,AG/RS表示前向allgather反向reduce_scatter,RS/AG表示前向reduce_scatter反向allgather。
TP2对应为[GPU0, GPU1], [GPU2, GPU3],CP2指的回忆相册源码就是TP组相同位置的rank号,即[GPU0, GPU2], [GPU1, GPU3]。CP并行类似于Ring Attention,但提供了OSS与FlashAttention版本,并去除了冗余的low-triangle causal masking计算。
LLM常因序列长度过长而导致显存耗尽(OOM)。传统解决方法包括重计算或扩大TP(tensor parallel)大小,但各自存在计算代价增加或线性fc计算时间减少与通信难以掩盖的问题。CP则能更高效地解决这一问题,每个GPU处理一部分序列,同时减少CP倍的通信和计算量,同时保持TP不变,使得activation量也减少CP倍。性能优化结果展示于图表中,用户可通过指定--context-parallel-size在Megatron中实现CP。
具体源码实现以Megatron-Core 0.5.0版本为例进行说明。
参考资料:
.cp是什么意思?
.cp是C++源代码文件的常见后缀。当程序员用C++编写程序时,他们通常会使用文本编辑器(如Notepad++或Sublime Text)编写代码并将其保存为.cp文件。这样做有助于进行版本控制,可以记录代码的修改历史并对比不同版本。打开和编辑.cp文件需要使用专业的文本编辑器或编程工具,如Visual Studio。这些工具能自动识别和突出显示C++关键字,提高编程效率。要运行.cp文件,需要使用C++编译器将其转换为可执行文件,然后在计算机上运行。
å¨linuxä¸installå½ä»¤åcpå½ä»¤çåºå«
åºæ¬ä¸ï¼å¨Makefileéä¼ç¨å°installï¼å ¶ä»å°æ¹ä¼ç¨cpå½ä»¤ã
å®æåæ ·çä»»å¡ââæ·è´æ件ï¼ä¸¤è ä¹é´çåºå«ä¸»è¦å¦ä¸ï¼
1ãæéè¦çä¸ç¹ï¼å¦æç®æ æ件åå¨ï¼cpä¼å æ¸ ç©ºæ件åå¾éåå ¥æ°æ件ï¼èinstallåä¼å å é¤æåå çæ件ç¶ååå ¥æ°æ件ãè¿æ¯å 为å¾æ£å¨
使ç¨çæ件ä¸åå ¥å 容å¯è½ä¼å¯¼è´ä¸äºé®é¢ï¼æ¯å¦è¯´åå ¥æ£å¨æ§è¡çæ件å¯è½ä¼å¤±è´¥ï¼æ¯å¦è¯´å¾å·²ç»å¨æç»åå ¥çæ件å¥æä¸åå ¥æ°æ件ä¼äº§çé误çæ件ãè使ç¨
installå å é¤ååå ¥ï¼ä¼çææ°çæ件å¥æï¼çæ¹å¼å»å®è£ å°±è½é¿å è¿äºé®é¢äºï¼
2ãinstallå½ä»¤ä¼æ°å½å°å¤çæ件æéçé®é¢ãæ¯å¦è¯´ï¼install -cä¼æç®æ æ件çæé设置为rwxr-xr-xï¼
3ãinstallå½ä»¤å¯ä»¥æå°åºæ´å¤æ´åéçdebugä¿¡æ¯ï¼è¿ä¼èªå¨å¤çSElinuxä¸ä¸æçé®é¢ã
2024-12-28 13:46
2024-12-28 13:37
2024-12-28 12:57
2024-12-28 12:23
2024-12-28 12:19
2024-12-28 12:03