1.【时空数据挖掘】AAAI 2023 时空数据挖掘精选23篇论文分享
2.第四课:XTuner 微调 LLM:1.8B、多模多模态、态推推荐Agent
3.笔记︱几款多模态向量检索引擎:Faiss 、荐源milvus、码多模态Proxima、源码用vearch、多模搭建直播源码Jina等
4.如何学习视频识别技术?态推推荐
5.整理了16篇多模态融合(Multimodal Fusion)优质论文,含2023最新
6.利用阿里通义千问和Semantic Kernel,荐源10分钟搭建大模型知识助手!码多模态
【时空数据挖掘】AAAI 2023 时空数据挖掘精选23篇论文分享
本文将深入解析AAAI 年会议中精选的源码用篇时空数据挖掘论文,这些论文涵盖了时空数据在多个领域的多模应用,如交通、态推推荐地质灾害、荐源气象、码多模态体育和公共卫生等。源码用具体论文亮点如下: GMDNet:利用图神经网络和混合密度网络,有效预测物流网络中包裹的多模态旅行时间分布。 SpaTiempo-SelfSup:通过自监督学习提升交通流量预测的稳健性,适应不同时段和区域。 ST-Curriculum Dropout:采用时空课程舍弃策略,帮助模型逐步适应复杂的空间时间关系。 AutoSTL:自动化时空多任务学习,通过网络结构和模块融合处理多任务关系。 PDFormer:考虑传播延迟的模型,提升交通流量预测的准确性。 Causal CHidden Markov:利用因果条件分析,准确预测多模态交通流。 TS-TrajGen:两阶段生成对抗网络,生成连续轨迹,模拟人类移动行为。 GRLSTM:融合图结构和残差LSTM,提高轨迹相似性计算的准确性。 CACSR:对抗扰动对比预训练,提升签到序列表示学习的性能。 STNSCM:基于时空神经结构因果模型,增强自行车流量预测的鲁棒性。 Next POI Rec:动态图和显式依赖的推荐系统,精准预测用户下一兴趣点。 Scalable STGNN:可扩展的时空图神经网络,高效预测空间时间序列。 c-NTPP:关注聚类感知的神经时序点过程,处理事件数据的稀疏相关性。 Trafformer:统一处理时间和空间的模型,优化交通预测。 Spatio-Temporal MetaGraph:学习元图结构,增强交通预测的准确性与适应性。 Ising-Traffic:利用Ising机器学习预测交通拥堵,平衡准确性和实时性。 HC-Contrastive:层次对比学习提升时序点过程模型的泛化能力。 SafeLight:强化学习的原生源码交易交通信号控制方法,确保安全与效率。 STGNPP:时空图神经点过程,预测交通拥堵事件。 PollutionAware Routing:基于MCMC的污染感知路径规划,降低污染影响。 WaveForM:图增强小波学习,提高多变量时间序列预测性能。 PateGail:隐私保护的模仿学习轨迹生成器,保护用户隐私。 欲获取这些论文的原文和源代码,关注“学姐带你玩AI”公众号,回复“时空数据”获取完整资源!第四课:XTuner 微调 LLM:1.8B、多模态、Agent
在本课程中,我们将带领大家体验如何利用XTuner完成个人小助手的微调过程,以实现定制化功能并优化性能。我们将通过对比微调前后的大模型,直观展示微调的效果与重要性。 首先,为了快速上手并对比微调效果,我们将采用上一期课后作业中使用QLoRA方式微调个人小助手的案例。直观对比结果如下: 微调前: 微调后: 明显可见,微调后的模型能够被调整成我们期望的样子。接下来,我们详细介绍微调的实现步骤。开发环境准备
1. 创建开发环境:访问InternStudio,创建开发机并选择合适的镜像和资源配置,确保具备运行XTuner所需的环境。 2. 进入终端界面,开始操作。 完成准备工作后,即可进入微调之旅。快速上手指南 为帮助您快速上手,我们将提供XTuner运行原理概述和关键步骤指引。环境安装
1. 安装XTuner源码到本地,便于后续使用。 2. 若安装速度较慢,可尝试使用优化方法提高效率。前期准备
数据集准备:创建文件夹,存放训练所需数据,生成包含输入和输出的数据对,根据需求调整数据集大小。 模型准备:选择适合微调的模型,如InternLM2-Chat-1.8B,直接使用代码创建文件夹并复制模型文件。 配置文件选择与修改:根据微调方法(如QLoRA)和模型类型选择配置文件,并根据实际需求进行调整。配置文件修改
完成数据集、黛米云源码模型和配置文件的准备后,通过XTuner工具箱中的工具进行配置文件的复制和修改,确保其符合微调需求。模型训练
1. 使用XTuner启动训练过程,确保文件保存路径正确,以便后续转换和整合。 2. 结合XTuner内置的deepspeed加速训练,选择合适类型(如deepspeed_zero1、deepspeed_zero2或deepspeed_zero3)。 3. 训练完成后,评估模型性能,对比微调前后差异。模型转换与整合
1. 将Pytorch训练的权重文件转换为Huggingface格式。 2. 准备原模型、训练好的adapter层和最终保存路径,使用XTuner指令整合模型。 3. 完成整合后,模型可用于对话测试,验证微调效果。对话测试与部署
1. 使用XTuner提供的对话代码与Huggingface格式模型进行对话,测试模型性能。 2. 部署模型到网页端demo,提供更广泛的用户体验。总结与作业
本课程涵盖了XTuner微调流程的关键步骤,包括环境搭建、数据集准备、模型与配置文件使用、训练、转换与整合、测试与部署。通过实践,您将能掌握微调技术的核心,实现个性化小助手。 完成作业,请访问指定链接。笔记︱几款多模态向量检索引擎:Faiss 、milvus、Proxima、vearch、Jina等
向量化搜索,利用人工智能算法将物理世界中的非结构化数据(如语音、、视频、文本等)抽象为多维向量,以便进行高效检索。这些向量在数学空间中代表实体及其关系,通过将非结构化数据转换为向量(Embedding)并检索生成的向量,可以找到相应的实体,广泛应用于人脸识别、资讯站php源码推荐系统、搜索、语音处理、自然语言处理和文件搜索等领域。随着AI技术的广泛应用和数据规模的增长,向量检索成为AI技术链路中不可或缺的部分,补充并强化了传统搜索技术,并具备多模态搜索能力。
向量检索技术在不同场景下发挥着关键作用,覆盖了包括人脸识别、基因比对、智能客服等常见领域,以及图像视频检索、智能问答机器人、音频数据处理等新兴应用。以深度学习模型为基础,向量检索技术能够支持文本、图像、语音、视频、源代码等各类内容的高性能搜索与分析。
Milvus是一款高性能的开源特征向量相似度搜索引擎,提供方便、实用、扩展性好、稳定高效的向量数据处理能力,支持GPU加速,实现对海量数据的近实时搜索,同时也支持标量数据的过滤功能。支持集群分片,适用于大规模数据存储和搜索服务。
Faiss库由Facebook开发,专为稠密向量匹配设计,支持C++和Python调用,具备多种向量检索方式,包括内积和欧氏距离等。它支持精确检索和模糊搜索,广泛应用于人脸比对、指纹比对、基因比对等场景。
京东开源的vearch是一个分布式向量搜索系统,能够存储和计算海量特征向量,用于图像、语音、文本等机器学习领域。vearch基于Facebook AI研究机构的Faiss实现,提供了灵活易用的RESTful API,支持管理和查询表结构及数据。
阿里达摩院的openfire4.1.2 源码Proxima和蚂蚁金服的ZSearch也提供了高性能向量检索能力,Proxima集成在阿里巴巴和蚂蚁集团的多个业务中,如淘宝搜索、推荐、人脸支付、视频搜索等。ZSearch则在ElasticSearch基础上构建,为用户提供了通用搜索平台。
这些向量检索引擎通过不同算法和技术优化,满足了不同场景下的需求,如标签+向量的联合检索、语音/图像/视频检索、文本检索等,为AI领域提供高效、准确的搜索能力。通过深度学习和向量计算,它们能够实现全内容搜索,包括文本、、语音、视频等多模态数据,显著提升了信息检索的效率和准确性。
如何学习视频识别技术?
了解视频识别技术,推荐您关注MMAction2。该框架已经复现了多个经典论文的算法,如TSN, C3D, I3D, TSM, SlowFast, NonLocal等。阅读论文时,同步实践MMAction2中的算法,借助其提供的全面实验功能,如训练数据下载、标注文件处理、视频采帧、图像增强和模型训练等,降低研究门槛。MMAction2还附有多样化demo,如摄像头动作识别和长视频多标签识别。
深入学习,阅读经典论文代码,重点关注于mmaction.models中的模型骨架(backbone)结构。许多论文基于这些结构进行改进,以更好地提取视频的时空特征。此外,了解基于弱监督学习的Omini-sourced等方法,通过MMAction2源码进行深入探索。
掌握MMAction2的使用,可访问colab.research.google.com...获取教程,了解如何使用MMAction2 model zoo中的模型进行推理,并在新数据集上进行微调。尝试将模型应用于您的数据集,并通过调整超参数来优化模型性能。
MMAction2支持多模态动作识别与时序动作检测任务,并在开发时空动作检测任务相关的模型。对这些领域感兴趣的开发者,可加入MMAction2和OpenMMLab的开源项目,与社区成员交流,共同提升。
整理了篇多模态融合(Multimodal Fusion)优质论文,含最新
多模态融合是多模态学习领域中的关键问题,旨在综合处理来自不同模态(如语音、图像、文本等)的数据,提取有价值的信息和特征,并将这些信息融合,以增强系统的性能。近年来,这一领域已取得了多项值得关注的研究成果,以下将分享篇精选论文,涵盖多模态融合的理论、算法、应用等多个方面。欲获取论文及项目源码,请关注“学姐带你玩AI”公号(了解详情请参阅主页签名),回复“多模态融合”即可获取。
1.
传感器融合的外部多模态成像传感器标定:综述
本文提供多模态成像传感器标定的研究综述,包括基于运动和特征的标定方法,着重探讨目标基标定、无目标标定以及系统多模态传感器标定的最新进展。
2.
低质量多模态数据的可证明动态融合
该文提出一种动态多模态融合框架,通过理论分析揭示不确定性估计解决方案的鲁棒性,引入质量感知多模态融合框架,提高分类准确性和模型鲁棒性。
3.
用于道路检测的自适应跳过交叉融合
文中提出SkipcrossNets,一种用于自动驾驶任务中LiDAR点云与相机图像融合的网络,通过动态连接各层,增强特征传播与融合,减少模型参数。
4.
面向三维目标检测的多传感器融合与时间一致性Transformer
FusionFormer框架用于3D物体检测,通过引入可变形注意力和残差结构,解决特征转换问题,实现统一的采样策略,提升检测性能。
5.
多模态语义映射用于物体检测和3D定位
本文介绍一种结合RGB-D相机和激光雷达的多模态语义映射框架,准确检测预定义对象,优于单传感器实验,特别适用于近和远距离障碍物。
6.
用于智能车辆RGB-T城市场景理解的动态双边交叉融合网络
DBCNet融合RGB-T图像,采用动态双边交叉融合机制,直接聚合多模态信息,优于深度学习基线方法,提升智能车辆的场景理解能力。
7.
多模态相互关注和迭代交互用于参考图像分割
提出多模态相互关注和迭代交互方法,增强模型对多模态信息的理解,通过连续和深入的交互,避免信息扭曲,显著提升参考图像分割性能。
8.
用于语义分割的多模态融合网络
TransFusion模型直接融合图像与点云,无需点云预处理,相较于基本层FCN模型,显著提升Vaihingen和Potsdam数据集的mIoU值。
9.
用于多模态3D对象检测的激光雷达-相机深度融合
DeepFusion模型集成激光雷达和相机特征,通过引入InverseAug和LearnableAlign技巧,实现通用多模态3D检测,性能优于现有方法。
.
通过深度感知增强的多曝光图像融合
DPE-MEF网络融合不同曝光图像,通过深度感知增强策略和色彩映射校正,显著提升单张图像的曝光质量。
.
基于傅里叶变换和对比学习的鲁棒框架
提出鲁棒多曝光图像融合框架,结合傅里叶变换与对比学习,处理极端和多样化曝光图像,通过像素强度转移和对比正则化损失,实现高质量融合效果。
.
基于multi-moda的雷达和相机特征之间的视差桥接
文中介绍一种在鸟瞰图下融合雷达与相机特征的新方法,用于3D目标检测,通过视图变换和点融合,实现雷达和相机特征的高效融合。
.
半监督医学图像分割的多模态对比互学习与伪标签再学习
Semi-CML框架利用对比互学习与伪标签再学习,提高半监督医学图像分割的性能,通过跨模态信息和预测一致性,弥补性能差距。
.
同质多模态特征融合和交互的三维物体检测
HMFI方法在自动驾驶场景中实现三维物体检测,通过跨模态特征融合与交互,避免信息损失,提升检测准确性和性能。
.
用于端到端自动驾驶的多模态策略融合
TransFuser Transformer模型集成图像与LiDAR表示,通过注意力机制实现策略融合,减少碰撞风险,表现优于基于几何的融合方法。
.
基于Transformer的多曝光图像融合框架
TransMEF框架使用Transformer与自监督多任务学习,通过三个自监督重建任务学习特征,设计结合CNN与Transformer模块的编码器,实现多曝光图像融合。
以上论文涵盖了多模态融合的多个角度,从标定、融合算法、应用场景到性能优化,为多模态研究提供了丰富资源。欲获取详细内容和代码,请参照“学姐带你玩AI”公号指引。
利用阿里通义千问和Semantic Kernel,分钟搭建大模型知识助手!
在当今信息化社会中,构建智能知识助手以提升工作效率与用户体验成为众多企业和开发者的重要目标。本文将带领您利用阿里通义千问与Semantic Kernel技术,仅用分钟快速搭建一款大模型知识助手,实现知识文档的高效问答与智能化分析。
首先,让我们了解一下通义千问。作为阿里自主研发的超大规模语言模型,通义千问已开源多款大语言模型,包括Qwen-B、Qwen-1.8B与Qwen-Audio,涵盖参数量从亿至亿不等的模型,以及视觉理解与音频理解的多模态模型,为开发者提供强大的语言处理能力。
而Semantic Kernel是由微软推出的开源项目,旨在简化大型语言模型与应用程序的集成,提升开发者构建智能应用的效率。通过集成Semantic Kernel,我们可以将通义千问的能力融入到各类应用中,打造具有深度学习与智能决策能力的助手。
接下来,我们将分步骤介绍如何搭建通义千问知识助手。
### 1. 部署环境与准备
为了顺利运行通义千问,您需要准备以下环境与资源:
- Python 3.8或更高版本
- Pytorch 1.或更高版本,推荐使用2.0及以上版本
- 对于GPU用户,建议使用CUDA .4或更高版本
- 服务器推荐使用Linux系统,内存至少GB,GPU用户则建议至少GB显存
确保安装了满足以上条件的开发环境,将有助于后续步骤的顺利进行。
### 2. 下载与安装通义千问源码
下载通义千问源码后,您将发现其中包含基于FastAPI模仿OpenAI接口的源码文件,如openai_api.py。在下载的目录中执行安装命令,以确保所有依赖库得到正确安装。
### 3. 安装FastAPI依赖
进入源码目录后,执行相应命令,安装FastAPI相关依赖,为通义千问提供运行所需的软件环境。
### 4. 启动FastAPI
通过执行启动命令,FastAPI服务将被激活,您可以访问.0.0.1:查看API文档,完成通义千问的基础部署。
### 5. 集成Semantic Kernel
在集成Semantic Kernel的过程中,首先创建一个控制台项目并安装必要的依赖库。接着,通过添加通义千问扩展,将通义千问的能力无缝融入Semantic Kernel中,实现知识助手的初步构建。
### 6. 测试与优化
完成集成后,进行功能测试,确保知识助手能正确响应用户提问并提供准确答案。根据测试结果进行必要的调整与优化,以提升问答系统的准确性和用户体验。
### 7. 项目与贡献
本文所介绍的项目已经开源,您可以访问GitHub地址:github.com/bianchengleq...,探索更多细节与代码实现。欢迎各位开发者加入,共同优化与拓展知识助手的功能与应用场景。
通过本文的介绍与实践,您已学会如何利用阿里通义千问与Semantic Kernel在短时间内构建一款功能强大的大模型知识助手。在日后的应用中,不断优化与创新,将为用户提供更智能、更高效的知识获取与利用体验。
整理了篇大模型推理最新论文,涵盖多模态推理、逻辑推理、数学推理
大模型推理技术在解决难题上展现出巨大潜力,但复杂推理能力仍有待提升。针对这一挑战,研究者们聚焦于多模态推理、逻辑推理和数学推理三个关键领域,推出了创新性的解决方案。本文汇总了篇最新的研究成果,其中包括:综述篇:深入探讨了语言模型提示推理的现状与未来,以及深度学习在数学推理中的应用,展示了推理在人工智能中的重要性。
多模态推理(4篇):如基于前提的推理,利用文本和视觉线索进行条件推断;科学问题回答中的思维链推理,以及通过推理引导模型自我提升复杂推理能力的方法。
逻辑推理(3篇):分析了推理链在语言模型中的表现,揭示了模型在推理规划上的局限,并提出了一阶逻辑进行自然语言推理的尝试。
数学推理(4篇):如程序辅助模型处理数学问题,以及针对不同难度任务的数学推理基准测试,显示AI在数学推理上的提升空间。
对于更详细的论文内容和源代码,有兴趣的同学可以关注“学姐带你玩AI”公众号,回复“推理”获取完整资料。精选了篇三维点云顶会论文及源码分享,含最新
三维点云技术在自动驾驶、机器人和增强现实等领域得到广泛应用。近年来,随着深度学习的发展,3D点云技术成为计算机视觉研究的热点,面临数据获取、处理、分析和应用的挑战。学姐整理了近三年各大顶会中关于3D点云的论文,共篇,供有志于发表论文的同学参考。 以下是其中几篇论文的简介: CVPR 1. Attention-based Point Cloud Edge Sampling (APES) 该文提出了一种基于注意力的点云边缘采样方法,通过提取轮廓上的显著点,在多个任务中表现出良好性能。 2. IterativePFN: True Iterative Point Cloud Filtering 作者提出了迭代点云过滤网络IterativePFN,它通过内部模拟真实的迭代过滤过程,使用新颖的损失函数训练,能捕捉中间过滤结果之间的关系。 3. ULIP: Learning a Unified Representation of Language, Images, and Point Clouds 该文提出ULIP,通过预训练学习统一的多模态表示,克服训练三元组不足的问题,利用图像文本模型获得共享的视觉语义空间。 4. SCPNet: Semantic Scene Completion on Point Cloud 论文提出了改进语义场景完成性能的方法,包括重新设计完成子网络、设计师生知识蒸馏和使用泛光分割标签校正完成标签。 5. ACL-SPC: Adaptive Closed-Loop system for Self-Supervised Point Cloud Completion 该论文提出自监督的点云补全框架ACL-SPC,可进行同域训练和测试,无需合成数据,使用自适应闭环系统实现无先验信息的点云自监督补全。 6. Learning Human-to-Robot Handovers from Point Clouds 论文提出一个端到端框架,学习视觉的人机交接控制策略,通过训练实现从模拟到真实的有效迁移。 7. PartManip: Learning Cross-Category Generalizable Part Manipulation Policy from Point Cloud Observations 该文构建了基于部件的跨类别物体操作基准,提出了专家示教和对抗学习方法,实现基于稀疏点云的通用跨类别物体操作策略学习。 8. PiMAE: Point Cloud and Image Interactive Masked Autoencoders for 3D Object Detection 论文提出了跨模态自监督预训练框架PiMAE,通过交互、共享解码器和跨模态重建模块,提升点云和图像的表示学习。 9. Complete-to-Partial 4D Distillation for Self-Supervised Point Cloud Sequence Representation Learning 本文提出了一种4D自监督预训练方法,将4D表示学习表述为一个teacher-student知识蒸馏框架,提高学生模型的学习能力。 ICCV . Robo3D: Towards Robust and Reliable 3D Perception against Corruptions 该文提出了一个面向3D检测和分割模型鲁棒性的基准测试集Robo3D,旨在探究模型在非理想场景下的可靠性。