欢迎访问皮皮网官网
皮皮网

【川软和源码时代】【sonic源码】【coderwhy源码】nlppython源码

时间:2024-12-29 09:03:49 分类:探索 来源:长期饭票指标源码

1.学python用什么书
2.中文分词工具在线PK新增:FoolNLTK、LTP、StanfordCoreNLP
3.如何系统地自学 Python
4.NLP修炼系列之Bert(二)Bert多分类&多标签文本分类实战(附源码)

nlppython源码

学python用什么书

       1. 《PYTHON基础教程(第2版本)》

       è¿™æœ¬ä¹¦éžå¸¸çš„适合零基础或者只有一点编程经验的朋友,它从baiPython程序的安装,交互式解释器的使用,基础数据类型,各种条件语句等方方面面的基础知识都讲到了,而且在书的最后几个章节,还有个练习的实战项目,非常适合新手入门来学习。

2.《Python Cookbook(第2版)中文版》

       è¿™æœ¬ä¹¦ç®—是从事Python编程工作人员人手一本的必备书籍,这本书需要在看完前面的Python基础教程,掌握基本的Python知识。

       è¯¥ä¹¦ä¸æ˜¯å¾ªåºæ¸è¿›çš„在讲Python编程语言的书,而是针对某些特定python问题和任务,提出一些特别的方法和技巧。小编认为无论你目前是处在哪个阶段的Python爱好者,这本书都会让人获得非常多有价值的编程知识。

3.《Python编程快速上手——让繁琐工作自动化》

       ç¾Žäºšç•…销Python 3编程图书,帮助你通过编程快速实现工作自动化 。在本书中,你将学习利用Python 编程,在几分钟内完成手工需要几小时的工作,而事先却无需具备编程经验。一旦掌握了编程的基础知识,你就可以毫不费力地创建Python 程序,完成高效的自动化工作。

4.《Python核心编程(第3版)》

       æœ¬ä¹¦æ¶µç›–了成为一名技术全面的Python开发人员所需的一切内容。本书讲解了应用开发相关的多个领域,而且书中的内容可以立即应用到项目开发中。此外,本书还包含了一些使用Python 2和Python 3编写的代码案例,以及一些代码移植技巧。有些代码片段甚至无须修改就可以运行在Python 2.x或Python 3.x上。本书适合具有一定经验的Python开发人员阅读。

       è¯»ä¹¦ç ´ä¸‡å·ï¼Œä¸‹ç¬”如有神。这句古话说来是有道理的。学python推荐这些书籍,大家也可以先多去看看,这样对自己接下来的深入学习是十分有帮助的。

对于Python开发有兴趣的小伙伴们,不妨先从看看Python开发书籍开始入门!B站上有很多的Python教学视频,从基础到高级的都有,还挺不错的,知识点讲的很细致,还有完整版的学习路线图。也可以自己去看看,下载学习试试。

中文分词工具在线PK新增:FoolNLTK、LTP、StanfordCoreNLP

       中文分词在线PK之旅持续推进,继上篇《五款中文分词工具在线PK: Jieba,川软和源码时代 SnowNLP, PkuSeg, THULAC, HanLP》之后,此次又新增了三个中文分词工具,分别是FoolNLTK、哈工大LTP(pyltp, ltp的python封装)和斯坦福大学的CoreNLP(stanfordcorenlp is a Python wrapper for Stanford CoreNLP),现在可在AINLP公众号进行测试:中文分词 我爱自然语言处理。

       以下是在Python3.x & Ubuntu. 的环境下测试及安装这些中文分词器:6)FoolNLTK:github.com/rockyzhengwu...

       特点:可能不是最快的开源中文分词,但很可能是sonic源码最准的开源中文分词。基于BiLSTM模型训练而成,包含分词,词性标注,实体识别,都有比较高的准确率。用户自定义词典,可训练自己的模型,批量处理,定制自己的模型。get clone github.com/rockyzhengwu... cd FoolNLTK/train 详细训练步骤可参考文档。

       仅在linux Python3 环境测试通过。coderwhy源码

       安装,依赖TensorFlow, 会自动安装:pip install foolnltk

       中文分词示例:

       7) LTP: github.com/HIT-SCIR/ltp

       pyltp: github.com/HIT-SCIR/pyl...

       pyltp 是语言技术平台(Language Technology Platform, LTP)的Python封装。

       安装 pyltp 注:由于新版本增加了新的第三方依赖如dynet等,不再支持 windows 下 python2 环境。使用 pip 安装 使用 pip 安装前,请确保您已安装了 pip $ pip install pyltp 接下来,需要下载 LTP 模型文件。下载地址 - `模型下载 ltp.ai/download.html`_ 当前模型版本 - 3.4.0 注意在windows下 3.4.0 版本的语义角色标注模块模型需要单独下载,具体查看下载地址链接中的说明。请确保下载的模型版本与当前版本的 pyltp 对应,否则会导致程序无法正确加载模型。AriaNg源码从源码安装 您也可以选择从源代码编译安装 $ git clone github.com/HIT-SCIR/pyl... $ git submodule init $ git submodule update $ python setup.py install 安装完毕后,也需要下载相应版本的 LTP 模型文件。

       这里使用"pip install pyltp"安装,安装完毕后在LTP模型页面下载模型数据:ltp.ai/download.html,我下载的是 ltp_data_v3.4.0.zip ,压缩文件有多M,解压后1.2G,里面有不同NLP任务的模型。

       中文分词示例:

       8) Stanford CoreNLP: stanfordnlp.github.io/C... stanfordcorenlp: github.com/Lynten/stanf...

       这里用的是斯坦福大学CoreNLP的python封装:stanfordcorenlp

       stanfordcorenlp is a Python wrapper for Stanford CoreNLP. It provides a simple API for text processing tasks such as Tokenization, Part of Speech Tagging, Named Entity Reconigtion, Constituency Parsing, Dependency Parsing, and more.

       安装很简单,pip即可:pip install stanfordcorenlp

       但是要使用中文NLP模块需要下载两个包,在CoreNLP的usleep源码下载页面下载模型数据及jar文件,目前官方是3.9.1版本:nlp.stanford.edu/softwa...

       第一个是:stanford-corenlp-full---.zip 第二个是:stanford-chinese-corenlp----models.jar

       前者解压后把后者也要放进去,否则指定中文的时候会报错。

       中文分词使用示例:

       最后再说一下,原本计划加上对NLPIR中文分词器的支持,但是发现它的license需要定期更新,对于长久放server端测试不太方便就放弃了;另外之所以选择python,因为我用了Flask restful api框架,也欢迎推荐其他的中文分词开源框架,如果它们有很好的Python封装的话,这里可以继续添加。

如何系统地自学 Python

       æ˜¯å¦éžå¸¸æƒ³å­¦å¥½ Python,一方面被琐事纠缠,一直没能动手,另一方面,担心学习成本太高,心里默默敲着退堂鼓?

       å¹¸è¿çš„是,Python 是一门初学者友好的编程语言,想要完全掌握它,你不必花上太多的时间和精力。

       Python 的设计哲学之一就是简单易学,体现在两个方面:

       è¯­æ³•ç®€æ´æ˜Žäº†ï¼šç›¸å¯¹ Ruby 和 Perl,它的语法特性不多不少,大多数都很简单直接,不玩儿玄学。

       åˆ‡å…¥ç‚¹å¾ˆå¤šï¼šPython 可以让你可以做很多事情,科学计算和数据分析、爬虫、Web 网站、游戏、命令行实用工具等等等等,总有一个是你感兴趣并且愿意投入时间的。

       åºŸè¯ä¸å¤šè¯´ï¼Œå­¦ä¼šä¸€é—¨è¯­è¨€çš„捷径只有一个: Getting Started

       ¶ 起步阶段

       ä»»ä½•ä¸€ç§ç¼–程语言都包含两个部分:硬知识和软知识,起步阶段的主要任务是掌握硬知识。

       Â°1 硬知识

       â€œç¡¬

       çŸ¥è¯†â€æŒ‡çš„是编程语言的语法、算法和数据结构、编程范式等,例如:变量和类型、循环语句、分支、函数、类。这部分知识也是具有普适性的,看上去是掌握了一

       ç§è¯­æ³•ï¼Œå®žé™…是建立了一种思维。例如:让一个 Java 程序员去学习 Python,他可以很快的将 Java 中的学到的面向对象的知识 map 到

        Python 中来,因此能够快速掌握 Python 中面向对象的特性。

       å¦‚果你是刚开始学习编程的新手,一本可靠的语法书是非常重要的。它看上去可能非常枯燥乏味,但对于建立稳固的编程思维是必不可少。

       ä¸‹é¢åˆ—出了一些适合初学者入门的教学材料:

       ❖「笨方法学 Python」:http://learnpythonthehardway.org/book/

       è¿™æœ¬ä¹¦åœ¨è®²è§£ Python 的语法成分时,还附带大量可实践的例子,非常适合快速起步。

       ❖「廖雪峰的 Python 2.7 教程」:Home - 廖雪峰的官方网站

       Python 中文教程的翘楚,专为刚刚步入程序世界的小白打造。

       ❖「The Hitchhiker’s Guide to Python!」:The Hitchhiker’s Guide to Python!

       è¿™æœ¬æŒ‡å—着重于 Python 的最佳实践,不管你是 Python 专家还是新手,都能获得极大的帮助。

       ❖「Python 官方文档」:Our Documentation

       å®žè·µä¸­å¤§éƒ¨åˆ†é—®é¢˜ï¼Œéƒ½å¯ä»¥åœ¨å®˜æ–¹æ–‡æ¡£ä¸­æ‰¾åˆ°ç­”案。

       ❖ 辅助工具:Python Tutor

       ä¸€ä¸ª Python 对象可视化的项目,用图形辅助你理解 Python 中的各种概念。

       Python 的哲学:

       ç”¨ä¸€ç§æ–¹æ³•ï¼Œæœ€å¥½æ˜¯åªæœ‰ä¸€ç§æ–¹æ³•æ¥åšä¸€ä»¶äº‹ã€‚

       å­¦ä¹ ä¹Ÿæ˜¯ä¸€æ ·ï¼Œè™½ç„¶æŽ¨èäº†å¤šç§å­¦ä¹ èµ„料,但实际学习的时候,最好只选择其中的一个,坚持看完。

       å¿…要的时候,可能需要阅读讲解数据结构和算法的书,这些知识对于理解和使用 Python 中的对象模型有着很大的帮助。

       Â°2 软知识

       â€œè½¯çŸ¥è¯†â€åˆ™æ˜¯ç‰¹å®šè¯­è¨€çŽ¯å¢ƒä¸‹çš„语法技巧、类库的使用、IDE的选择等等。这一部分,即使完全不了解不会使用,也不会妨碍你去编程,只不过写出的程序,看上去显得“傻”了些。

       å¯¹

       è¿™äº›çŸ¥è¯†çš„学习,取决于你尝试解决的问题的领域和深度。对初学者而言,起步阶段极易走火,或者在选择 Python 版本时徘徊不决,一会儿看 2.7

       ä¸€ä¼šå„¿åˆè½¬åˆ° 3.0,或者徜徉在类库的大海中无法自拔,Scrapy,Numpy,Django

       ä»€ä¹ˆéƒ½è¦è¯•è¯•ï¼Œæˆ–者参与编辑器圣战、大括号缩进探究、操作系统辩论赛等无意义活动,或者整天跪舔语法糖,老想着怎么一行代码把所有的事情做完,或者去构想

       åœ£æ´çš„性能安全通用性健壮性全部满分的解决方案。

       å¾ˆå¤šâ€œå¤§ç‰›â€éƒ½ä¼šå‘Šè¯«åˆå­¦è€…,用这个用那个,少走弯路,这样反而把初学者推向了真正的弯路。

       è¿˜ä¸å¦‚告诉初学者,学习本来就是个需要你去走弯路出 Bug,只能脚踏实地,没有奇迹只有狗屎的过程。

       é€‰æ‹©ä¸€ä¸ªæ–¹å‘先走下去,哪怕脏丑差,走不动了再看看有没有更好的解决途径。

       è‡ªå·±èµ°äº†å¼¯è·¯ï¼Œä½ æ‰çŸ¥é“这么做的好处,才能理解为什么人们可以手写状态机去匹配却偏要发明正则表达式,为什么面向过程可以解决却偏要面向对象,为什么我可以操纵每一根指针却偏要自动管理内存,为什么我可以嵌套回调却偏要用 Promise...

       æ›´é‡è¦çš„时,你会明白,高层次的解决方法都是对低层次的封装,并不是任何情况下都是最有效最合适的。

       æŠ€æœ¯æ¶Œè¿›å°±åƒæ³¢æµªä¸€æ ·ï¼Œé‚£äº›é™ˆæ—§çš„封存已久的技术,消退了迟早还会涌回的。就像现在移动端应用、手游和 HTML5 的火热,某些方面不正在重演过去 PC 的那些历史么?

       å› æ­¤ï¼Œä¸è¦æ‹…心自己走错路误了终身,坚持并保持进步才是正道。

       èµ·æ­¥é˜¶æ®µçš„核心任务是掌握硬知识,软知识做适当了解,有了稳固的根,粗壮的枝干,才能长出浓密的叶子,结出甜美的果实。

       ¶ 发展阶段

       å®Œæˆäº†åŸºç¡€çŸ¥è¯†çš„学习,必定会感到一阵空虚,怀疑这些语法知识是不是真的有用。

       æ²¡é”™ï¼Œä½ çš„怀疑是非常正确的。要让 Python 发挥出它的价值,当然不能停留在语法层面。

       å‘展阶段的核心任务,就是“跳出 Python,拥抱世界”。

       åœ¨ä½ é¢å‰ä¼šæœ‰å¤šä¸ªåˆ†æ”¯ï¼šç§‘学计算和数据分析、爬虫、Web 网站、游戏、命令行实用工具等等等等,这些都不是仅仅知道 Python 语法就能解决的问题。

       æ‹¿

       çˆ¬è™«ä¸¾ä¾‹ï¼Œå¦‚果你对计算机网络,HTTP协议,HTML,文本编码,JSON一无所知,你能做好这部分的工作么?而你在起步阶段的基础知识也同样重要,如

       æžœä½ è¿žå¾ªçŽ¯é€’归怎么写都还要查文档,连 BFS 都不知道怎么实现,这就像工匠做石凳每次起锤都要思考锤子怎么使用一样,非常低效。

       åœ¨è¿™ä¸ªé˜¶æ®µï¼Œä¸å¯é¿å…è¦æŽ¥è§¦å¤§é‡ç±»åº“,阅读大量书籍的。

       Â°1 类库方面

       ã€ŒAwesome Python 项目」:vinta/awesome-python · GitHub

       è¿™é‡Œåˆ—出了你在尝试解决各种实际问题时,Python 社区已有的工具型类库,如下图所示:

       ä½ å¯ä»¥æŒ‰ç…§å®žé™…需求,寻找你需要的类库。

       è‡³äºŽç›¸å…³ç±»åº“如何使用,必须掌握的技能便是阅读文档。由于开源社区大多数文档都是英文写成的,所以,英语不好的同学,需要恶补下。

       Â°2 书籍方面:

       è¿™é‡Œæˆ‘只列出一些我觉得比较有一些帮助的书籍,详细的请看豆瓣的书评:

       ç§‘学和数据分析:

       ❖「集体智慧编程」:集体智慧编程 (豆瓣)

       ❖「数学之美」:数学之美 (豆瓣)

       ❖「统计学习方法」:统计学习方法 (豆瓣)

       ❖「Pattern Recognition And Machine Learning」:Pattern Recognition And Machine Learning (豆瓣)

       ❖「数据科学实战」:数据科学实战 (豆瓣)

       ❖「数据检索导论」:信息检索导论 (豆瓣)

       çˆ¬è™«ï¼š

       ❖「HTTP 权威指南」:HTTP权威指南 (豆瓣)

       Web 网站:

       ❖「HTML & CSS 设计与构建网站」:HTML & CSS设计与构建网站 (豆瓣)

       ...

       åˆ—到这里已经不需要继续了。

       èªæ˜Žçš„你一定会发现上面的大部分书籍,并不是讲 Python 的书,而更多的是专业知识。

       äº‹å®žä¸Šï¼Œè¿™é‡Œæ‰€è°““跳出 Python,拥抱世界”,其实是发现 Python 和专业知识相结合,能够解决很多实际问题。这个阶段能走到什么程度,更多的取决于自己的专业知识。

       ¶ 深入阶段

       è¿™ä¸ªé˜¶æ®µçš„你,对 Python 几乎了如指掌,那么你一定知道 Python 是用 C 语言实现的。

       å¯æ˜¯ Python 对象的“动态特征”是怎么用相对底层,连自动内存管理都没有的C语言实现的呢?这时候就不能停留在表面了,勇敢的拆开 Python 的黑盒子,深入到语言的内部,去看它的历史,读它的源码,才能真正理解它的设计思路。

       è¿™é‡ŒæŽ¨èä¸€æœ¬ä¹¦ï¼š

       ã€ŒPython 源码剖析」:Python源码剖析 (豆瓣)

       è¿™æœ¬ä¹¦æŠŠ Python 源码中最核心的部分,给出了详细的阐释,不过阅读此书需要对 C 语言内存模型和指针有着很好的理解。

       å¦

       å¤–,Python 本身是一门杂糅多种范式的动态语言,也就是说,相对于 C 的过程式、 Haskell 等的函数式、Java

       åŸºäºŽç±»çš„面向对象而言,它都不够纯粹。换而言之,编程语言的“道学”,在 Python

       ä¸­åªèƒ½æœ‰é™çš„体悟。学习某种编程范式时,从那些面向这种范式更加纯粹的语言出发,才能有更深刻的理解,也能了解到 Python 语言的根源。

       è¿™é‡ŒæŽ¨èä¸€é—¨å…¬å¼€è¯¾

       ã€Œç¼–程范式」:斯坦福大学公开课:编程范式

       è®²å¸ˆé«˜å±‹å»ºç“´ï¼Œä»Žå„种编程范式的代表语言出发,给出了每种编程范式最核心的思想。

       å€¼å¾—一提的是,这门课程对C语言有非常深入的讲解,例如C语言的范型和内存管理。这些知识,对阅读 Python 源码也有大有帮助。

       Python 的许多最佳实践都隐藏在那些众所周知的框架和类库中,例如 Django、Tornado 等等。在它们的源代码中淘金,也是个不错的选择。

       ¶ 最后的话

       æ¯ä¸ªäººå­¦ç¼–程的道路都是不一样的,其实大都殊途同归,没有迷路的人只有不能坚持的人。虽然听上去有点鸡汤,但是这是事实。

       å¸Œæœ›æƒ³å­¦ Python 想学编程的同学,不要犹豫了,看完这篇文章,Just getting started~

NLP修炼系列之Bert(二)Bert多分类&多标签文本分类实战(附源码)

       在NLP修炼系列之Bert(二)的上一篇文章中,我们对Bert的背景和预训练模型进行了深入讲解。现在,我们将步入实战环节,通过Bert解决文本的多分类和多标签分类任务。本文将介绍两个实际项目,一个是基于THUCNews数据集的类新闻标题分类,另一个是我们公司业务中的意图识别任务,采用多标签分类方式。

       1.1 数据集详解

       多分类项目使用THUCNews数据集,包含万个新闻标题,长度控制在-个字符,共分为财经、房产等个类别,每个类别有2万个样本。训练集包含万个样本,验证集和测试集各1万个,每个类别条。

       多标签任务数据集来自公司业务,以对话形式的json格式存在,用于意图识别。由于隐私原因,我们无法提供,但网上有很多公开的多标签数据集,稍加调整即可适用。

       1.2 项目结构概览

       项目包含Bert预训练模型文件、配置文件和词典等,可以从Huggingface官网下载。

        datas 目录下存放数据集、日志和模型。

       models 包含模型定义和超参数配置,还包括混合模型如Bert+CNN等。

       run.py 是项目入口,负责运行训练。

       train_eval.py 负责模型训练、验证和测试。

       utils 提供数据预处理和加载工具。

       2. 项目流程和环境要求

       通过run.py调用argparse工具配置参数。安装环境要求Python 3.8,项目中已准备好requirements.txt文件。

       3. 项目实战步骤

       从构建数据集到模型定义,包括数据预处理、数据迭代器的创建、配置定义以及训练、验证和测试模块的实现。

       4. 实验与总结

       我们尝试了以下实验参数:num_epochs、batch_size、pad_size和learning_rate。在fine-tune模式下,Bert表现最佳,否则效果不佳。项目代码和数据集可通过关注布尔NLPer公众号获取,回复相应关键词获取多分类和多标签分类项目源码。

copyright © 2016 powered by 皮皮网   sitemap