《自然语言处理实战入门》 第一章: 自然语言处理(NLP)技术简介



大家好,今天开始和大家分享,我在自然语言处理(Natural Language Processing,NLP)的一些学习经验和心得体会。

随着人工智能的快速发展,自然语言处理和机器学习技术的应用愈加广泛。为使大家对该领域整体概况有一个系统、明晰的认识,同时入门一些工程实践,也借CSDN为NLP的学习,开发者们搭建一个交流的平台。我希望能够通过这个专栏《自然语言处理实战入门》和广大NLP爱好者一起学习自然语言处理技术,分享学习资料,打破NLP 技术 的实战应用壁垒。

由于网络上的公开、收费教程,基本都以英文NLP 作为切入点讲授原理和实践,但本人认为汉语NLP技术存在着很多根本性的不同,所以本专栏的所有代码与DEMO也都是围绕着汉语自然语言处理进行构建。

特别的,由于本专栏持续更新中,内容还未完整的请稍安勿躁,部分内容有参考其他书籍或是网络文献,都会给出原始出处,最终力求能让各位读者朋友能够在汉语自然语言处理技术实战方面实现以下几点目标:

  1. 快速找到可信原始一首资料,节省宝贵时间!
  2. 迅速入门,懂得技术的基本原理!
  3. 能够搭建并完善自己的汉语自然语言处理实战应用的MVP(Minimum Viable Product – 最小可行产品)

如您购买了专栏,更多资料请参照博客左侧的联系方式加群分享:
QQ交流群: 593683975
QQ群提供技术交流,CSDN资源,百度文库等资源共享
加群需要回答问题:抛硬币正面上的期望? 请给出您的答案

配套前期视频课程 ---- 持续更新中

视频讲解课程 :《自然语言处理实战入门》


本节课程导览

本小结主要介绍内容如下

  • 自然语言处理简介

    3W,发展历程、研究现状、

  • 课程涵盖的主要内容总览

    第一阶段
    第二阶段

  • 知名NLP服务系统与开源组件简介

    对汉语自然处理的服务提供商及其服务内容做一个简单的梳理,让大家能够更好的了解目前的技术手段,技术现状。

本小节课程主要内容分为2大部分:

第一部分,自然语言处理简介,用认知思维的方法,结合发展历程总揽自然语言处理.

同时顺带介绍,本课程的主要内容,本课程的主要内容我们分成两个阶段 。第一个阶段如思维导图的右边,我们力求短时间内上手,完成爬虫、分词、可视化、文本分类4个自然语言处理实战中最经常碰到的问题,我首先通过爬虫爬取自己CSDN的博客积累语料,其次尝试通过一些解决方案的对比,比如不同的分词组件的对比,选择一个进行可视化词云,主题模型的生成。最后我们介绍一些文本分类的方法,文本分类的应用较广,如垃圾邮件检测,舆论分析,文本查重等场景都可以转化为文本分类问题。第二个阶段的课程,如果有时间的话,我们来共同探讨一些业界常用的NLP实战场景,如脑图左侧所示的,命名实体识别,问答机器人,知识图谱,基于深度学习的NLP 等

第二部分介绍 ,NLP技术在我国的应用现状,以及一些我们经常用到的开源包。


1.自然语言处理(NLP)简介

在这里插入图片描述

上学的时候,老师经常使用这样提问的方式加深我们对于知识的理解和认知

what is it?
自然语言处理(Natural Language Processing,简称 NLP)是人工智能和语言学交叉领域下的分支学科。
用于分析、理解和生成自然语言,以方便人和计算机设备进行交流,以及人与人之间的交流

在这里插入图片描述

NLP 是人工智能和语言学领域的交叉学科,
自然语言处理在广义上分为两大部分:

  • 第一部分为自然语言理解,是指让计算机懂人类的语言。
  • 第二部分为自然语言生成,是指把计算机数据转化为自然语言。

NLP 技术按照由浅入深可以分为三个层次,分别为:

  • 基础技术
  • 核心技术
  • NLP+

在这里插入图片描述


1.1 NLP 前置技术

我们来说说最重要的两个前置技术:

  1. 正则表达式
  2. 网络爬虫

这两个技术主要是对应我们对数据的处理,自然语言语料的处理。

1.2 NLP 基础技术

这三个层次中,基础技术主要是对自然语言中的基本元素进行表示和分析,比如词汇,短语,句子。

词汇短语分析中,大家熟知的分词技术,就是为了解决如下问题,比如:我去北京大学玩,北京大学独立成词,而不是分成北京和大学。

句法语义分析:对于给定的句子,进行分词、词性标记、命名实体识别和链接、句法分析、语义角色识别和多义词消歧。

1.3 NLP 核心技术

NLP 的核心技术是建立在基础技术之上的的技术产出,基础技术中如词法,句法的分析越准确,核心技术的产出才能越准确。核心技术主要包括以下几个方面:

  • 信息抽取
    从给定文本中抽取重要的信息,比如,时间、地点、人物、事件、原因、结果、数字、日期、货币、专有名词等等。通俗说来,就是要了解谁在什么时候、什么原因、对谁、做了什么事、有什 么结果。涉及到实体识别、时间抽取、因果关系抽取等关键技术。

  • 文本挖掘(或者文本数据挖掘)
    包括文本聚类、分类、信息抽取、摘要、情感分析以及对挖掘的信息和知识的可视化、交互式的表达界面。目前主流的技术都是基于统计机器学习的。

  • 机器翻译
    把输入的源语言文本通过自动翻译获得另外一种语言的文本。根据输入媒介不同,可以细分为文本翻译、语音翻译、手语翻译、图形翻译等。机器翻译从最早的基于规则的方法到二十年前的基于统计的方法,再到今天的基于神经网络(编码-解码)的方法,逐渐形成了一套比较严谨的方法体系。

  • 信息检索
    对大规模的文档进行索引。可简单对文档中的词汇,赋之以不同的权重来建立索引,也可利用(句法分析,信息抽取,文本发掘)来建立更加深层的索引。在查询的时候,对输入的查询表达式比如一个检索词或者一个句子进行分析,然后在索引里面查找匹配的候选文档,再根据一个排序机制把候选文档排序,最后输出排序得分最高的文档。

1.4 NLP+(高级技术)

能够真正影响我们生活的黑科技,能够通过图灵测试的机器问答系统,我们可以称之为NLP+

  • 问答系统
    对一个自然语言表达的问题,由问答系统给出一个精准的答案。需要对自然语言查询语句进行某种程度的语义分析,包括实体链接、关系识别,形成逻辑表达式,然后到知识库中查找可能的候选答案并通过一个排序机制找出最佳的答案。

  • 对话系统
    系统通过一系列的对话,跟用户进行聊天、回答、完成某一项任务。涉及到用户意图理解、通用聊天引擎、问答引擎、对话管理等技术。此外,为了体现上下文相关,要具备多轮对话能力。

  • AI助手
    目前自然语言处理的前沿,已经与人类真假难辨
    https://v.qq.com/x/page/w0648xqraxj.html


1.5 NLP主要内容总揽

在这里插入图片描述


1.6 发展历程与趋势

在这里插入图片描述

1950 年图灵提出了著名的“图灵测试”,这一般被认为是自然语言处理思想的开端,20 世纪 50 年代到 70 年代自然语言处理主要采用基于规则的方法,研究人员们认为自然语言处理的过程和人类学习认知一门语言的过程是类似的,所以大量的研究员基于这个观点来进行研究,这时的自然语言处理停留在理性主义思潮阶段,以基于规则的方法为代表。但是基于规则的方法具有不可避免的缺点,首先规则不可能覆盖所有语句,其次这种方法对开发者的要求极高,开发者不仅要精通计算机还要精通语言学,因此,这一阶段虽然解决了一些简单的问题,但是无法从根本上将自然语言理解实用化。

70 年代以后随着互联网的高速发展,丰富的语料库成为现实以及硬件不断更新完善,自然语言处理思潮由经验主义向理性主义过渡,基于统计的方法逐渐代替了基于规则的方法。

贾里尼克和他领导的 IBM 华生实验室是推动这一转变的关键,他们采用基于统计的方法,将当时的语音识别率从 70%提升到 90%。在这一阶段,自然语言处理基于数学模型和统计的方法取得了实质性的突破,从实验室走向实际应用。

从 2008 年到现在,在图像识别和语音识别领域的成果激励下,人们也逐渐开始引入深度学习来做自然语言处理研究,由最初的词向量到 2013 年的 word2vec,将深度学习与自然语言处理的结合推向了高潮,并在机器翻译、问答系统、阅读理解等领域取得了一定成功。

深度学习是一个多层的神经网络,从输入层开始经过逐层非线性的变化得到输出。从输入到输出做端到端的训练。把输入到输出对的数据准备好,设计并训练一个神经网络,即可执行预想的任务。RNN 已经是自然语言处理最常用的方法之一,GRU、LSTM 等模型相继引发了一轮又一轮的热潮。

在这里插入图片描述

在这里插入图片描述
左图是清华大学科技情报对全网NLP领域论文发表数量的统计,右图是相关研究者对nlp未来发展趋势的投票
可以看到2个大的趋势:

  1. 自然语言处理 文本发掘,信息抽取等领域近年来大火。

  2. 未来NLP的应用前景逐渐转向自然语言生成上,你用手机跟机器人老师学英语,老师教你口语,纠正发音,跟你亲切对话,帮你修改论文。
    机器人定期自动分析浩如烟海的文献,给企业提供分析报表、辅助决策并做出预测。搜索引擎的智能程度大幅度提高。很多情况下,可以直接给出答案,并且可以自动生成细致的报告。


2.知名NLP服务系统与开源组件简介

以下我们通过一些知名中文NLP服务提供商,包括我们熟知的云服务提供商BAT ,aws,以及两家科研院所的系统简介,来介绍以及宏观认识NLP的各种技术手段和应用场景。

首先介绍的是两家NLP基础分析,准确率很高的科研院所 的产品,源自北理工和哈工大,之后我们介绍知名云服务提供商的产品。

2.1 单一服务提供商

2.1.1 汉语分词系统ICTCLAS

主页: http://ictclas.nlpir.org/
在线演示系统: http://ictclas.nlpir.org/nlpir/
Python版本: https://github.com/tsroten/pynlpir
新系统地址

  • https://online.lingjoin.com/#/

语言是人类区别其他动物的本质特性。在所有生物中,只有人类才具有语言能力。人类的多种智能都与语言有着密切的关系。人类的逻辑思维以语言为形式,人类的绝大部分知识也是以语言文字的形式记载和流传下来的。因而,它也是人工智能的一个重要,甚至核心部分。
用自然语言与计算机进行通信,这是人们长期以来所追求的。因为它既有明显的实际意义,同时也有重要的理论意义:人们可以用自己最习惯的语言来使用计算机,而无需再花大量的时间和精力去学习不很自然和习惯的各种计算机语言;人们也可通过它进一步了解人类的语言能力和智能的机制。
实现人机间自然语言通信意味着要使计算机既能理解自然语言文本的意义,也能以自然语言文本来表达给定的意图、思想等。前者称为自然语言理解,后者称为自然语言生成。因此,自然语言处理大体包括了自然语言理解和自然语言生成两个部分。历史上对自然语言理解研究得较多,而对自然语言生成研究得较少。但这种状况已有所改变。

对于百度百科 自然语言处理 的分词及实体抽取结果

在这里插入图片描述

该系统为汉语自然语言处理领域顶尖大牛,北京理工大学张华平博士20年的专业技术积累,NShort 革命性分词算法的发明者。

主要功能包括中文分词;英文分词;中英文混合分词,词性标注;命名实体识别;新词识别;关键词提取;支持用户专业词典与微博分析。NLPIR系统支持多种编码、多种操作系统、多种开发语言与平台。

该平台的特点为:功能丰富,分词,语义,实体发现准确率高,近期发布了最新的2018版。
(与熟知的jieba,ltp,清华thulac)

2.1.2 哈工大语言云(Language Technology Platform,LTP)

https://www.ltp-cloud.com/

源自哈工大知名的分词插件ltp,准确率高

Python版本: https://github.com/HIT-SCIR/pyltp

在这里插入图片描述

语言技术平台(Language Technology Platform,LTP)是哈工大社会计算与信息检索研究中心历时十年开发的一整套中文语言处理系统。LTP制定了基于XML的语言处理结果表示,并在此基础上提供了一整套自底向上的丰富而且高效的中文语言处理模块(包括词法、句法、语义等6项中文处理核心技术),以及基于动态链接库(Dynamic Link Library, DLL)的应用程序接口、可视化工具,并且能够以网络服务(Web Service)的形式进行使用。

“语言云”
以哈工大社会计算与信息检索研究中心研发的 “语言技术平台(LTP)” 为基础,为用户提供高效精准的中文自然语言处理云服务。 使用 “语言云” 非常简单,只需要根据 API 参数构造 HTTP 请求即可在线获得分析结果,而无需下载 SDK 、无需购买高性能的机器,同时支持跨平台、跨语言编程等。 2014年11月,哈工大联合科大讯飞公司共同推出 “哈工大-讯飞语言云”,借鉴了讯飞在全国性大规模云计算服务方面的丰富经验,显著提升 “语言云” 对外服务的稳定性和吞吐量,为广大用户提供电信级稳定性和支持全国范围网络接入的语言云服务,有效支持包括中小企业在内开发者的商业应用需要。
有关更多语言云API的使用方法,请参考:http://www.ltp-cloud.com/document/

windows 下安装pyltp的话,应该是需要安装visual studio, 由于LTP是用c++写的,pyltp也是基于它封装而成的,需要调用 cl.exe 完成源码的编译。然后下载源码,使用python setup.py install 的方式进行安装就可以了。

2.1.3 HanLP

HanLP是一系列模型与算法组成的NLP工具包,由大快搜索主导并完全开源,目标是普及自然语言处理在生产环境中的应用。HanLP具备功能完善、性能高效、架构清晰、语料时新、可自定义的特点。
在这里插入图片描述

HanLP提供下列16大类功能:

  • 中文分词
  • 词性标注
  • 命名实体识别
  • 关键词提取
  • 自动摘要
  • 短语提取
  • 拼音转换
  • 简繁转换
  • 文本推荐
  • 依存句法分析
  • 文本分类
  • 情感分析
  • 文本聚类
  • word2vec
  • 文档语义相似度计算
  • 语料库工具

项目地址: https://github.com/hankcs/HanLP
python 版本: https://github.com/hankcs/pyhanlp
windows 安装指南: https://github.com/hankcs/pyhanlp/wiki/Windows

由于HanLP底层是java 版本的,所以对java 的支持比较好,python 版本中有一些功能没有实现,但可以通过调用java 实现。HanLP随v1.6.8发布了在一亿字的大型综合语料库上训练的分词模型,该语料是已知范围内全世界最大的中文分词语料库。在HanLP的在线演示中使用已久,现在无偿公开。语料规模决定实际效果
,所以不用多说HanLP确实可以直接拿来做项目。有趣的是HanLP 有着非常多的衍生项目,其中docker 版和ES 版值得大家关注,这些衍生项目无疑更加提高了HanLP的可用性、灵活性。

调用代码样例


from pyhanlp import *

print(HanLP.segment('你好,欢迎在Python中调用HanLP的API'))
for term in HanLP.segment('下雨天地面积水'):
    print('{}\t{}'.format(term.word, term.nature)) # 获取单词与词性
testCases = [
    "商品和服务",
    "结婚的和尚未结婚的确实在干扰分词啊",
    "买水果然后来世博园最后去世博会",
    "中国的首都是北京",
    "欢迎新老师生前来就餐",
    "工信处女干事每月经过下属科室都要亲口交代24口交换机等技术性器件的安装工作",
    "随着页游兴起到现在的页游繁盛,依赖于存档进行逻辑判断的设计减少了,但这块也不能完全忽略掉。"]
for sentence in testCases: print(HanLP.segment(sentence))
# 关键词提取
document = "水利部水资源司司长陈明忠9月29日在国务院新闻办举行的新闻发布会上透露," \
           "根据刚刚完成了水资源管理制度的考核,有部分省接近了红线的指标," \
           "有部分省超过红线的指标。对一些超过红线的地方,陈明忠表示,对一些取用水项目进行区域的限批," \
           "严格地进行水资源论证和取水许可的批准。"
print(HanLP.extractKeyword(document, 2))
# 自动摘要
print(HanLP.extractSummary(document, 3))
# 依存句法分析
print(HanLP.parseDependency("徐先生还具体帮助他确定了把画雄鹰、松鼠和麻雀作为主攻目标。"))

2.1.4 BosonNLP

BosonNLP(界面,接口友好,准确率高)
https://bosonnlp.com/demo
这里写图片描述

如果你在网上搜索汉语分词评测,十有八九你会搜索到专注于汉语自然语言处理技术的这家公司,以及下面这张评测结果:
在这里插入图片描述


2.2 云服务提供商

2.2.1 Amazon Comprehend

在这里插入图片描述

https://amazonaws-china.com/cn/comprehend/?nc2=h_a1

Amazon Comprehend 是一项自然语言处理 (NLP) 服务,可利用机器学习发现文本中的见解和关系。Amazon Comprehend 可以识别文本语言,提取关键的短语、地点、人物、品牌或事件,了解文本的含义是肯定还是否定,还可以自动按主题整理一系列文本文件。

您可使用 Amazon Comprehend API 分析文本,并将结果进行广泛应用,包括客户意见分析、智能文档搜索以及 Web 应用程序的内容个性化设置。

该服务不断地通过各种信息来源 (包括世界上最大的自然语言数据集之一:Amazon.com 商品描述和买家评论) 学习和提升, 以跟上语言的发展演变。

实例:利用 AWS Comprehend 打造近实时文本情感分析
https://amazonaws-china.com/cn/blogs/china/realizing-near-real-time-text-sentiment-analysis-with-aws-comprehend/

可以看到图中,aws 使用kibana 仪表盘和 Comprehend 服务组成了一个实时的电影评论实时分析系统,其实主要功能就是实现了分词和内容来源的地理位置统计,看起来很炫酷。

2.2.2 阿里云NLP

在这里插入图片描述

https://data.aliyun.com/product/nlp?spm=5176.8142029.388261.396.63f36d3eoZ8kNK

阿里的NLP 服务简介为:

自然语言处理是为各类企业及开发者提供的用于文本分析及挖掘的核心工具,
已经广泛应用在电商、文化娱乐、金融、物流等行业客户的多项业务中。

自然语言处理API可帮助用户搭建内容搜索、内容推荐、舆情识别及分析、文本结构化、对话机器人等智能产品,
也能够通过合作,定制个性化的解决方案。

按量付费的基准价,在没有购买资源包或资源包用尽的情况下,将按基准价进行计费。
其中,基础版对每个主帐号提供每日5万次的免费使用额度。商品评价解析没有免费额度。

值得注意的是阿里云的nlp 服务刚发布不到1年,应该算是领域内的新手,语料库应该和aws 一样,主要为商品描述和评论,所以它有一项功能叫做商品评价解析

这里写图片描述
时隔半年之后我们再来看一下这个产品名录发现,功能更加丰富了。整体来看受限于语料的积累,我认为没有什么亮点。
在这里插入图片描述

2.2.3 腾讯云NLP

在这里插入图片描述
在这里插入图片描述

https://cloud.tencent.com/product/nlp

界面友好,功能丰富,语料库为海量综合性语料库

腾讯云智在线演示系统
http://nlp.qq.com/semantic.cgi

2.2.4 百度语言处理基础技术

在这里插入图片描述

http://ai.baidu.com/tech/nlp
依托海量检索数据,并且搜索引擎本身就是NLP 最终的结果产出,所以在NLP领域,百度无论是语料库丰富程度,技术先进性,以及服务多样性等都是遥遥领先其他厂家,基本上可以算作是中文NLP服务提供商的业界最佳实践。

  • 功能丰富且技术领先

    • 词法分析
    • 词向量表示
    • 词义相似度
    • 评论观点抽取
    • 文章标签
    • 依存句法分析
    • DNN语言模型
    • 短文本相似度
    • 情感倾向分析
    • 文章分类
    • 对话情绪识别
    • 文本纠错
    • 新闻摘要

等13个大类的服务,对于个人开发者来说,配比了免费额度,对于词向量来说,每秒免费的额度是5个词,基本可以够用拿来做点有趣的事情了。

从图中结果也可以看出,百度对词向量相似度的分析和我用余弦相似度的结果一样,可以推断出百度的算法比较接地气。

  • DNN语言模型

Deep Neural Network(DNN)模型是基本的深度学习框架,DNN语言模型是通过计算给定词组成的句子的概率,从而判断所组成的句子是否符合客观语言表达习惯

通常用于机器翻译、拼写纠错、语音识别、问答系统、词性标注、句法分析和信息检索等
百度这个模型是大厂中首个公开提供服务接口的深度学习语言模型。

  • 调用方式友好简单

提供更加简单的调用方式:类似aws boto3
如果已安装pip,执行pip install baidu-aip即可
Sdk 方式,安装

from aip import AipNlp
 """ 你的 APPID AK SK """ 
APP_ID = '你的 App ID' 
API_KEY = '你的 Api Key' 
SECRET_KEY = '你的 Secret Key' 
client = AipNlp(APP_ID, API_KEY, SECRET_KEY)

word = "张飞"
 """ 调用词向量表示 """ 
client.wordEmbedding(word);

2.3 NLP开源组件简介

NLP 领域有非常多的开源组件可以用来快速构建开发的原型,我来简单介绍以下四个知名开源组件

2.3.1 NLTK

http://www.nltk.org/

  • 最常用的自然语言处理库
    NLTK是一个高效的Python构建的平台,用来处理人类自然语言数据。基本包含了NLP 中需要用到的所有技术
    它提供了易于使用的接口,通过这些接口可以访问超过50个语料库和词汇资源(如WordNet),还有一套用于分类、标记化、词干标记、解析和语义推理的文本处理库,以及工业级NLP库的封装器和一个活跃的讨论论坛。
  • 古腾堡项目(Project Gutenberg)
    NLTK 包含古腾堡项目(Project Gutenberg)中电子文本档案的经过挑选的一小部分文本。该项目大约有57,000 本免费电子图书,放在http://www.gutenberg.org/上。我们先要用Python 解释器加载NLTK 包,然后尝试nltk.corpus.gutenberg.fileids(),当然其中的中文语料也很丰富(都是没有版权的免费文档),比如李白文集,三字经,百家姓等等(要是用这些训练中文模型效果可想而知)

2.3.2 Jieba分词

https://github.com/fxsjy/jieba

“结巴”中文分词:做最好的 Python 中文分词组件
“Jieba” (Chinese for “to stutter”) Chinese text segmentation: built to be the best Python Chinese word segmentation module.
实现基本功能的代码量在一千行左右,词典长度35w ,安装方式友好,简洁,高效,(但准确性已经跟不上时代!!!85%)

2.3.3 ICTCLAS

http://ictclas.nlpir.org/

主要功能包括中文分词;词性标注;中英混合分词;命名实体识别;用户词典功能;支持GBK编码、UTF8编码、BIG5编码。新增微博分词、新词发现与关键词提取;张华平博士先后倾力打造20余年,内核升级10次。

全球用户突破20万,先后获得了2010年钱伟长中文信息处理科学技术奖一等奖,2003年国际SIGHAN分词大赛综合第一名,2002年国内973评测综合第一名。

2.3.4 Gensim

https://radimrehurek.com/gensim/

它的 slogan 是:Topic modelling for humans.
Gensim提供了一个发现文档语义结构的工具,用于从原始的非结构化的文本中,无监督地学习到文本隐层的主题向量表达。它将语料(Corpus)向量化表示后,主要能够实现以下三个功能:

  • 建立语言模型
  • 词嵌入模型的训练
  • 检索和语义分析的神器

简介参考:https://www.cnblogs.com/iloveai/p/gensim_tutorial.html


3.我国NLP 发展

在这里插入图片描述

20 世纪 90 年代以来,中国自然语言处理研究进入了高速发展期,一系列系统开始了大规模的商品化进程,自然语言处理在研究内容和应用领域上不断创新。

目前自然语言处理的研究可以分为基础性研究和应用性研究两部分,语音和文本是两类研究的重点。基础性研究主要涉及语言学、数学、计算机学科等领域,相对应的技术有消除歧义、语法形式化等。应用性研究则主要集中在一些应用自然语言处理的领域,例如信息检索、文本分类、机器翻译等。由于我国基础理论即机器翻译的研究起步较早,且基础理论研究是任何应用的理论基础,所以语法、句法、语义分析等基础性研究历来是研究的重点,而且随着互联网网络技术的发展,智能检索类研究近年来也逐渐升温。

从研究周期来看,除语言资源库建设以外,自然语言处理技术的开发周期普遍较短,基本为 1-3 年,由于涉及到自然语言文本的采集、存储、检索、统计等,语言资源库的建设较为困难,搭建周期较长,一般在 10 年左右,例如北京大学计算语言所完成的《现代汉语语法信息词典》以及《人民日报》的标注语料库,都经历了 10 年左右的时间才研制成功。

自然语言处理的快速发展离不开国家的支持,这些支持包括各种扶持政策和资金资助。国家的资金资助包括国家自然科学基金、社会科学基金、863 项目、973 项目等,其中国家自然科学基金是国家投入资金最多、资助项目最多的一项。国家自然科学基金在基础理论研究方面的投入较大,对中文的词汇、句子、篇章分析方面的研究都给予了资助,同时在技术方面也给予了大力支持,例如机器翻译、信息检索、自动文摘等。除了国家的资金资助外,一些企业也进行了资助,但是企业资助项目一般集中在应用领域,针对性强,往往这些项目开发周期较短,更容易推向市场,实现由理论成果向产品的转化。


参考文献

行业经典网站与资料

科技报告
https://reports.aminer.cn/

中文信息处理报告
http://cips-upload.bj.bcebos.com/cips2016.pdf

自然语言处理怎么最快入门?

我爱自然语言处理

http://www.52nlp.cn/

有趣的扩展知识与博文

深度学习与中文短文本分析总结与梳理
https://blog.csdn.net/wangyaninglm/article/details/66477222

分析了近5万首《全唐诗》,发现了这些有趣的秘密
http://www.growthhk.cn/cgo/9542.html

万字干货|10款数据分析“工具”,助你成为新媒体运营领域的“增长黑客”
http://www.woshipm.com/data-analysis/553180.html

jieba分词简介与解析
https://www.cnblogs.com/baiboy/p/jieba2.html

有哪些好的汉语分词方案
https://www.zhihu.com/question/19578687

基于分布式的短文本命题实体识别之----人名识别(python实现)
https://blog.csdn.net/wangyaninglm/article/details/75042151

NLP技术的应用及思考
https://yq.aliyun.com/articles/78031

自然语言处理实战项目17-基于多种NLP模型的诈骗电话识别方法研究与应用实战
weixin_42878111的博客
09-05 2385
大家好,我是微学AI,今天给大家介绍一下自然语言处理实战项目15-基于NLP模型的诈骗电话识别方法研究与应用,相信最近小伙伴都都看过《孤注一掷》这部写实的诈骗电影吧,电影主要围绕跨境网络诈骗展开,电影取材自上万起真实诈骗案例。随着科技的快速发展,诈骗电话已经成为了一种常见的犯罪手段,给人们的生活和财务安全带来了巨大的威胁。诈骗电话的形式多种多样,如假冒银行工作人员、征信信息、足彩内部消息、谎称中奖、虚假投资机会等等,这些都给人们带来了极大的困扰和损失。
中文自然语言处理入门实战
CSDN人工智能头条
01-11 198
中文自然语言处理入门实战课程简介NLP 作为 AI 技术领域中重要的分支,随着其技术应用范围不断扩大,在数据处理领域占有越来越重要的地位。本达人课,作为中文自然语言处理...
NLP学习路线:从基础知识到前沿技术
专注于全栈开发领域
04-07 985
NLP自然语言处理(Natural Language Processing)的缩写,它是计算机科学领域中专注于研究如何使计算机理解、生成和处理人类语言的学科。NLP涉及的技术包括但不限于分词、词性标注、句法分析、语义分析、机器翻译、情感分析、信息抽取、文本生成等。通过NLP,计算机可以处理和分析大量的文本数据,帮助人们更好地理解和应用语言信息。
自然语言处理入门 PDF
最新发布
zhuwujie0331的博客
04-13 317
包括词法分析、句法分析、语义分析、应用场景的介绍。同时还有配套的课后习题。作为自然语言处理学习的新手入门教材资料,很有帮助。(访问密码: 7776)(文档仅为个人学习)更多AI内容,可进入原文阅读。
NLP自然语言处理实战
AI论道的博客
01-21 532
然后利用分词工具对文本进行处理,把语句分成若干个常用的单词、短语,由于各国的语言特征有所区别,所以NLP也会有不同的库支撑。在1970年,有两位美国人 Richard Bandler 和 John Grinder 因不满于传统心理学派的治疗过程冗长,及其效果常反复不定,而集合各家所长以及他们独特的创见,在美国加州大学内(NLP的发源地)利用课余时间开始研究。机器翻译是利用计算机将某一种语言文本自动翻译成另一种语言文本的方法,它基于语言规则,利用统计的统计原理进度混合计算,得出最终结果。
自然语言处理NLP技术
weixin_46990121的博客
02-20 510
情感分析:NLP技术可以用于分析文本的情感,判断文本中的情感倾向。例如,可以使用NLP技术来分析社交媒体上的用户评论,以了解用户对某个产品或事件的情感反应。问答系统:NLP技术可以用于开发智能问答系统,能够理解用户提出的问题并给出准确的答案。信息抽取:NLP技术可以从文本中提取有用的信息。例如,可以使用NLP技术从新闻文章中提取出人名、地名、日期等实体信息,以便进行更深入的分析和挖掘。这些只是NLP技术在实际应用中的一些例子,NLP技术还在不断发展和演进中,未来可能会有更多更广泛的应用。
自然语言处理入门——新手上路
qq_42794545的博客
11-10 7684
自然语言处理NLP)是一门融合了计算机科学、人工智能以及语言学的交叉学科。 一、自然与语言与编程语言 1.词向量 自然语言中的词汇量比编程语言中的关键词丰富。再自然语言中,我们可以使用的词汇量是无穷无尽的,几乎没有意义完全相同的词语。我们国家语言文字工作委员会发布的《现代汉语常用词表(草案)》一共收录56 008个词条。除此之外,我们还可以随时创造各种类型的新词,而不仅限于名词。 2.结构化 自然语言是非结构化的,而编程语言是结构化的。所谓的结构化,是指信息具有明确的结构关系,比如编程.
自然语言处理实战案例与实践
禅与计算机程序设计艺术
01-18 1128
1.背景介绍 自然语言处理(Natural Language Processing,NLP)是人工智能的一个重要分支,它旨在让计算机理解、生成和处理人类自然语言。自然语言处理的应用范围广泛,包括机器翻译、语音识别、情感分析、文本摘要、问答系统等。 自然语言处理的研究历史可以追溯到1950年代,当时的研究主要集中在语言模型、语法分析和语义分析等方面。随着计算机技术的发展,自然语言处理的研究也不断...
【周末送新书】基于BERT模型的自然语言处理实战
Kaiyuan_sjtu的博客
08-21 2254
如果你是一名自然语言处理从业者,那你一定听说过大名鼎鼎的 BERT 模型。BERT(Bidirectional Encoder Representations From Transform...
AI人工智能技术 Python TensorFlow机器学习实战教程 第8章 自然语言文本处理 共24页.pptx
04-30
本课程适合所有需要学习自然语言处理技术的同学,课件内容制作精细,由浅入深,适合入门或进行知识回顾。 本章为该课程的其中一个章节,如有需要可下载全部课程 全套资源下载地址:...
AI人工智能技术 Python TensorFlow机器学习实战教程 第10章 图像处理 共21页.pptx
04-30
本课程适合所有需要学习自然语言处理技术的同学,课件内容制作精细,由浅入深,适合入门或进行知识回顾。 本章为该课程的其中一个章节,如有需要可下载全部课程 全套资源下载地址:...
python自然语言处理NLP入门.pdf
04-28
简要介绍Python(NLP),使⽤Python的NLTK库。NLTK是Python的⾃然语⾔处理⼯具包,在NLP领域中,最常使⽤的⼀个Python库。 简单来说,⾃然语⾔处理(NLP)就是开发能够理解⼈类语⾔的应⽤程序或服务。 这⾥讨论⼀些⾃然语⾔处理(NLP)的实际应⽤例⼦,如语⾳识别、语⾳翻译、理解完整的句⼦、理解匹配词的同义词,以及⽣成语法正确整句⼦和段落。 搜索引擎: ⽐如⾕歌,Yahoo等。⾕歌搜索引擎知道你是⼀个技术⼈员,所以它显⽰与技术相关的结果; 社交⽹站推送:⽐如Facebook News Feed。如果News Feed算法知道你的兴趣是⾃然语⾔处理,就会显⽰相关的⼴告和帖⼦。 语⾳引擎:⽐如Apple的Siri。
AI人工智能技术 Python TensorFlow机器学习实战教程 第9章 语音处理 共16页.pptx
04-30
本课程适合所有需要学习自然语言处理技术的同学,课件内容制作精细,由浅入深,适合入门或进行知识回顾。 本章为该课程的其中一个章节,如有需要可下载全部课程 全套资源下载地址:...
AI人工智能技术 Python TensorFlow机器学习实战教程 第3章 Tensorflow进阶 共11页.pptx
04-30
本课程适合所有需要学习自然语言处理技术的同学,课件内容制作精细,由浅入深,适合入门或进行知识回顾。 本章为该课程的其中一个章节,如有需要可下载全部课程 全套资源下载地址:...
AI人工智能技术 Python TensorFlow机器学习实战教程 第11章 人脸识别 共19页.pptx
04-30
本课程适合所有需要学习自然语言处理技术的同学,课件内容制作精细,由浅入深,适合入门或进行知识回顾。 本章为该课程的其中一个章节,如有需要可下载全部课程 全套资源下载地址:...
机器学习项目实战:深度自然语言处理
12-25
本课程通过一系列内容讲解和编码实战,按照由易到难,由浅入深的顺序展开,让学员在实践中,依次学习神经网络和深度学习,并且进行基于深度学习的自然语言处理技术编码实现,使得学员可以在编码中对机器学习有一个直观的认识和体验,在实践中完成理论联系实际的过程并加深对人工智能技术的理解与运用。建议和《机器学习项目实战》搭配使用,效果更佳~
自然语言处理实战 TextCNN文本分类
06-26
课程目标 (1)采用PyTorch深度学习工具进行实战操作,掌握PyTorch基本使用;(2)掌握工业界短文本处理解决方案,如:对话系统,智能客服,新闻领域分类等;(3)词向量项目案例应用,掌握文本的表示方法;(4)通过项目案例实战,掌握TextCNN短文本分类在工业界应用,可以直接应用在如下领域例如:对话系统意图识别,智能客服问答意图识别,资讯短文本分类等文本分类场景。适用人群 (1)想要从事NLP的在校学生、NLP研发工程师(2)自然语言处理从业者、深度学习爱好者课程简介 短文本分类作为自然语言处理的基础技术之一NLP领域的热门应用,常用在对话语言平台,文章分类,智能客服,FAQ智能问答等多个场景。 因此深入掌握短文本分类技术,是作为自然语言处理从业者必备技能,本课程以案例驱动出发,结合多个工业级解决方案,了解当下文本分类实际工业界的应用。课程要求: (1)开发环境:python版本:Python3.x;PyTorch深度学习工具;(3)学员基础:需要一定的Python基础,及深度学习基础;(4)学员收货:掌握深度学习PyTorch工具使用;掌握TextCNN短文本分类;了解工业流行解决方案;(5)学员资料:内含完整程序源码和数据集;(6)课程亮点:专题技术,完整案例,全程实战操作,徒手撸代码。
自然语言处理技术有哪些?NLP简介
gu1857035894的博客
06-06 2775
自然语言处理技术有哪些?尽管当今许多 BI 解决方案提供了简化的体验,但需要一些数据素养和知识才能完全理解它们。例如,仪表板被认为是自助式 BI 工具,但对于普通人来说,它们通常仍然过于技术化,无法有效使用。确保企业中的每个人都可以在需要时独立使用分析仍然是一个挑战。自然语言处理技术有哪些?据Ventana Research称,如今,只有五分之二 (40%) 的组织报告说,他们的员工可以在没有 IT 帮助的情况下分析数据。为了更好地使业务用户能够独立地查询他们的数据,某些 BI 供应商现在提供了一种自然语言
NLP】文本处理的基本方法(超详解)
风口IT猪的成长录
07-30 3045
文本处理的基本方法1. 分词1.1 什么是分词1.2 分词的作用1.3 流行中文分词工具jieba1.3.1 jieba的特性1.3.2 jieba的安装1.3.3 jieba的使用 1. 分词 1.1 什么是分词 分词就是将连续的字序列按照一定的规范重新组合成词序列的过程。 我们知道,在英文的行文中,单词之间是以空格作为自然分界符的,而中文只是字、句和段能通过明显的分界符来简单划界,唯独词没有一个形式上的分界符, 分词过程就是找到这样分界符的过程. 举个栗子: 工信处女干事每月经过下属科室都要亲口交代24
python自然语言处理基础与实战
10-23
Python自然语言处理NLP)是使用Python编程语言进行文本和语言处理的领域。自然语言处理包括使用计算机方法来理解、处理和生成人类语言的技术。 Python作为一种流行的编程语言,拥有丰富的NLP库和工具,使得开发者能够轻松地实现各种NLP任务。例如,NLTK (Natural Language Toolkit) 是一个广泛使用的Python库,它提供了许多用于处理文本和自然语言的函数和算法。 在NLP的基础方面,学习者需要了解基本的文本处理技术,例如分词、词性标注、命名实体识别等。Python提供了众多的库来支持这些任务,例如NLTK、spaCy和Stanford NLP。学习者可以使用这些工具来进行文本处理和分析,从而获取文本中的有用信息。 在NLP实战方面,学习者可以应用Python来解决现实世界的问题。例如,情感分析是一种常见的NLP任务,旨在通过分析文本的语气和情绪来判断其情感倾向。使用Python和相关的库,开发者可以构建情感分类模型,从而对大量文本进行情感分析。 此外,机器翻译也是一个重要的NLP应用,它能够将一种语言的文本转换为另一种语言。借助Python和机器学习算法,开发者可以训练机器翻译模型,并将其集成到应用程序中。这对于跨语言交流、内容翻译和国际化业务非常有用。 总之,Python自然语言处理基础与实战包括了学习基本的文本处理技术和了解相关的Python NLP库,以及应用这些知识来解决实际的NLP问题。这是一个充满挑战和机会的领域,也是Python开发者在语言处理方面提升技能的绝佳机会。

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
写文章

热门文章

  • OpenCV进行图像相似度对比的几种办法 174649
  • OpenCV+OpenGL 双目立体视觉三维重建 81384
  • markdown绘图插件 ---- mermaid简介 76599
  • 三维重建技术概述 71079
  • 四种简单的图像显著性区域特征提取方法-----AC/HC/LC/FT。 63995

分类专栏

  • 大数据AI系统解决方案与技术架构 付费 147篇
  • 大数据+AI 赋能行业,助力企业数字化转型最佳实践案例 付费 147篇
  • 自然语言处理实战入门【Generative AI重制版】 付费 129篇
  • 基于大数据的机器学习原理与最佳实践 付费 81篇
  • 大数据机器学习实践探索 付费 130篇
  • 自然语言处理实战入门 19篇
  • leetcode c++ python实现 49篇
  • 老王和他的IT界朋友们 75篇
  • 计算机视觉OpenCV实现 45篇
  • 图论及其算法在计算机视觉中的应用 10篇
  • OpenCV特征点检测 7篇
  • OpenCV 63篇
  • 算法设计与分析 70篇
  • c++ 79篇
  • 机器学习 18篇
  • Graph Cuts 10篇
  • python 38篇
  • 计算机视觉 47篇
  • 面试题 14篇
  • 生活感悟 35篇
  • 程序人生 52篇

最新评论

  • 《自然语言处理实战入门》 ---- 【Generative AI重制版】总目录

    CSDN-Ada助手: 哇, 你的文章质量真不错,值得学习!不过这么高质量的文章, 还值得进一步提升, 以下的改进点你可以参考下: (1)提升标题与正文的相关性。

  • 基于Django channels 与 YOLO v8 搭建 <实时跟踪与统计系统>

    shiter: QQ交流群2:697581976 QQ群提供技术交流

  • 基于Django channels 与 YOLO v8 搭建 <实时跟踪与统计系统>

    Michael_J_Scofield: 您好,已订阅专栏,可以分享一下源码吗?

  • 均值与期望:傻傻分不清?

    RIVEN_LUO: 期望这个词就不会用在某个样本的统计量上,因为没有什么好期望的,都可以直接算出来。只有用样本推断总体时,期望这个词才有意义。这也就是楼主想说的“期望属于概率论的范畴”,概率论讲的都是“推断”。而均值这个词的前提就是有一个“集合”。比如样本空间就是这样的集合,如果没有这个集合对象,哪来的均值?举个例子,知道某事件发生的概率(比如从盒子里抽奖金问题),我们绝对不会讲“抽5次,奖金的均值是多少”,而会说“奖金的期望值是多少”。

  • yolov8 做图片分类和 ResNet Efficientnet 等常用分类网络的对比

    shiter: 只能说各有千秋吧

大家在看

  • 最短路径★★★
  • 基于SpringBoot+Vue“川味游”app系统设计和实现(源码+LW+部署讲解)
  • 基于SpringBoot+Vue“花开富贵”花园管理系统设计和实现(源码+LW+部署讲解)
  • 学习导航:100天精通Python知识点预览,带你快速入门到黑科技! 682
  • 2024大交通场景空间策展洞察报告

最新文章

  • windows 下 基于 WSL2安装DeepSpares进行YOLOV8 v5 的加速推理
  • 《书生·浦语大模型实战营》第4课 学习笔记:XTuner 微调 LLM:1.8B、多模态、Agent
  • Windows 搭建C++ 纯开源开发环境 进行 YOLOv8 模型推理的开发测试环境
2024年21篇
2023年86篇
2022年88篇
2021年166篇
2020年70篇
2019年53篇
2018年25篇
2017年56篇
2016年72篇
2015年93篇
2014年82篇
2013年18篇
2012年19篇

目录

目录

评论 2
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43元 前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

shiter

你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或 充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值

聚圣源建筑劳务有限起名公司免费起名字检测分数老婆爱上我女孩乳名起名张刘两姓在一起怎么取名四字名翼字起名有什么意义bd高清电影梦见失火黑龙江文艺频道香蕉蛋糕加盟甘姓起名字女孩名字好听姓牛男起名字起名字大全女孩打分测名字动漫美女被褥暗黑2hackmap计算机病毒的特征品牌起名宝宝取名起名大全姓罗百度游戏三国杀五行水多起名字古代名字桓起名机械租赁公司起名地坪公司起什么名字好关于说和做的熟语罗永浩今年目标收入至少100亿火偏旁的字有哪些起名女孩2020年起女孩名字高性价比麻袋理财淀粉肠小王子日销售额涨超10倍罗斯否认插足凯特王妃婚姻让美丽中国“从细节出发”清明节放假3天调休1天男孩疑遭霸凌 家长讨说法被踢出群国产伟哥去年销售近13亿网友建议重庆地铁不准乘客携带菜筐雅江山火三名扑火人员牺牲系谣言代拍被何赛飞拿着魔杖追着打月嫂回应掌掴婴儿是在赶虫子山西高速一大巴发生事故 已致13死高中生被打伤下体休学 邯郸通报李梦为奥运任务婉拒WNBA邀请19岁小伙救下5人后溺亡 多方发声王树国3次鞠躬告别西交大师生单亲妈妈陷入热恋 14岁儿子报警315晚会后胖东来又人满为患了倪萍分享减重40斤方法王楚钦登顶三项第一今日春分两大学生合买彩票中奖一人不认账张家界的山上“长”满了韩国人?周杰伦一审败诉网易房客欠租失踪 房东直发愁男子持台球杆殴打2名女店员被抓男子被猫抓伤后确诊“猫抓病”“重生之我在北大当嫡校长”槽头肉企业被曝光前生意红火男孩8年未见母亲被告知被遗忘恒大被罚41.75亿到底怎么缴网友洛杉矶偶遇贾玲杨倩无缘巴黎奥运张立群任西安交通大学校长黑马情侣提车了西双版纳热带植物园回应蜉蝣大爆发妈妈回应孩子在校撞护栏坠楼考生莫言也上北大硕士复试名单了韩国首次吊销离岗医生执照奥巴马现身唐宁街 黑色着装引猜测沈阳一轿车冲入人行道致3死2伤阿根廷将发行1万与2万面值的纸币外国人感慨凌晨的中国很安全男子被流浪猫绊倒 投喂者赔24万手机成瘾是影响睡眠质量重要因素春分“立蛋”成功率更高?胖东来员工每周单休无小长假“开封王婆”爆火:促成四五十对专家建议不必谈骨泥色变浙江一高校内汽车冲撞行人 多人受伤许家印被限制高消费

聚圣源 XML地图 TXT地图 虚拟主机 SEO 网站制作 网站优化