一文看懂自然语言处理-NLP(4个典型应用+5个难点+6个实现步骤)

推荐下我自己建的人工智能Python学习群:[809160367],群里都是学Python的,如果你想学或者正在学习Python ,欢迎你加入,大家都是软件开发党,不定期分享干货,还有免费直播课程领取。包括我自己整理的一份2021最新的Python进阶资料和零基础教学,欢迎进阶中和对Python感兴趣的小伙伴加入!还可以扫码加VX领取资料哦!   

下面是正文 

网络上有海量的文本信息,想要处理这些非结构化的数据就需要利用 NLP 技术。

本文将介绍 NLP 的基本概念,2大任务,4个典型应用和6个实践步骤。

NLP 为什么重要?

“语言理解是人工智能领域皇冠上的明珠”

比尔·盖茨

在人工智能出现之前,机器智能处理结构化的数据(例如 Excel 里的数据)。但是网络中大部分的数据都是非结构化的,例如:文章、图片、音频、视频…

在非结构数据中,文本的数量是最多的,他虽然没有图片和视频占用的空间大,但是他的信息量是最大的。

为了能够分析和利用这些文本信息,我们就需要利用 NLP 技术,让机器理解这些文本信息,并加以利用。

什么是自然语言处理 – NLP

每种动物都有自己的语言,机器也是!

自然语言处理(NLP)就是在机器语言和人类语言之间沟通的桥梁,以实现人机交流的目的。

人类通过语言来交流,狗通过汪汪叫来交流。机器也有自己的交流方式,那就是数字信息。

不同的语言之间是无法沟通的,比如说人类就无法听懂狗叫,甚至不同语言的人类之间都无法直接交流,需要翻译才能交流。

而计算机更是如此,为了让计算机之间互相交流,人们让所有计算机都遵守一些规则,计算机的这些规则就是计算机之间的语言。

既然不同人类语言之间可以有翻译,那么人类和机器之间是否可以通过“翻译”的方式来直接交流呢?

NLP 就是人类和机器之间沟通的桥梁!

为什么是“自然语言”处理?

自然语言就是大家平时在生活中常用的表达方式,大家平时说的「讲人话」就是这个意思。

自然语言:我背有点驼(非自然语言:我的背部呈弯曲状)

自然语言:宝宝的经纪人睡了宝宝的宝宝(微博上这种段子一大把)

NLP 的2大核心任务

NLP 有2个核心的任务:

  1. 自然语言理解 – NLU | NLI
  2. 自然语言生成 – NLG

自然语言理解 – NLU|NLI

自然语言理解就是希望机器像人一样,具备正常人的语言理解能力,由于自然语言在理解上有很多难点(下面详细说明),所以 NLU 是至今还远不如人类的表现。

自然语言理解的5个难点:

  1. 语言的多样性
  2. 语言的歧义性
  3. 语言的鲁棒性
  4. 语言的知识依赖
  5. 语言的上下文

想要深入了解NLU,可以看看这篇文章《一文看懂自然语言理解-NLU(基本概念+实际应用+3种实现方式)》

自然语言生成 – NLG

NLG 是为了跨越人类和机器之间的沟通鸿沟,将非语言格式的数据转换成人类可以理解的语言格式,如文章、报告等。

NLG 的6个步骤:

  1. 内容确定 – Content Determination
  2. 文本结构 – Text Structuring
  3. 句子聚合 – Sentence Aggregation
  4. 语法化 – Lexicalisation
  5. 参考表达式生成 – Referring Expression Generation|REG
  6. 语言实现 – Linguistic Realisation

想要深入了解NLG,可以看看这篇文章《 一文看懂自然语言生成 - NLG(6个实现步骤+3个典型应用)》

NLP 的5个难点 

  1. 语言是没有规律的,或者说规律是错综复杂的。
  2. 语言是可以自由组合的,可以组合复杂的语言表达。
  3. 语言是一个开放集合,我们可以任意的发明创造一些新的表达方式。
  4. 语言需要联系到实践知识,有一定的知识依赖。
  5. 语言的使用要基于环境和上下文。

NLP 的4个典型应用

情感分析

互联网上有大量的文本信息,这些信息想要表达的内容是五花八门的,但是他们抒发的情感是一致的:正面/积极的 – 负面/消极的。

通过情感分析,可以快速了解用户的舆情情况。

聊天机器人

过去只有 Siri、小冰这些机器人,大家使用的动力并不强,只是当做一个娱乐的方式。但是最近几年智能音箱的快速发展让大家感受到了聊天机器人的价值。

而且未来随着智能家居,智能汽车的发展,聊天机器人会有更大的使用价值。

语音识别

语音识别已经成为了全民级的引用,微信里可以语音转文字,汽车中使用导航可以直接说目的地,老年人使用输入法也可以直接语音而不用学习拼音…

机器翻译

目前的机器翻译准确率已经很高了,大家使用 Google 翻译完全可以看懂文章的大意。传统的人肉翻译未来很可能会失业。

NLP 的 2 种途径、3 个核心步骤

NLP 可以使用传统的机器学习方法来处理,也可以使用深度学习的方法来处理。2 种不同的途径也对应着不同的处理步骤。详情如下:

方式 1:传统机器学习的 NLP 流程

  1. 语料预处理
  2. 中文语料预处理 4 个步骤(下文详解)
  3. 英文语料预处理的 6 个步骤(下文详解)
  4. 特征工程
  5. 特征提取
  6. 特征选择
  7. 选择分类器

方式 2:深度学习的 NLP 流程

  1. 语料预处理
  2. 中文语料预处理 4 个步骤(下文详解)
  3. 英文语料预处理的 6 个步骤(下文详解)
  4. 设计模型
  5. 模型训练

英文 NLP 语料预处理的 6 个步骤

  1. 分词 – Tokenization
  2. 词干提取 – Stemming
  3. 词形还原 – Lemmatization
  4. 词性标注 – Parts of Speech
  5. 命名实体识别 – NER
  6. 分块 – Chunking

中文 NLP 语料预处理的 4 个步骤

  1. 中文分词 – Chinese Word Segmentation
  2. 词性标注 – Parts of Speech
  3. 命名实体识别 – NER
  4. 去除停用词

总结

自然语言处理(NLP)就是在机器语言和人类语言之间沟通的桥梁,以实现人机交流的目的。

NLP的2个核心任务:

  1. 自然语言理解 – NLU
  2. 自然语言生成 – NLG

NLP 的5个难点:

  1. 语言是没有规律的,或者说规律是错综复杂的。
  2. 语言是可以自由组合的,可以组合复杂的语言表达。
  3. 语言是一个开放集合,我们可以任意的发明创造一些新的表达方式。
  4. 语言需要联系到实践知识,有一定的知识依赖。
  5. 语言的使用要基于环境和上下文。

NLP 的4个典型应用:

  1. 情感分析
  2. 聊天机器人
  3. 语音识别
  4. 机器翻译

NLP 的6个实现步骤:

  1. 分词-tokenization
  2. 次干提取-stemming
  3. 词形还原-lemmatization
  4. 词性标注-pos tags
  5. 命名实体识别-ner
  6. 分块-chunking

推荐下我自己建的人工智能Python学习群:[809160367],群里都是学Python的,如果你想学或者正在学习Python ,欢迎你加入,大家都是软件开发党,不定期分享干货,还有免费直播课程领取。包括我自己整理的一份2021最新的Python进阶资料和零基础教学,欢迎进阶中和对Python感兴趣的小伙伴加入!还可以扫码加VX领取资料哦!   

 

计算机视觉农民工
关注 关注
  • 3
    点赞
  • 37
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
AI大语言模型的训练与优化
禅与计算机程序设计艺术
02-28 473
1. 背景介绍 1.1 人工智能的崛起 随着计算机技术的飞速发展,人工智能(AI)已经成为了当今科技领域的热门话题。从自动驾驶汽车到智能家居,AI技术正在逐渐渗透到我们的日常生活中。在这个过程中,自然语言处理(NLP)作为AI的一个重要分支,也得到了广泛的关注。
任务1:NLP项目基本流程
qq_38968954的博客
12-28 551
在一般的nlp项目中,我们基本需要根据以下几个步骤来搭建一个系统,称之为Pipeline: 本数据的来源:我们可以爬取网页本,可以从新闻,报告,章等多方面获取; 分词:可分为中分词和英分词,英分词较中分词简单,可以利用空格等就可以将单词与单词分开; 在分好词之后,我们还需要进行一些本清洗: 去掉一些无用的标签,比如在爬取网页中的**, **等; 去点特殊符号: 如!, …, ? 等标点符号以及数字等; 停用词过滤,a, an, the等词对于句子的理解用词不大,而他们出现的频
自然语言处理概述及流程
艰难困苦,玉汝于成。
11-18 2915
目录前言一、自然语言处理的几个维度二、调包工程师需要掌握的一些技能2-1、理解算法复杂度总结 前言 准备走上自然语言处理调包工程师的路,所以有必要对整体的架构有一些清楚的认知。 一、自然语言处理的几个维度 声音(Phonetics) 这里和自然语言处理调包工程师关系不大。 单词(Morphology) 1、分词 2、词性标注POS 3、命名实体识别NER:抽取句子中一些我们比较关心的词。 句子结构(Syntax) 1、句法分析 2、依存分析(判断词之间有什么关系) 3、关系抽取(Relation Ext
手把手教你看自然语言处理-NLP(4个典型应用+5个难点+6个实现步骤
Java_rich的博客
11-08 4425
导读:自然语言处理(NLP)是计算机科学,人工智能,语言学关注计算机和人类(自然)语言之间的相互作用的领域。因此,自然语言处理是与人机交互的领域有关的。在自然语言处理面临很多挑战,包括自然语言理解,因此,自然语言处理涉及人机交互的面积。在NLP诸多挑战涉及自然语言理解,即计算机源于人为或自然语言输入的意思,和其他涉及到自然语言生成。 这是小编的其他章,希望对大家有所帮助,点击即可阅读 人工智能常用的十大算法 人工智能数学基础(一) 人工智能数学基础(二) 人工智能数学基础(三)...
自然语言处理(nlp)的流程图
计算机视觉
03-06 7624
1. 读取原始数据 html = urlopen(url).read() 2. 数据清洗 raw = nltk.clean_html(html) 3. 数据切片 raw = raw[111:2222222] 4. 数据分词 tokens = nltk.wordpunct_tokenize(raw) 5. 分词切片 tokens = tokens[2
一张图看自然语言处理技术框架
数据饕餮
05-17 1万+
一张图看自然语言处理技术框架 一、前 正在针对《人工智能产品经理最佳实践》视频课程第三部分,关键技术篇,进行相关的内容重构,今天整理的部分是自然语言处理技术框架,特地绘制了一张自然语言处理的技术框架图,在此分享给大家。 二、正 三、未完待续 个人梳理,未尽之处,欢迎指正。QQ技术交流群:149933712...
本科毕业设计-自然语言处理+NLP+中本分类实战-垃圾短信识别
06-24
本科毕业设计——自然语言处理+NLP+中本分类实战——垃圾短信识别本科毕业设计——自然语言处理+NLP+中本分类实战——垃圾短信识别本科毕业设计——自然语言处理+NLP+中本分类实战——垃圾短信识别本科...
西交-自然语言处理-nlp四次作业(代码+报告).zip
10-02
件中包含:(代码+分析) 1.最小编辑距离 2.本分类 3.本聚类 4.本对齐
自然语言处理-6个写词人的打标数据
05-02
6个写词人['林夕', '方山', '黄霑', '罗大佑', '李宗盛', '黄伟']的歌词打标数据,用于歌词风格分类
NLP期末大作业-深度学习与自然语言处理+源代码+档说明+实验报告
最新发布
12-23
1、资源内容:NLP期末大作业-深度学习与自然语言处理+源代码+档说明 2、代码特点:内含运行结果,不会运行可私信,参数化编程、参数可方便更改、代码编程思路清晰、注释明细,都经过测试运行成功,功能ok的情况下...
NLP大作业-自然语言处理大作业:新闻情感极性分类+源代码+档说明
12-23
1、资源内容:NLP大作业-自然语言处理大作业:新闻情感极性分类+源代码+档说明 2、代码特点:内含运行结果,不会运行可私信,参数化编程、参数可方便更改、代码编程思路清晰、注释明细,都经过测试运行成功,功能...
NLP的介绍和如何利用机器学习进行NLP以及三种NLP技术的详细介绍
郝伟老师的博客——大数据、并行计算与人工智能时代
05-16 1722
用简洁易的语言,讲述了自然语言处理(NLP)的前世今生。从什么是NLP到为什么要学习NLP,再到如何利用机器学习进行NLP,值得一读。这是该系列的第一部分,介绍了三种NLP技术:本嵌入、机器翻译、Dialogue 和 Conversations。
NLP实战 项目流程
想吃煎饼果子
03-24 791
章目录项目项目忠告数据标注算法开发效果优化算法部署硬件问题CPUGPUAI项目部署基本原则深度学习推断框架任务微服务 项目 项目忠告 数据标注 前期一定要制定充分的标注规则 数据的采集一定要具有代表性 非常不建议采用自动标注的方式 先训练一个初步模型,然后只让相关人员进行校对,可以保证标注效率并减少标注成本。 算法开发 千万不要采用规则的方式进行开发 初期就要引导客户使用和购买能够支持深度...
Pytorch学习之十九种损失函数
热门推荐
mingo_敏
01-01 6万+
损失函数通过torch.nn包实现, 1 基本用法 criterion = LossCriterion() #构造函数有自己的参数 loss = criterion(x, y) #调用标准时也有参数 2 损失函数 2-1 L1范数损失 L1Loss torch.nn.L1Loss(size_average=True) 2-2 均方误差损失 MSELoss torch.nn.MSELoss(siz...
自然语言处理(NLP)基础理解
周自信的技术博客
01-03 6699
人工智能的目标 - 推理 - 自动学习&调度 - 机器学习 - 自然语言处理 - 计算机视觉 - 机器人 - 通用智能 人工智能三大阶段 阶段 1——机器学习:智能系统使用一系列算法从经验中进行学习。 阶段 2——机器智能:机器使用的一系列从经验中进行学习的高级算法,例如深度神经网络。人工智能目前处于此阶段。 阶段 3——机器意识:不需要外部数据就
NLP之自然语言处理简述
miner_zhu的博客
09-15 1万+
什么是自然语言处理自然语言处理是研究在人与人交际中以及人与计算机交际中的语言问题的一门学科。自然语言处理要研制表示语言能力(linguistic competence)和语言应用(linguistic performance)的模型,建立计算框架来实现这样的语言模型,提出相应的方法来不断完善这样的语言模型,根据这样的语言模型设计各种实用系统,并探讨这些实用系统的评测技术。 根据这个定义,自...
NLP(四)词形还原(Lemmatization)
TFATS的博客
10-15 9155
    词形还原(Lemmatization)是本预处理中的重要部分,与词干提取(stemming)很相似。 一,什么是词形还原     简单说来,词形还原就是去掉单词的词缀,提取单词的主干部分,通常提取后的单词会是字典中的单词,不同于词干提取(stemming),提取后的单词不一定会出现在单词中。比如,单词“cars”词形还原后的单词为“car”,单词“ate”词形还原后的单词为“eat”。     在Python的nltk模块中,使用WordNet为我们提供了稳健的词形还原的函数。如以下示例Pyt.
自然语言理解概述
jesseyule的博客
03-17 7975
章的开头,我必须说明,自然语言理解的定义、理论在网上有太多不同的说法,我在这里给出的是我个人认为比较好理解、能梳理清楚各个子领域的一种概述,如果有哪里出错了麻烦指正。 所谓自然语言理解,就是希望机器能像人类一样,具备理解语言的能力,就像另一半说没有生气,到底是真的没有生气还是气到肺都炸了,这就需要很高的语言理解能力了。 具体来说,我觉得自然语言理解要解决两个问题,第一个是理解什么,第二个是机...
自然语言处理(4)之中本挖掘流程详解(小白入门必读)
机器学习算法与Python学习
12-23 1万+
微信公众号关键字全网搜索最新排名【机器学习算法】:排名第一【机器学习】:排名第一【Python】:排名第三【算法】:排名第四前言在对本做数据分析时,一大半的时间都会花在本预处理上,而中和英的预处理流程稍有不同,本对中本挖掘的预处理流程做一个总结。中本挖掘预处理特点首先看中本挖掘预处理与英本挖掘预处理的不同点。首先,中本是没有像英的单词空格那样隔开的,因此不能直接像英
自然语言处理中四个典型问题
05-22
自然语言处理中的四个典型问题是: 1. 词法分析(Lexical Analysis):将自然语言本中的单词(Token)分离出来,并且标注它们的词性和其他相关信息。 2. 句法分析(Syntactic Analysis):将自然语言本中的...

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
写文章

热门文章

  • Python爬虫入门教程!手把手教会你爬取网页数据 64868
  • python必背100源代码-python 100例 (持续更新) 62008
  • 【深度学习】踩坑日记:模型训练速度过慢,GPU利用率低 13304
  • 什么是人工智能?(深度好文,带你初步了解当下最火的AI)一定要看完! 12150
  • 超详细的OpenCV入门教程,12小时带你吃透OpenCV。 10743

分类专栏

  • 计算机视觉 2篇
  • 人工智能 22篇

最新评论

  • Python爬虫入门教程!手把手教会你爬取网页数据

    九江吴彦祖: 我也一样

  • Python爬虫入门教程!手把手教会你爬取网页数据

    九江吴彦祖: 成功了嘻嘻

  • python必背100源代码-python 100例 (持续更新)

    2401_83524114: 你好,很有缘刷到你的微博,但是二维码已经过期了能不能再发个联系方式,谢谢

  • Python爬虫入门教程!手把手教会你爬取网页数据

    Goya332: 爬取下来后一部分的图片无法显示点进去看是0字节是怎么回事啊?

  • Python爬虫入门教程!手把手教会你爬取网页数据

    Cheng_Yg: 没这么夸张吧,简单爬个网页数据而已

大家在看

  • TCP_RETRANSMISSION_TO_08:数据段的2*MSL RTO上限
  • [vue2]深入理解vuex 486
  • 基于springboot实现民族婚纱预定系统项目【项目源码+论文说明】计算机毕业设计
  • 人工智能和机器学习这两个概念有什么区别? 728
  • Python函数基础 46

最新文章

  • 超详细的OpenCV入门教程,12小时带你吃透OpenCV。
  • 学习计算机视觉,必备六大知识点!(文末有惊喜)
  • 如何在自定义数据集上训练YOLOv5
2022年2篇
2021年63篇

目录

目录

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43元 前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值

聚圣源楼盘起名字应用起名法制宣传内容龙凤胎起名有哪些wpa破解聊斋求道公司新年祝福语情深深雨蒙蒙全集日本对科特迪瓦翁文成芮字起名的忌讳长春搜房帮起名字大全起取名大全施姓男孩起名字大全易经起名免费打分dota6.81d起网名字镇魂百度云张姓猪年婴儿起名大全给小孩起名大全给电子商务公司起名字还珠格格第二部百度云姚姓男孩起名两个字耐磨转数武汉海尔工业园看女人全部脱了的视频中国起名第一人斗罗大陆比比东ps掉所有衣服为女孩起名免费婴儿起名小助手淀粉肠小王子日销售额涨超10倍罗斯否认插足凯特王妃婚姻让美丽中国“从细节出发”清明节放假3天调休1天男孩疑遭霸凌 家长讨说法被踢出群国产伟哥去年销售近13亿网友建议重庆地铁不准乘客携带菜筐雅江山火三名扑火人员牺牲系谣言代拍被何赛飞拿着魔杖追着打月嫂回应掌掴婴儿是在赶虫子山西高速一大巴发生事故 已致13死高中生被打伤下体休学 邯郸通报李梦为奥运任务婉拒WNBA邀请19岁小伙救下5人后溺亡 多方发声王树国3次鞠躬告别西交大师生单亲妈妈陷入热恋 14岁儿子报警315晚会后胖东来又人满为患了倪萍分享减重40斤方法王楚钦登顶三项第一今日春分两大学生合买彩票中奖一人不认账张家界的山上“长”满了韩国人?周杰伦一审败诉网易房客欠租失踪 房东直发愁男子持台球杆殴打2名女店员被抓男子被猫抓伤后确诊“猫抓病”“重生之我在北大当嫡校长”槽头肉企业被曝光前生意红火男孩8年未见母亲被告知被遗忘恒大被罚41.75亿到底怎么缴网友洛杉矶偶遇贾玲杨倩无缘巴黎奥运张立群任西安交通大学校长黑马情侣提车了西双版纳热带植物园回应蜉蝣大爆发妈妈回应孩子在校撞护栏坠楼考生莫言也上北大硕士复试名单了韩国首次吊销离岗医生执照奥巴马现身唐宁街 黑色着装引猜测沈阳一轿车冲入人行道致3死2伤阿根廷将发行1万与2万面值的纸币外国人感慨凌晨的中国很安全男子被流浪猫绊倒 投喂者赔24万手机成瘾是影响睡眠质量重要因素春分“立蛋”成功率更高?胖东来员工每周单休无小长假“开封王婆”爆火:促成四五十对专家建议不必谈骨泥色变浙江一高校内汽车冲撞行人 多人受伤许家印被限制高消费

聚圣源 XML地图 TXT地图 虚拟主机 SEO 网站制作 网站优化