一种基于文本的关键人名的提取方法及系统与流程

文档序号:12063644阅读:752来源:国知局
导航: X技术> 最新专利> 计算;推算;计数设备的制造及其应用技术
一种基于文本的关键人名的提取方法及系统与流程

本发明属于信息抽取技术领域,特别是涉及一种基于文本的关键人名的提取方法及系统。



背景技术:

随着WEB2.0技术的快速发展,普通用户已经成为互联网上内容的主要生产者,UGC(User Generated Content)具有反应及时,传播快的特点,作为UGC的典型代表,微博平台凭借进入门槛低、数据量大、分享自由及时,形式多元化等优势,已成为重要的事件来源和网络舆论场所,每天生成大量的微博消息。基于微博平台进行事件分析的相关条件已经具备,而人物作为事件的重要主体,其提取的准确和全面与否在很大程度上影响了事件分析的准确性和全面性,本发明基于微博平台,提出一种事件关键人物的提取技术,相关背景技术如下:

人民搜索网络股份公司的易卉芹发明了一种微博用户挖掘方法及装置(201310321021.9),该方法通过按照预设规则从微博网页爬取用户数据,将未挖掘的用户或下级用户作为未处理用户进行挖掘。一方面降低了挖掘结果对种子用户选取的依赖性,另一方面可提高用户覆盖面。

湖南识微科技有限公司的李景泽发明了一种挖掘目标微博用户的方法(201510047759.x),通过利用微博用户构建社交网络,以种子用户、密友、好友和普通朋友形成种子用户社交圈并进行挖掘,其发明速度快、挖掘目标微博用户的社交圈效率高,可满足实时分析的需求。

经过调研,现有技术主要集中在针对微博用户及社交圈的抓取,不能有效考虑用户及人物在事件中的角色和作用,故不能实现本发明的提取事件中关键人物的目标。



技术实现要素:

本发明解决的技术问题在于,准确的提取文本中的关键人名,降低歧义对人名提取的干扰。

更进一步的,本发明用于获取由微博组成事件中的关键人物,包括重要传播用户、事件发展节点用户、公众指向用户、事件的源头用户。

为了解决上述问题,本发明公开了一种基于文本的关键人名的提取方法,该方法包括:

步骤1,对目标文本执行一分词操作,提取出其中词性为人名的目标词语;

步骤2,统计每个目标词语在该目标文本中的出现频率,根据该出现频率设置该目标词语的权重;

步骤3,根据一歧义人名先验概率辞典所记载的该目标词语作为人名的出现概率,调整该目标词语的权重;

步骤4,选取权重大的目标词语作为关键人名。

该步骤1之前还包括:

对多个采样文本分别执行分词操作,对每个分词进行词性标注,提取出其中词性存在歧义的歧义词语;

统计该歧义词语在该多个采样文本中的总出现次数以及被最终标注为人名的次数;

根据该被标注为人名的次数以及该总出现次数,设定该歧义词语的该出现概率;

利用该歧义词语以及该出现概率生成该歧义人名先验概率辞典。

该出现概率为该被标注为人名的次数除以该总出现次数。

该步骤4进一步包括:

对该权重进行由大到小的排序,选取超过一阈值且排名在前K个的权重所对应的目标词语作为该关键人名,K为正整数。

该目标文本或该采样文本为微博消息。

该目标文本包括多个微博消息wi,该步骤1之前或该步骤4之后还包括:

统计微博消息wi的转发量For(wi)和评论量Com(wi),统计发出该微博消息wi的用户ui的订阅者数量Fan(ui),该微博消息的传播热度hot(wi)为:

将发出较高传播热度的微博消息的用户作为重要传播用户。

该目标文本包括多个微博消息,该步骤1之前或该步骤4之后还包括:

统计每个微博消息wi的转发量For(wi)和评论量Com(wi),计算每个微博消息wi的热度Hot’(wi),Hot’(wi)=For(wi)+Com(wi);

对该多个微博消息wi进行聚类:

将发出每个类中热度最高的微博消息的用户作为该类中的事件发展节点用户。

该目标文本包括多个微博消息wi,该步骤1之前或该步骤4之后还包括:

提取该多个微博消息wi中@功能所指向的用户,统计每个用户被@的次数,将最高次数所对应的用户作为公众指向用户。

该目标文本包括多个微博消息wi,该步骤1之前或该步骤4之后还包括:

提取每个微博消息wi的时间戳,统计每个微博消息wi的转发量For(wi)和评论量Com(wi),将多个相同的微博消息中时间戳最早且转发量For(wi)和评论量Com(wi)均达到预设阈值的微博消息的发出用户作为事件的源头用户。

为解决上述问题,本发明还公开了一种基于文本的关键人名的提取系统,包括:

分词单元,用于对目标文本执行一分词操作,提取出其中词性为人名的目标词语;

权重统计单元,用于统计每个目标词语在该目标文本中的出现频率,根据该出现频率设置该目标词语的权重;

权重调整单元,用于根据一歧义人名先验概率辞典所记载的该目标词语作为人名的出现概率,调整该目标词语的权重;

关键人名选取单元,选取权重大的目标词语作为关键人名。

通过本发明的上述方法,可实现与特定事件相关的人物提取,特别是实现了文本中的关键人名提取,以及重要传播用户、事件发展节点用户、公众指向用户、信息源头用户的提取,且能够提高人物提取的准确性和有效性。

附图说明

图1为本发明的一种基于文本的关键人名的提取方法的流程图。

图2为本发明的一种基于文本的关键人名的提取方法的流程图。

具体实施方式

以下结合实施例,具体介绍本发明的技术方案。

在微博平台中,对于一个事件将出现大量的微博消息,本发明用于从这些微博消息中提取该事件中出现的关键人物的人名。当然,本发明也可针对其他文本,实现从中提取关键人物的人名的技术目的。

通常来说,一个事件中频繁出现的人名很有可能就是事件的主人公。将每个人名在整个事件所涉及的微博中出现的次数作为其权重,一个人名出现次数越多,他是事件主人公的可能性越大。

图1、图2为本发明的一种基于文本的关键人名的提取方法的流程图。该方法包括:

步骤1,对目标文本执行一分词操作,提取出其中词性为人名的目标词语。

将多条微博消息作为该目标文本,执行本发明所述方法,该多条微博消息可以是针对同一事件。

在文本分析领域,目前已经具有成熟的分词工具,该分词工具可在分词的同时对词性进行标注,本发明利用该分词工具对该微博消息进行分词和词性标注,提取出其中词性为人名的词语作为目标词语。

步骤2,统计每个目标词语在该目标文本中的出现频率,根据该出现频率设置该目标词语的权重。

步骤3,根据一歧义人名先验概率辞典所记载的该目标词语作为人名的出现概率,调整该目标词语的权重。

设置该步骤3的意义在于,词性标注常遇到的一个问题是歧义词的处理,比如“博文”一词,既可以作为一个人名出现,也可以作为名词表达微博的文字的意思。尽管分词工具本身提供根据上下文判断歧义词词性的功能,但在实际使用中发现,对于微博消息这样格式松散的短文本,单纯依赖分词工具进行歧义词的处理不能满足需求。因此,在步骤1之前,需预先利用分词工具对大规模的采样文本进行分词和词性标注处理,生成该歧义人名先验概率辞典。该采样文本可为大量的微博语料。则在步骤3中,可根据歧义人名先验概率辞典对该目标词语进行调整,以降低歧义对人名提取的干扰。

当然,如果目标词语记载在该歧义人名先验概率辞典中,可据以执行步骤 3,如果目标词语未记载在该歧义人名先验概率辞典中,可跳过步骤3直接执行步骤4。

步骤4,选取权重大的目标词语作为关键人名。

该步骤1之前还包括如下步骤以生成该歧义人名先验概率辞典:

步骤101,对多个采样文本分别执行分词操作,对每个分词进行词性标注,提取出其中词性存在歧义的歧义词语。

在词性标注时,分词工具将直接给出当前分词的所有词性,仍以“博文”为例,当分词工具将“博文”既标注出人名的词性,又标注出名词的属性时,则“博文”将被视为歧义词语。

步骤102,统计该歧义词语在该多个采样文本中的总出现次数以及被最终标注为人名的次数。

该多个采样文本被预先进行了词性复核,则所有的歧义词语在其所在的文本中都被复核为某一特定的词性,以符合该采用文本的语境。则“博文”可能在采样文本A中被判定为人名,在采样文本B中被判定为名词。此时,统计该歧义词语在该多个采样文本中的总出现次数以及被最终标注为人名的次数。

步骤103,根据该被标注为人名的次数以及该总出现次数,设定该歧义词语的该出现概率。

具体来说,该出现概率为该被标注为人名的次数除以该总出现次数。

步骤104,利用该歧义词语以及该出现概率生成该歧义人名先验概率辞典。

该歧义人名先验概率辞典中包括多条数据,每条数据包括一歧义词语以及与之对应的出现概率。该出现概率决定了该歧义词语有多大概率来代表一人名。则在步骤3中,根据该出现概率调整该目标词语的权重,可进一步提高识别为人名的准确率,提高本发明的基于文本的关键人名的提取方法的有效程度。

在步骤4中,本发明对该权重进行由大到小的排序,选取超过一阈值且排名在前K个的权重所对应的目标词语作为该关键人名,K为正整数。

既,被选择为关键人名的目标词语,其权重既要高于一阈值,达到一硬性标准,又必须在所有目标词语的权重排序中,排名靠前,则经过上述方法获得 的关键人名,其作为人名且作用事件中的关键人物的准确性能够得到保证。

除上述技术方案之外,本发明还用于对关键微博用户进行提取。根据微博平台的特点,将关键微博用户分为三类:重要传播用户、事件发展节点用户、公众指向用户,下面分别介绍对三类用户的获取技术。

1.重要传播用户

微博作为社交媒体,不仅有信息的分享,还有转发、评论等社交行为。本发明把一条微博消息的转发量和评论量求和作为该微博消息的热度。在一事件中,热度比较大的微博消息自然对事件的传播起了重要作用。但是微博消息的热度比较容易受到微博作者本身的名人效应的影响。当一个微博用户拥有大量粉丝,则他的微博很容易引起大量转发和评论,则可能掩盖该微博消息自身的传播效应。本发明使用如下公式作为微博消息的传播热度,获取传播热度较高微博消息对应的作者作为重要传播用户,从而减少名人效应,更注重由微博内容带来的传播效应。

具体来说,该步骤1之前或该步骤4之后还包括:

步骤20,统计微博消息wi的转发量For(wi)和评论量Com(wi),统计发出该微博消息wi的用户ui的订阅者数量Fan(ui),该微博消息的传播热度hot(wi)为:

将发出较高传播热度的微博消息的用户作为重要传播用户。

2.事件发展节点用户

很多事件发展是多阶段的,随着参与用户的不断增多,很多新的信息被提供和发现,用户对事件的观点、情感都有可能发生新的变化,从不同的事件发展阶段中获取每个阶段的重要用户或者意见领袖,对分析事件的发展和变化有重要意义。本发明用于提取在事件发展的每个阶段,推动事件发展的事件发展节点用户。

具体来说,该步骤1之前或该步骤4之后还包括:

步骤30,统计每个微博消息wi的转发量For(wi)和评论量Com(wi),计算每个微博消息wi的热度Hot’(wi),Hot’(wi)=For(wi)+Com(wi);

对该多个微博消息wi进行聚类:

将发出每个类中热度最高的微博消息的用户作为该类中的事件发展节点用户。

本发明的该聚类算法采用的是Single-pass聚类算法,按照一定的顺序读取待处理的每篇目标文本(微博消息)进行聚类。该算法适合对具有时间顺序的多个微博文本进行聚类,即,按照时间先后顺序对事件涉及的微博消息进行聚类,并将每个类看作事件发展的一个阶段或一个观点,在每个类中选取热度最高的微博对应的用户作为当前事件发展节点的用户代表,即事件发展节点用户。

3.公众指向用户

微博用户在分享信息时使用@功能通知某个特定的微博用户,表达告知或与其互动的意愿。公众指向用户指的是该被集中@的特定的微博用户。

在一个事件涉及微博中,如果一个用户频繁被多数人@,则可以认为该用户与当前事件有一定关系,本发明通过文本处理,提取被@频率高的用户,作为公众指向用户。

具体来说,在该步骤1之前或该步骤4之后还包括:

步骤40,提取该多个微博消息wi中@功能所指向的用户,统计每个用户被@的次数,将最高次数所对应的用户作为公众指向用户。

除以上用户外,还有一类用户在事件发展过程中扮演了重要的角色,那就是信息源头用户。信息源头用户是指最早在微博平台发布事件相关信息,并有效地引起其他用户关注的用户。

为了提取该信息源头用户,具体来说,该步骤1之前或该步骤4之后还包括:

步骤50,提取每个微博消息wi的时间戳,统计每个微博消息wi的转发量For(wi)和评论量Com(wi),将多个相同的微博消息中时间戳最早且转发量For(wi)和评论量Com(wi)均达到预设阈值的微博消息的发出用户作为事件的源头用户。

可见,本发明基于微博消息发布的时间戳,可以方便的找到发布时间较早 的微博消息,同时本发明基于设置微博转发量和评论量阈值,过滤掉其微博内容转发量/评论量过少,未能引起其他用户关注的用户,将最后得到微博用户作为事件的信息源头用户。

本发明的上述方案可执行于服务器中,服务器基于输入的目标文本以及采样文本,执行上述的所有步骤。

上述步骤20、30、40、50各自独立,可以任意的先后顺序执行,或者,仅执行其中的一个或多个步骤。

通过本发明的上述方法,可实现与特定事件相关的人物提取,特别是实现了文本中的关键人名提取,以及重要传播用户、事件发展节点用户、公众指向用户、信息源头用户的提取,且能够提高人物提取的准确性和有效性。

完整全部详细技术资料下载
当前第1页 1  2  3 
相关技术
  • 一种批量设置标题格式的方法及...
  • 一种考勤报表处理方法及装置与...
  • 注释脚标识别方法、装置及电子...
  • 一种网页页面中的报表展示方法...
  • 数据格式转换方法及装置与流程
  • 数据结构的提示方法及装置与流...
  • 一种文本处理方法及装置与流程
  • 字符排版方法、系统和装置与流...
  • 业务功能模块正确性的确定方法...
  • 一种基于传感器检测的铁塔问题...
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1
文本关键词提取方法相关技术
  • 文本信息提取方法及装置与流程
  • 一种基于文本的关键人名的提取方法及系统与流程
  • 一种基于Spark的海量文本关键词快速提取方法与流程
  • 文本标签的提取方法和装置与流程
  • 一种基于图模型的关键词提取方法及装置与流程
  • 一种基于关键词提取热点话题的方法与流程
  • 一种基于图模型的关键词提取方法及装置与流程
  • 一种基于语义的特定任务文本关键词提取方法与流程
  • 关键词提取方法及装置与制造工艺
  • 一种基于深度学习的文本关键词提取方法
python文本关键词提取相关技术
  • 基于多义性关键词的文本过滤方法及装置制造方法
  • 从文本中抽取关键词的方法和装置制造方法
  • 一种单篇文本关键词的提取方法
  • 一种文本的候选关键词的提取方法
  • 一种海量文本数据关键词的快速查找方法
  • 基于关键词的文本的标签提取方法及装置的制作方法
文本关键词提取工具相关技术
  • 从文本中抽取关键词的方法和装置制造方法
  • 一种单篇文本关键词的提取方法
  • 一种文本的候选关键词的提取方法
  • 一种海量文本数据关键词的快速查找方法
  • 基于关键词的文本的标签提取方法及装置的制作方法
文本关键词提取相关技术
  • 一种网络未知应用的关键词提取方法
  • 一种基于b2b平台的核心关键词自动提取方法
  • 自然语言文本关键词关联网络构建系统的制作方法
  • 一种自然语言文本关键词关联网络构建方法
  • 基于非监督关键二元词串提取的微博文本自5力摘要方法
  • 一种面向微博文本流的突发关键词检测方法
  • 文本关键词的提取方法
  • 具有文本提取功能的主机设备及其提取方法
  • 搜索文本中关键词的系统及其方法
  • 一种基于关键词替换的文本密写方法
文本关键字提取工具相关技术
  • 一种从手机广告内容中自动提取关键字的方法
  • 一种地理信息领域的关键字提取的方法及装置的制作方法
文本关键词提取算法相关技术
  • 一种单篇文本关键词的提取方法
  • 关键词提取算法的多维空间评价方法
  • 一种文本的候选关键词的提取方法
  • 一种海量文本数据关键词的快速查找方法
  • 基于关键词的文本的标签提取方法及装置的制作方法
文本关键字提取相关技术
  • 一种从手机广告内容中自动提取关键字的方法
  • 一种地理信息领域的关键字提取的方法及装置的制作方法

聚圣源设计公司起名大全最新君臣斗八字起名测试打分向放扬的心心长春搜房网新房星座与生肖绝爱动漫等比数列求和公式推导八字起名100分免费关于人与人之间互相关爱的作文顶楼韩剧第13集在线观看爆肚店起名起名字 学校5e影院小女孩起什么英文名好qq开心网名烧烤店起名字好记好听史玉柱属马的宝宝起名宜字电视剧乡村爱情13部全集在线观看广州社保中心奢怎么读软件工作室起名武商摩尔国际电影城婴儿起名大全龙宝宝百比起名网h2k软装设计公司起名粉丝起名车牌号码吉凶淀粉肠小王子日销售额涨超10倍罗斯否认插足凯特王妃婚姻让美丽中国“从细节出发”清明节放假3天调休1天男孩疑遭霸凌 家长讨说法被踢出群国产伟哥去年销售近13亿网友建议重庆地铁不准乘客携带菜筐雅江山火三名扑火人员牺牲系谣言代拍被何赛飞拿着魔杖追着打月嫂回应掌掴婴儿是在赶虫子山西高速一大巴发生事故 已致13死高中生被打伤下体休学 邯郸通报李梦为奥运任务婉拒WNBA邀请19岁小伙救下5人后溺亡 多方发声王树国3次鞠躬告别西交大师生单亲妈妈陷入热恋 14岁儿子报警315晚会后胖东来又人满为患了倪萍分享减重40斤方法王楚钦登顶三项第一今日春分两大学生合买彩票中奖一人不认账张家界的山上“长”满了韩国人?周杰伦一审败诉网易房客欠租失踪 房东直发愁男子持台球杆殴打2名女店员被抓男子被猫抓伤后确诊“猫抓病”“重生之我在北大当嫡校长”槽头肉企业被曝光前生意红火男孩8年未见母亲被告知被遗忘恒大被罚41.75亿到底怎么缴网友洛杉矶偶遇贾玲杨倩无缘巴黎奥运张立群任西安交通大学校长黑马情侣提车了西双版纳热带植物园回应蜉蝣大爆发妈妈回应孩子在校撞护栏坠楼考生莫言也上北大硕士复试名单了韩国首次吊销离岗医生执照奥巴马现身唐宁街 黑色着装引猜测沈阳一轿车冲入人行道致3死2伤阿根廷将发行1万与2万面值的纸币外国人感慨凌晨的中国很安全男子被流浪猫绊倒 投喂者赔24万手机成瘾是影响睡眠质量重要因素春分“立蛋”成功率更高?胖东来员工每周单休无小长假“开封王婆”爆火:促成四五十对专家建议不必谈骨泥色变浙江一高校内汽车冲撞行人 多人受伤许家印被限制高消费

聚圣源 XML地图 TXT地图 虚拟主机 SEO 网站制作 网站优化