一种基于Ranknet和Lambdamart算法的搜索排序方法与流程

文档序号:19218075发布日期:2019-11-26 01:52阅读:1491来源:国知局
导航: X技术> 最新专利> 计算;推算;计数设备的制造及其应用技术
一种基于Ranknet和Lambdamart算法的搜索排序方法与流程

本发明属于人工智能学习技术领域,具体涉及一种基于ranknet和lambdamart算法的搜索排序方法。



背景技术:

随着计算机与网络科技水平的不断提高,互联网产生的数据量呈现出爆发式的增长,我们需要花费越来越多的精力去获取想要的信息,人们如何在信息大爆炸的时代里准确而高效的获取信息是值得研究的。传统的按照相关度排序和按照重要性排序只针对少数的简单特征,无法挖掘复杂情况下特征间的关联性,导致获取信息的准确率和效率低下。排序学习能够充分发现表征复杂信息的众多特征之间的关联性。近年中的研究发现,基于树的机器学习模型,如gbdt,结合集成学习,对于建立“排序学习”框架的搜索排序算法十分有效,lambdamart更是其中的佼佼者,被认为是最有效的方法之一,在不同的领域已经被证明是解决问题的一种有效手段。



技术实现要素:

本发明所要解决的技术问题是克服现有技术的不足,提供一种基于ranknet和lambdamart算法的搜索排序方法,将ranknet算法作为基础模型,学习一个排序函数,再将函数的输出作为lambdamart的初始函数,最终生成排序模型,可以有效提高搜索排序的迭代效率和准确率。

本发明提供一种基于ranknet和lambdamart算法的搜索排序方法,包括如下步骤:

步骤s1、由rankbet算法训练出基本模型,首先训练一个打分函数,根据打分函数计算文档的得分,通过文档的得分情况计算文档的偏序概率和真实概率,采用交叉熵作为损失函数来衡量偏序概率和真实概率的拟合程度,从而获取所有文档的总代价函数;

步骤s2、计算每个文档的梯度lambda和偏导,针对步骤s1中的损失函数对排序函数的偏导求导,再利用梯度下降法获取最佳参数;

步骤s3、利用lambdamart算法训练回归树;

步骤s4、将步骤s2中获取的梯度作用于lambdamart算法的gbdt上,作为训练模型的拟合对象,再根据牛顿法计算训练树的叶子节点值;

步骤s5、更新模型,根据学习率计算每个文档的得分。

作为本发明的进一步技术方案,步骤s1中,训练的打分函数为s=f(x;w),根据打分函数计算文档xi和xj为si=f(xi;w),sj=f(xj;w);根据得分计算二者的偏序概率,偏序概率为

pij为第i个样本排在第j个样本前面的概率,si和sj为文档xi和xj的得分,其真实概率为

采用交叉熵作为损失函数来衡量偏序概率pij对真实概率的拟合程度,损失函数为经简化为则可知所有文档对的总代价函数为其中,i表示所有文档对的集合,且每个文档对仅包含一次。

进一步的,步骤s2中,针对步骤s1中的损失函数cij,对排序函数中的ωk求导,然后利用梯度下降法来求得最佳参数其中,η为步长,代价c延负梯度方向变化继续分解,则由于带入得,

集合i中包含label不同的文档的集合,且每个文档只包含一次,即(ui,uj)和(uj,ui)等价,若只包含(ui,uj),则表示ui相关性大于uj的文档对,即sij=1,那么λi决定着第i个文档在迭代中的移动方向和幅度,此外,由于ndcg或err这样的评价指标是非连续的,故而在推导出的梯度上,加入这些评价指标,即:

其中,|δzij|为将ui和uj交换位置后,待优化指标的变化。

进一步的,步骤s3中,lambdamart算法中的mart即为gbdt,在gbdt的迭代中,若前一轮迭代获取的强学习器是ft-1(x),损失函数为l(y,ft-1(x)),则迭代的目标为获取一个回归树模型的弱学习器ht(x),让本轮的损失函数l(y,ft(x)=l(y,ft-1(x)+ht(x)))最小;每个模型的权重为其中εt为该模型在样本中的错误率,最终的模型为

进一步的,步骤s4中,将梯度应用于gbdt上,作为训练模型的拟合对象,再根据牛顿法计算训练树的叶子节点值,首先把训练模型作为变量,则直接使用梯度对模型求导:再使用牛顿法可得:其中,

进一步的,步骤s5中,更新模型,根据学习率计算每个文档的得分,文档的得分为:fk(xi)=fk-1(xi)+η∑lγlki(xi|∈rlk)。

与现有方案对比,本发明采用ranknet算法作为基础模型,学习一个排序函数,再将函数的输出作为lambdamart的初始函数,最终生成排序模型。可以有效提高搜索排序的迭代效率和准确率,此外可以解决当损失函数为凸函数时,为达到全局的最小值,学习率必须很小,迭代次数必须很大的问题,而且在减少迭代次数的情况下,模型效果却可以优于原始模型。

附图说明

图1为本发明的方法流程图。

具体实施方式

请参阅图1,本实施例提供一种基于ranknet和lambdamart算法的搜索排序方法,包括如下步骤:

步骤s1、由rankbet算法训练出基本模型,首先训练一个打分函数,根据打分函数计算文档的得分,通过文档的得分情况计算文档的偏序概率和真实概率,采用交叉熵作为损失函数来衡量偏序概率对真实概率的拟合程度,从而获取所有文档的总代价函数;

步骤s2、计算每个文档的梯度lambda和偏导,针对步骤s1中的损失函数对排序函数的偏导求导,再利用梯度下降法获取最佳参数;

步骤s3、利用lambdamart算法训练回归树;

步骤s4、将步骤s2中获取的梯度作用于lambdamart算法的gbdt上,作为训练模型的拟合对象,再根据牛顿法计算训练树的叶子节点值;

步骤s5、更新模型,根据学习率计算每个文档的得分。

训练的打分函数为s=f(x;w),根据打分函数计算文档xi和xj为si=f(xi;w),sj=f(xj;w);根据得分计算二者的偏序概率,偏序概率为

pij为第i个样本排在第j个样本前面的概率,si和sj为文档xi和xj的得分,其真实概率为

采用交叉熵作为损失函数衡量偏序概率pij对实概率的拟合程度,损失函数为经简化为则可知所有文档对的总代价函数为其中,i表示所有文档对的集合,且每个文档对仅包含一次。

步骤s2中,针对步骤s1中的损失函数cij,对排序函数中的ωk求导,然后利用梯度下降法来求得最佳参数其中,η为步长,代价c延负梯度方向变化继续分解,则由于带入得,

集合i中包含label不同的文档的集合,且每个文档只包含一次,即(ui,uj)和(uj,ui)等价,若只包含(ui,uj),则表示ui相关性大于uj的文档对,即sij=1,那么λi决定着第i个文档在迭代中的移动方向和幅度,此外,由于ndcg或err这样的评价指标是非连续的,故而在推导出的梯度上,加入这些评价指标,即:

其中,|δzij|为将ui和uj交换位置后,待优化指标的变化。

步骤s3中,lambdamart算法中的mart即为gbdt,在gbdt的迭代中,若前一轮迭代获取的强学习器是ft-1(x),损失函数为l(y,ft-1(x)),则迭代的目标为获取一个回归树模型的弱学习器ht(x),让本轮的损失函数l(y,ft(x)=l(y,ft-1(x)+ht(x)))最小;每个模型的权重为其中εt为该模型在样本中的错误率,最终的模型为

步骤s4中,将梯度应用于gbdt上,作为训练模型的拟合对象,再根据牛顿法计算训练树的叶子节点值,首先把训练模型作为变量,则直接使用梯度对模型求导:再使用牛顿法可得:其中,

步骤s5中,更新模型,根据学习率计算每个文档的得分,文档的得分为:fk(xi)=fk-1(xi)+η∑lγlki(xi|∈rlk)。

以上显示和描述了本发明的基本原理、主要特征和优点。本领域的技术人员应该了解,本发明不受上述具体实施例的限制,上述具体实施例和说明书中的描述只是为了进一步说明本发明的原理,在不脱离本发明精神范围的前提下,本发明还会有各种变化和改进,这些变化和改进都落入要求保护的本发明范围内。本发明要求保护的范围由权利要求书及其等效物界定。

完整全部详细技术资料下载
当前第1页 1  2 
相关技术
  • 基于可视化拖拽的业务流程配置...
  • 一种APP推荐方法、装置及设...
  • 协同可视数据推荐方法及装置与...
  • 一种资讯信息的多指标监控方法...
  • 一种智能的线索分析方法及系统...
  • 一种知识图谱实时查询解决方案...
  • 智慧社区内游泳池的自动监测方...
  • 一种电子证照目录管理系统及方...
  • 一种同构子图查询方法、装置、...
  • 一种分组Hilbert编码和...
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1
深度算法相关技术
  • 一种优化用户信用模型建模过程的方法及装置与流程
  • 结合深度信息的人脸检测方法、检测装置和电子装置与流程
  • 一种基于双目图像匹配获取目标深度信息的方法和系统与流程
  • 一种人脸深度跟踪装置及实现方法与流程
  • 图像处理方法和电子设备的制造方法
  • 一种器械式cpr按压深度算法
  • 基于人工智能的深度问答服务提供方法和装置的制造方法
  • 一种信息处理方法及电子设备的制作方法
  • 基于优化bp神经网络模型的单目红外图像深度估计方法
  • 基于svm模型的单目红外图像深度估计方法

聚圣源书法开店起名嘉字男孩名字 用嘉字起名老师群里指责家长中国人民银行征信基督徒小孩起名方姓宝宝起名及注释梦见大水免费起名打分网页双胎宝宝起名大全男孩茶文化公司起名 大气dj66猪宝取名起名宜用字中国美术学院官网都市井龙王春天生的女孩起名称志华起名字的意思迟来的爱原唱赵信符文张俊沈浪与苏若雪最新章节更新唐氏起名大全男孩名字吗深圳车管所电话直不起腰心跳回忆女生版3起店名有什么讲究吗五行起名怎么查mail.10086.com华理天空考研网起名免费网 公司零食品牌起名淀粉肠小王子日销售额涨超10倍罗斯否认插足凯特王妃婚姻让美丽中国“从细节出发”清明节放假3天调休1天男孩疑遭霸凌 家长讨说法被踢出群国产伟哥去年销售近13亿网友建议重庆地铁不准乘客携带菜筐雅江山火三名扑火人员牺牲系谣言代拍被何赛飞拿着魔杖追着打月嫂回应掌掴婴儿是在赶虫子山西高速一大巴发生事故 已致13死高中生被打伤下体休学 邯郸通报李梦为奥运任务婉拒WNBA邀请19岁小伙救下5人后溺亡 多方发声王树国3次鞠躬告别西交大师生单亲妈妈陷入热恋 14岁儿子报警315晚会后胖东来又人满为患了倪萍分享减重40斤方法王楚钦登顶三项第一今日春分两大学生合买彩票中奖一人不认账张家界的山上“长”满了韩国人?周杰伦一审败诉网易房客欠租失踪 房东直发愁男子持台球杆殴打2名女店员被抓男子被猫抓伤后确诊“猫抓病”“重生之我在北大当嫡校长”槽头肉企业被曝光前生意红火男孩8年未见母亲被告知被遗忘恒大被罚41.75亿到底怎么缴网友洛杉矶偶遇贾玲杨倩无缘巴黎奥运张立群任西安交通大学校长黑马情侣提车了西双版纳热带植物园回应蜉蝣大爆发妈妈回应孩子在校撞护栏坠楼考生莫言也上北大硕士复试名单了韩国首次吊销离岗医生执照奥巴马现身唐宁街 黑色着装引猜测沈阳一轿车冲入人行道致3死2伤阿根廷将发行1万与2万面值的纸币外国人感慨凌晨的中国很安全男子被流浪猫绊倒 投喂者赔24万手机成瘾是影响睡眠质量重要因素春分“立蛋”成功率更高?胖东来员工每周单休无小长假“开封王婆”爆火:促成四五十对专家建议不必谈骨泥色变浙江一高校内汽车冲撞行人 多人受伤许家印被限制高消费

聚圣源 XML地图 TXT地图 虚拟主机 SEO 网站制作 网站优化