【共词聚类分析】基于CNKI和WOS的小样本稳健性检验

2 篇文章 0 订阅
订阅专栏

很久之前的一篇文章,最近终于收到了Reviewers的回复(一把心酸…其中有一个Comments如下,意思是我们原先的文章没法证明共词聚类方法的结论是合理的…于是打算新增加一个稳健型检验(robust analysis),由于上次做这部分实在太久远了,这次用一个小样本将共词聚类分析的过程记录下来。

Comments to the Author
Overall, this manuscript needs major modifications and rethinking of the entire paper outline. Specific comments are as follows:
1- The time interval of the study is indicated as 32 years spanning from 1989 to 2021, but they presented only 2008 and 2019. How do they segregate the results? In other words, they do the tests for 32 years but talking only for the part between 2008-2019.

抓取数据来源:CNKI

首先在CNKI上使用高级检索功能,这里我的主题是气候变化,类型是期刊,出版时间是2008-2019,排序方式为相关性排序。这里只是robust analysis,需要的样本量很少,因为CNKI每次只能导出500条信息,如果需要大样本,后面我会更新使用爬虫来抓取的方法。

将检索结果每次500条导出下来,下载格式为Refworks格式,方面后面的分析。这里我一共抓取了3000条数据(500*6)

因为是使用文献关键词来进行共词聚类,我在这里使用了学术点滴开发的一款软件COOC直接将从知网导出来的txt进行合并以及将Refworks里面的关键词格式单独提取出来。

提取后的excel就是结构化的了,一共2996条文献信息。我们将其中的关键词列表拿出来分析就可以了。

抓取数据来源:Web of Science

抓取完中文的文献后,还需要抓取英文的文献,这里我们是通过WOS下载文献数据。通过高级检索,检索11本气候变化相关的头部期刊,要求其发表时间在2008-2019,其摘要中包“China”或者“Chinese”。

但是今年1月份后WOS改版后,居然没有可以导出关键词的选项…还好去年爬取的相关文献数据库还在,我这次直接在之前的数据中提取2008-2019的所有相关文献。之后有空看看怎么用爬虫抓取一下。

符合条件的一共有2774条文献信息。仍然是将其中的附加关键词提取出来。WOS有作者关键词和附加关键词,我们主要使用作者关键词,如果没有作者关键词的话,我们就用附加关键词来替代,用excel处理一下。

接着翻译成中文。这里的翻译是基于之前的工作,直接用之前的翻译表匹配得到的。

合并关键词

下一步需要将CNKI和WOS提取的关键词进行合并统计。

因为样本量很小,直接使用Excel,共获取文献共5451条(CNKI:2996,WOS:2774)。处理过程如下:(注意:因为导出的是一条文献一个单元格的格式,不能直接搜索替换,所以需要通过”;”将关键词切开,通过单元格匹配,剔除后再合并起来)

  • 为了方面后面的处理,将《》、“”等符号去掉
  • 这里的研究主题是中国的气候变化,需要将“中国”、“气候变化”这两个词剔除(频次很高)。
  • 将同义词进行合并。比如
    (1)年代际变化:年代际变化、年际变化
    (2)厄尔尼诺-南方涛动:厄尔尼诺
    (3)二氧化碳:CO2、二氧化碳排放量
    (4)农业:农业、农业生产
    (5)夏季风:亚洲夏季风、夏季风
  • 回归原文,人工将无关词汇剔除,比如美国、北太平洋西部、第一部分、气候变化问题、亚洲、分配、太平洋、感知、遥相关、来源等词

这一步会花费比较多的时间,一个是因为处理的过程需要不断调试,涉及到很多的excel表格,要很细心,不然很容易出错;另一个是因为要回归原文,找到各个关键词的含义,好进行同义词合并和无关词汇剔除。

通过对关键词进行统计分析,共获得不重复关键词11741个,累计频次23444次。

由于共词分析的数据源于高频词出现的次数,因而高频词阈值的选取将直接影响分析结果。现阶段,学术界进行共词分析主要通过自主确定法、高低频词分界公式法、普赖斯公式法和基于词频g指数法来确定高频词阈值。尽管当下共词分析法已普遍运用于各类学科,但目前尚未有学者针对气候变化分类领域进行专门研究。因此,我们需要探究用何种方法能科学合理地选取气候变化领域高频词阈值。

基于之前的工作(如下表),我们得出针对这里的气候变化主题使用g-index方法的共词聚类效果是最好的。

这里我们使用g-index选取的阈值是24,一共57个高频关键词进行接下来的分析。

最终的关键词表格如下:

序号关键词频次g^2累计频次(g+1)^2
1影响19211924
2重金属13443269
3年代际变化125945116
4厄尔尼诺-南方涛动1211657225
5降水量1102568236
6气候1053678749
7农业1004988764
8易变性896497681
9适应82811058100
10二氧化碳781001136121
11风险评估781211214144
12人类活动731441287169
13温度711691358196
14沉积物691961427225
15青藏高原682251495256
16季风652561560289
17循环652891625324
18多环芳烃623241687361
19降雨量593611746400
20空气污染594001805441
21夏季风584411863484
22全球气候变化524841915529
23趋势515291966576
24气温485762014625
25土壤466252060676
26降水446762104729
27脆弱性447292148784
28巴黎协定437842191841
29水质428412233900
30应对气候变化409002273961
31城市化4096123131024
32可持续发展39102423521089
33模型37108923891156
34水资源36115624251225
35PM2.536122524611296
36径流35129624961369
37水资源34136925301444
38不确定性34144425641521
39健康风险34152125981600
40空间分布33160026311681
41联合国33168126641764
42全球变暖33176426971849
43温室气体32184927291936
44海面温度31193627602025
45大气环流31202527912116
46风险31211628222209
47气候变异性30220928522304
48粮食安全30230428822401
49土地利用30240129122500
50影响因素29250029412601
5127260129682704
52氮气26270429942809
53SWAT模型26280930202916
54经济增长25291630453025
55国际贸易24302530693136
56干旱24313630933249
57排放24324931173364

共词聚类分析

接着利用基于词频g指数法确定的57个高频关键词进行共词聚类分析。

首先使用COOC软件将选取的关键词转化为57*57的共现矩阵。

再转换为完全共现矩阵

但由于两个关键词共现频次的多少只受两个关键词各自词频大小的影响,因此还需引入表示关键词共现相对强度的指标。在文献计量学中,目前应用较多的是Ochiia系数和JacGard指数。本研究用Ochiia系数将共词矩阵转化为相关矩阵,再用“1”与全部相关矩阵上的数据相减,得到表示两词间相异程度的相异矩阵,相异矩阵中的数据数值越大,表明关键词之间的距离越远,相似度越差。

再利用SPSS进行聚类分析,聚类方法采用组间联接法,度量方式为平方欧氏距离,聚类分析谱系图如下图所示。(这里的聚类方法有组间联接、组内联接、欧式距离、弦距离等等,多次组合对比,看看哪种方法的聚类效果好)

下一步就是对得到的聚类结果进行归类命名以及解读了。

由于我这里只是为了做稳健性检验,得到的聚类结果其实跟之前基于大样本做的工作很重合了,所以也说了之前的结果是可信的。

本文到这里就结束了。

从本文论述来看过程好像很简单,但实际上在做的过程中是需要尝试很多遍的,需要很细心。本文描述的只是基于小样本做简单的共词聚类过程,工作量其实也不少了,但呈现在文章中可能只是几句话进行描述…科研不易啊!

clubSandwich:具有小样本校正的聚类鲁棒(三明治)方差估计量
05-26
三明治俱乐部 clubSandwich为普通和加权最小二乘线性回归模型,两阶段最小二乘回归模型和广义线性模型提供了几种聚类-鲁棒方差估计器(即,三明治估计器)。 合并了一些调整以提高小样本性能。 该软件包包括用于估计方差-协方差矩阵以及基于Wald检验统计数据检验单对比度和多重对比度假设的函数。 单个回归系数的检验使用Satterthwaite或鞍点校正。 多重对比假设的检验使用了对Hotelling的T平方分布的近似值。 提供了各种拟合模型的方法,包括lm , mlm , glm , ivreg (来自AER软件包), plm (来自plm软件包), gls和lme (来自nlme ), robu (来自robumeta )以及rma.uni和rma.mv (来自metafor )。 安装clubSandwich 该软件包可在综合R存档网络上找到。 要安装它,键入 install.p
基于因子分析和聚类分析的中小制造企业信用评级研究
01-29
以80家中小制造企业为研究对象,首先筛选出4项一级指标和12项二级指标,构建中小制造企业信用评级指标体系,然后运用因子分析构建企业信用评级模型,利用聚类分析确定企业信用评级标准。研究结果表明:中小制造企业信用的绝大部分信息可以通过“盈利能力因子”、“偿债能力因子”、“营运能力因子”以及“成长能力因子”4个公共因子反映出来,80家中小制造企业的信用等级可划分为7个等级,中小制造企业的信用等级普遍在BBB及BBB以下。
机器学习基础 聚类算法
mengxianglong123的博客
06-08 1833
使用不同的聚类准则,产生的聚类结果不同。用户画像,广告推荐,Data Segmentation,搜索引擎的流量推荐,恶意流量识别基于位置信息的商业推送,新闻聚类,筛选排序图像分割,降维,识别;离群点检测;信用卡异常消费;发掘相同功能的基因片段聚类算法:一种典型的无监督学习算法,主要用于将相似的样本自动归到一个类别中。在聚类算法中根据样本之间的相似性,将样本划分到不同的类别中,对于不同的相似度计算方法,会得到不同的聚类结果,常用的相似度计算方法有欧式距离法。聚类算法是无监督的学习算法,而分类算法属于监督的学习
[文本挖掘和知识发现] 01.红楼梦主题演化分析——文献可视化分析软件CiteSpace入门
杨秀璋的专栏
08-29 2022
本文是作者2023年8月底新开的专栏——《文本挖掘和知识发现》,主要结合Python、大数据分析和人工智能分享文本挖掘、知识图谱、知识发现、图书情报等内容。本文主要介绍文献可视化分析软件CiteSpace基础知识,以中国知网《红楼梦》文献为例,开展主题挖掘、关键词聚类及主题演化分析。基础文章,希望对您有所帮助。知识无价人有情,希望我们都能在人生路上开心快乐、共同成长。
CiteSpace的入门学习,分析知网文献与web of science
a_hary的博客
06-12 2万+
毕业的时候,我们总是要写文献。 算了不废话了,直接开始教程,我们学习的东西,就是CiteSpace,我只是单纯的把老师将的东西,在这个上面展示,管你听没听懂,看就完事! 我们先安装这个文件,我提供了,直接拿吧! 链接:https://pan.baidu.com/s/169KqePtKZjTr_fQ-ZY5Lfg 提取码:2ymj 根据自己的需求,随便安装那个都行! 安装之后呢,我们先开始,知网的分析 打开知网,选择检索词,我选择人工智能, 选择高级检索,中的期刊板块,这个可以选择 CSSCI CSCD
关于聚类的学习
qys27182812的博客
04-28 1268
%聚类的方法:层次聚类、基于划分的聚类、基于密度的聚类 (1)层次聚类:适用于小样本数据。可以形成相似度层次图谱,便于直观地确定类之间的划分。该方法一边探索样本特征,一边进行聚类,得到业务可解释性强的分类,但是难以处理大量样本。 (2)基于划分的聚类(k- means):适用于大样本数据。其将观测分为预先指定的、不重叠的类,但是不能提供类相似度信息。该算法需要事先决定聚类个数,这是使用该算法的...
共词聚类分析
女王的code
09-28 2万+
一、概念 共现聚类分析法,通过文献计量和聚类统计的方法,计算主题词之间的联系密切程度(在同一篇文献共同出现的频率),将距离较近的主题词聚集在一起,形成一个个概念相互独立的类团,使得类团内属性相似性最大,类团间属性相似性最小。 二、关键流程 1、聚类时距离的确定 在进行聚类分析时,类组合的确定有两种概念方式,一是类与类之间的距离,二是点与点之间的距离。 (1)类间距离:例如组间距离法 (
使用Ochiia系数将共词矩阵转换为相关矩阵(基于EXCEL+VBA的实现)
Jarvie.Fu
07-17 7134
1.公式与代码 Ochiia系数公式: (原理不再赘述,有兴趣可自行搜索学习) 代码如下,后附参考案例一个。 (v值为变量个数,例如9×9的共现矩阵,则v=9;m×m的共现矩阵,则v=m) Sub ochiia() '变量个数 v = 9 '输出的起始行列号 rOutput = v + 2 cOutput = 1 For i = 2 To v For j = i To v Cells(.
citespace中同时导入CNKI+WOS数据
qq_42724813的博客
10-11 1824
citespace中同时导入CNKI+WOS数据
【Scikit-Learn】使用k-均值对文档进行聚类分析
造出高达般的人工智能机器人
09-03 1099
本文使用的数据集来自mlcomp.org上的20news-18828,下载地址为:mlcomp.org/datasets/379 我们只对sci.crypt、sci.electronices、sci.med和sci.space这4个子目录的数据进行k-均值聚类分析。 1. 读入数据 %matplotlib inline import matplotlib.pyplot as plt ...
我国转型升级研究热点分析——基于CSSCI期刊关键词的共词网络和聚类分析
06-26
结果显示,目前我国与转型升级相关的研究热点集中于"制造业""中小企业"和"长江三角洲地区"等,围绕这些研究热点,"技术创新""产业集群升级""战略性新兴产业"等起到桥梁作用,是"制造业"等研究热点进行转型升级时的主要...
基于weka的数据分类和聚类分析实验报告.doc
11-28
基于weka的数据分类和聚类分析实验报告.doc
基于SPSS实现的聚类分析实例 内含聚类分析实际例子 共39页.ppt
07-25
以经济效益数据为例,用聚类分析法对各省市作分类(见spssex-4/全国各省市经济效益数据) 以城镇居民消费资料为例,用聚类分析法对各省市作分类(见spssex-4/城镇居民消费支出资料) Spss中的聚类功能常用的有两种...
基于共词聚类分析法的“区块链 会计”的研究.pdf
08-15
#资源达人分享计划#
kmeans python_Python数据分析实战——使用Kmeans进行知网学者画像分析
weixin_39816448的博客
11-26 331
一、数据准备二、数据清洗1、缺失值处理2、异常值三、EDA1、发表文章数量最多的作者2、发表时间统计3、发表单位统计4、文献来源统计5、关键词统计四、共现网络五、K-means聚类六、数据降维,可视化结果七、数据集+源码获取作为八月份的第一篇文章,这次我们分享一个最近做的案例,分析知网的学者数据信息,不多咕咕咕,我们一步一步开始分析一、数据准备这次主要是通过知网获取的学者信息,进行一个学...
WOSCNKI数据库的citespace分析教程及常见问题解决
albedo_102的博客
10-31 4471
本教程为面向新手的基于citespace的数据可视化教程,旨在帮助大家更快了解行业前沿的研究内容。
【Citespace】从Citespace开始的引文可视化分析
Frost_Descent的博客
12-11 1312
译“引文空间”,是一款着眼于分析科学分析中蕴含的潜在知识,是在科学计量学、数据可视化背景下逐渐发展起来的引文可视化分析软件。由于是通过可视化的手段来呈现科学知识的结构、规律和分布情况,因此也将通过此类方法分析得到的可视化图形称为“科学知识图谱”。
聚类分析--基本原理、方法(Kmeans,层次聚类)
universe_1207的博客
02-09 1万+
聚类分析就是将研究对象根据一些特征指标,把比较相似的研究对象,按一定的方式归为同类。
稳健性检验的几种方法
热门推荐
Una20200519的博客
02-22 6万+
1.变量替换法:工作绩效既可以用工作量也可以用工作完成时间来衡量(替换因变量或者主要的自变量)。 2.补充变量法:模型中存在遗漏变量(随机扰动项与解释变量相关)。加入遗漏变量再次进行分析,看结论是否会发生改变。 3.调整变量的分类标准:水果可以按照颜色来分,也可以按照口感来分。 4.分样本回归:根据某特性将总样本分成几个小样本分别进行研究,看结论是否会发生改变。例如,在研究激励措施对工作绩效的影响时,我们可以将样本按性别分成两个小样本,在每个样本中分别进行研究。 5.改变样本容量:提出样本中的异常点和离群值
基于聚类分析的协同过滤算法
最新发布
05-24
基于聚类分析的协同过滤算法是一种推荐算法,可以用于个性化推荐。该算法主要包含以下步骤: 1. 预处理:将用户行为数据矩阵化,每个用户作为一行,每个物品作为一列,矩阵中的每个元素代表用户对物品的评分。 2. 聚类分析:通过聚类分析算法将用户分成不同的组,从而找出相似的用户。这里常用的聚类算法有K-means等。 3. 特征提取:对于每个聚类结果,可以提取出该组用户的共同特征,例如他们喜欢的物品类型、评分高低等。 4. 推荐计算:根据用户的历史行为和聚类结果,可以计算出用户对未评分物品的评分预测值,从而进行个性化推荐。

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
写文章

热门文章

  • 【金融科技前沿】【长文】金融监管、监管科技以及银行业监管报送概述 22836
  • 【网络安全】数据加密标准(DES算法)详细介绍( 分组密码、Feistel密码结构、轮函数、子密钥生成算法) 15735
  • 【金融科技前沿】区块链和数字经济(区块链的缘起,现状和发展、区块链技术架构和原理解析 、区块链应用和案例综述) 12188
  • 【最优化方法】K-Means聚类实验:Python实现手写数字图像MNIST分类 12106
  • 【金融基建】证券交易机制(三)(证券估值、拍卖、竞价撮合、做市商交易、市场交易指令、交易时段) 11250

分类专栏

  • 最优化方法 1篇
  • 金融案例分析 3篇
  • 金融基础设施建设学习 2篇
  • 网络安全学习笔记 3篇
  • C++学习笔记 9篇
  • C++_OJ 66篇
  • 工具&技巧 2篇
  • ERROR 1篇
  • 金融科技前沿 6篇
  • python 1篇
  • 科研方法 2篇
  • 文本分析 2篇

最新评论

  • 【C++_OJ_指针】三串合一(指针与字符数组)

    2301_81050096: 请问这些题目可以做哪些网站做捏

  • 【共词聚类分析】基于CNKI和WOS的小样本稳健性检验

    Trochilusben: 可以讲一下爬虫500一次导出的限制是怎么做的吗

  • 【C++学习】【持续更新 】史上最全C++学习总结(知识点+OJ练习讲解)

    顾白白baibai: 你好,博主,是不是没有更完啊

  • 【网络安全】数据加密标准(DES算法)详细介绍( 分组密码、Feistel密码结构、轮函数、子密钥生成算法)

    Piquanbing567: 哥,有没有代码分享

  • 【python工具】pycharm使用指南(设置头文件、debug调试、快捷键)

    CSDN-Ada助手: 多亏了你这篇博客, 解决了问题: https://ask.csdn.net/questions/7995529, 请多输出高质量博客, 帮助更多的人

大家在看

  • 透彻理解Kafka(一)——整体架构
  • AI大模型探索之路-实战篇15: Agent智能数据分析平台之整合封装Tools和Memory功能代码
  • 1. 三星堆文化网页实例 大学生期末大作业 Web前端网页制作 html+css 1114
  • 5月最新版NineAi 新版AI系统网站源码 24
  • TensorFlow库详解:Python中的深度学习框架

最新文章

  • 【超详细:如何从零搭建个人网站】阿里云服务器+LNMP+WordPress
  • 【我写了个小软件,老板说要给我加薪】微信助手软件|微信个性化群发消息和图片|一键生成好友头像照片墙|附下载和使用方法
  • 【C++OJ_单继承】时钟模拟(继承)
2023年2篇
2022年94篇
2021年1篇

目录

目录

评论 2
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43元 前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

Ferry_xie

你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或 充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值

聚圣源www.3721se.com姓南起什么名字医疗器械公司名起名大全9月20宝易互通支付平台嫂子嫂子剧情分集介绍我的邻居是妖怪psp赏金猎犬芒果台罗姓宝宝起人名甜蜜电视剧演员表全部给小孩子起名给通信有限公司起名邮差总按两遍铃韩国起名japaneselesbian袁姓氏女孩子起名字给孩子起名字有什么讲究拜姓俩字男孩起名7天通知存款利率宝宝起名哪里有哪些武姓起名字洋气一点的成都限行时间新规2020年11月柴姓女孩起名银渐层取名起名大全2018年木命起名肖姓氏起名大全王刘起名字女孩名字洋房水泥2017年新生宝宝起名字淀粉肠小王子日销售额涨超10倍罗斯否认插足凯特王妃婚姻让美丽中国“从细节出发”清明节放假3天调休1天男孩疑遭霸凌 家长讨说法被踢出群国产伟哥去年销售近13亿网友建议重庆地铁不准乘客携带菜筐雅江山火三名扑火人员牺牲系谣言代拍被何赛飞拿着魔杖追着打月嫂回应掌掴婴儿是在赶虫子山西高速一大巴发生事故 已致13死高中生被打伤下体休学 邯郸通报李梦为奥运任务婉拒WNBA邀请19岁小伙救下5人后溺亡 多方发声王树国3次鞠躬告别西交大师生单亲妈妈陷入热恋 14岁儿子报警315晚会后胖东来又人满为患了倪萍分享减重40斤方法王楚钦登顶三项第一今日春分两大学生合买彩票中奖一人不认账张家界的山上“长”满了韩国人?周杰伦一审败诉网易房客欠租失踪 房东直发愁男子持台球杆殴打2名女店员被抓男子被猫抓伤后确诊“猫抓病”“重生之我在北大当嫡校长”槽头肉企业被曝光前生意红火男孩8年未见母亲被告知被遗忘恒大被罚41.75亿到底怎么缴网友洛杉矶偶遇贾玲杨倩无缘巴黎奥运张立群任西安交通大学校长黑马情侣提车了西双版纳热带植物园回应蜉蝣大爆发妈妈回应孩子在校撞护栏坠楼考生莫言也上北大硕士复试名单了韩国首次吊销离岗医生执照奥巴马现身唐宁街 黑色着装引猜测沈阳一轿车冲入人行道致3死2伤阿根廷将发行1万与2万面值的纸币外国人感慨凌晨的中国很安全男子被流浪猫绊倒 投喂者赔24万手机成瘾是影响睡眠质量重要因素春分“立蛋”成功率更高?胖东来员工每周单休无小长假“开封王婆”爆火:促成四五十对专家建议不必谈骨泥色变浙江一高校内汽车冲撞行人 多人受伤许家印被限制高消费

聚圣源 XML地图 TXT地图 虚拟主机 SEO 网站制作 网站优化