如何用VOSviewer分析CNKI关键词共现?

用VOSviewer尝试CNKI中文文献关键词共现(keyword co-occurence)分析时,你可能会踩到一个大坑。本文帮助你绕开这个坑,或是从坑里爬出来。

(由于微信公众号外部链接的限制,文中的部分链接可能无法正确打开。如有需要,请点击文末的“阅读原文”按钮,访问可以正常显示外链的版本。)

疑惑

在《如何用VOSviewer分析CNKI数据?》一文中,我们提到了如何用VOSviewer可视化分析CNKI文献。

依照文中的步骤,我们从CNKI下载并导出《图书情报知识》期刊2016年全年文献数据,通过Endnote作为中转,最终导出了VOSviewer可以读取的RIS文件。

我把这个几经辗转得来的RIS文件存放到了这里,你可以直接下载使用。

利用该数据文件,我们用VOSviewer分析合作者(Co-authorship),做出了这张图。

有的读者很兴奋,立即打算用同样的方法,做CNKI中文文献的关键词共现分析(keyword co-occurence)。

很快,他们就遇到了问题。因为用样例数据,虽然可以做出分析结果图,却是这个样子的:

图里面只有关键词,没有任何关键词之间的连接。这叫什么共现分析?!

有读者很沮丧地把这幅图发给了我。问我这是否意味着,VOSviewer不能胜任中文文献的关键词共现分析?

当然不是。

VOSviewer做的是统计和可视化。对于它来说,中文和英文关键词没有本质区别。只要来源数据处理得当,分析的结果都应该是正确的。

那么问题究竟出在哪里呢?

原因

我们用样例数据,重新走一遍流程。复现读者遇到的困境。

VOSviewer主界面里,我们选择File -> map -> create,新建一个分析图。

第一个对话框问我们映射方式。

我们从中选择第二项。

然后新弹出的对话框会询问分析源文件的格式。

我们选择RIS。

下面的对话框,询问分析类型。默认是合作者分析(Co-authorship)。

我们选择关键词共现分析(Co-occurence)。

然后VOSviewer询问我们阈值的选择。

注意默认的阈值为3,可是这样只有3个关键词满足阈值。最终的图上如果只有3个节点,就太稀疏了。于是我们降低阈值到1。

VOSviewer提示我们,通过阈值过滤的关键词有83个。

我们选择下一步。这时可以看到全部关键词列表。

我们可以从中选择或者反选关键词做分析。

但是此处别着急进行下一步。我们看到了非常奇异的现象。

注意图中列表的最后一列,是连接强度,也就是这一行的关键词与其他关键词共同出现的总次数。默认从大到小排列,可是所有的关键词共现次数居然都是0次

难怪我们点击下一步的时候,会出现关键词节点间,全无链接。

为什么关键词同时出现次数分析值都是0呢?难道每篇论文只有1个关键词?关键词之间从来没有同时出现过?

这不符合常识。

我们发表期刊论文或者写毕业论文时,一般情况关键词至少也要列出3个吧。

带着这样的疑惑,我们就要检查一下RIS源文件了。

以其中的第一篇《信息素养的历史与实践之旅》为例,我们看到关键词一共有3个,分别为“信息素养”、“行动素养”和“行动素养联盟”。

如何识别它们是关键词呢?

因为前面有个KW  -前缀作为标志。

然而问题来了,我们看到作者信息部分,每个作者名字前,都有AU  -前缀。

AU  - G.Zurkowski, Paul
AU  - V.Kelly, Jeffrey
AU  - 刘千卉
AU  - 程璐

可是关键词这里,除了第一个有KW  -前缀,其他都没有。

KW  - 信息素养
行动素养
行动素养联盟

会不会是因为这个缘故,导致合作者分析链接正常,而关键词共现分析链接消失呢?

我们做个实验,验证一下咱们的猜测。

实验的方法很简单。我们把第一篇文献的另外两个关键词之前,都加上KW  -前缀。其他文献的关键词不做任何处理。

修改后的RIS文件,就成了这样子:

我们回到VOSviewer,重新分析。前面的步骤和上一节完全一致。直至最后一步。

我们非常明显地对比出,关键词总链接强度(Total Link Strength)一项发生了变化,有几个关键词,不再是0了。

发生改变的这几个关键词,恰恰是刚才添加过前缀的那几个。

这个简单的实验,验证了我们的猜测。

并不是VOSviewr的处理能力有缺失,而是中文文献元数据,经由Endnote导出为RIS格式的时候有纰漏,导致多关键词的前缀没有全部正确添加。

效率

问题找到了。

下面我们该怎么办?

很简单,把所有关键词的前缀都添上就好了啊。

你可能立即觉得天旋地转。

把前缀都添上?说得轻巧!

样例数据里,文献有数十篇。一篇篇找关键词,添加前缀,虽然会做个头晕脑涨,但毕竟还有个盼头儿。

问题是,要分析的文献有好几千篇。都添完的时候,是不是下学期都该开学了?

也没那么夸张了。

想想愚公移山,精卫填海……先贤的精神力量还不够给你以感召吗?

精神固然要有,但效率也是要追求的。

我们当然不能一条条手动查找关键词并添加前缀,那样效率太低。我们要用工具来自动化解决这个问题。

好消息是,工具我已经帮你编写好了。

下面我详细告诉你,该怎么使用。

工具

我帮你编写的工具,是个Python脚本。

我们需要安装Python运行环境Anaconda,来使用这个脚本。

请到这个网址 下载最新版的Anaconda。下拉页面,找到下载位置。根据你目前使用的系统,网站会自动推荐给你适合的版本下载。我使用的是macOS,下载文件格式为pkg。

下载页面区左侧是Python 3.6版,右侧是2.7版。请选择2.7版本。

双击下载后的pkg文件,根据中文提示一步步安装即可。

安装好Anaconda后,我们来下载脚本。

我把脚本存储在了Github项目里。请从这个位置下载压缩包。

下载后解压到本地,这个目录就是咱们的演示目录。

请进入终端(macOS或者Linux),用cd命令进入到这个目录。如果你用的是Windows,请运行Anaconda Prompt程序,并进入该目录。

下面,请执行以下命令。

python ris-add-kw-prefix.py tsqbzs.ris

如果你要尝试处理自己的RIS文件,请把它拷贝到这个演示目录里面,然后把上面命令语句中最后部分(文件名)改成你自己的RIS文件。

执行后,你会发现目录下多了一个文件,叫做output.ris。

我们打开这个新生成的RIS文件。

可以看到,所有的未加前缀的关键词,都已经自动添加了前缀。

我们尝试将这个output.ris输入到VOSviewer,这次的分析结果列表如下:

这时候再看关键词链接数量,就合理多了。

利用这个分析结果来可视化,你会看到以下生成的图形:

在这个样例中,我们只有几十篇文献。利用脚本处理前缀,显得有些大炮轰蚊子。

但如果你需要处理几千、几万篇文献的记录信息,用这个脚本也一样可以瞬间完成操作。效率的差别就体现得淋漓尽致了。

好了,到这里为止,你已经了解如何利用咱们编写的工具,对Endnote导出的中文文献做关键词处理,在VOSviewer中正确分析关键词共现了。

目标达成。

如果你对原理和技术细节不感兴趣,下面就可以跳到小结部分了。

如果你还没走,我来猜猜你在想什么。

这么高效的处理方法,是不是令你感觉不可思议?

老师你的工具至少有300行语句吧?

没有。

其实程序从头到尾,只有20多行。

而其中的核心部分,只有3行。

老师动用了什么黑魔法?!

魔法

我当然不会魔法。

我们使用的,是计算机最简单的能力——根据指令,重复执行枯燥劳动。

从第一行开始,依次检查每一行的文字。如果该行不是空行,而且其中不包含前缀连接符号“-”,那么我们就将其当成未加前缀的关键词。

我们让计算机在这行文字的最前面,加上KW  -前缀。

就是这么简单,一点也不炫酷。

但是计算机怎么理解“不是空行”、“不包含符号‘-’”呢?

请看我们Python文件中的核心函数代码。

def add_kw_prefix(data):
   regex = r"^([^\-\s]+?)\s+$"
   subst = "KW  - \\1"
   newdata = re.sub(regex, subst, data, 0, re.MULTILINE)
   return newdata

我们用到的工具,叫做正则表达式(regular expression),简称re。

它是计算机处理文本模式的一种经典工具。

我们之前谈到机器学习的时候,曾经说过。机器学习模型,是人不知道怎么描述规则的时候,让计算机自己学。

而正则表达式,则恰恰相反,是人类可以很准确地描述规则时,为机器定义的模式。

正确定义模式后,计算机就会检查文本中是否包含这种模式,并且做出对应的处理。

正则表达式的功能非常强大,不过学起来需要花一番功夫。

如果你对正则表达式感兴趣,希望自己也能操纵计算机程序,对文本精确地做出模式识别与处理,可以参考DataCamp上的这篇教程来学习。

小结

通过本文,希望你已经了解了以下内容:

  1. VOSviewer可以正确处理中文文献的关键词共现分析;

  2. CNKI文献元数据经由Endnote导出成RIS时,关键词处理有瑕疵,需要添加对应前缀;

  3. 你可以利用我提供的Python脚本,来快速完成前缀添加工作;

  4. 正则表达式的使用,可以有效提升大规模文本模式匹配与处理操作的效率。

讨论

用本文的方法,你做出了正确的CNKI文献关键词共现分析了吗?在此之前,你是如何处理关键词共现分析的?有没有什么更加简便高效的方法?欢迎留言,把你的经验和思考分享给大家,我们一起交流讨论。

如果你对我的文章感兴趣,欢迎点赞,并且微信关注和置顶我的公众号“玉树芝兰”(nkwangshuyi)。

如果本文可能对你身边的亲友有帮助,也欢迎你把本文通过微博或朋友圈分享给他们。让他们一起参与到我们的讨论中来。


如果喜欢我的文章,请微信扫描下方二维码,关注并置顶我的公众号“玉树芝兰”。

如果你希望支持我继续输出更多的优质内容,欢迎微信识别下方的赞赏码,打赏本文。感谢支持!

欢迎微信扫码加入我的“知识星球”圈子。第一时间分享给你我的发现和思考,优先解答你的疑问。


nkwshuyi
关注 关注
  • 29
    点赞
  • 144
    收藏
    觉得还不错? 一键收藏
  • 4
    评论
关键词共现分析_文献整理可以用上的可视化分析软件
weixin_39952502的博客
11-21 4894
一、管理文献:文献管理软件——EndNote、Mendeley、Citavi、Refworks、Zotero、Papers、ReadCube、NoteExpress等二、看趋势:1 HistCite可快速绘制出某个研究领域的发展脉络,快速锁定某个研究方向的重要文献和学术大咖,还可以找到某些具有开创性成果的无指定关键词的论文。(缺点:引文数据只能来源于Web of Science的文献记录,只支持 ...
CNKI数据库使用与检索.ppt
12-20
CNKI数据库使用与检索.ppt
demo-vosviewer-CNKI-keyword-co-occurence-analysis
04-29
演示Vosviewer-CNKI关键字共现分析
vosviewer关键词共现网络实现
weixin_42515907的博客
12-10 2166
我使用的是wos核心集的数据,导出格式是制表符分隔文件。 具体步骤如下: 点击finish确定之后,就可以出现共现网络图
VOSviewer文献可视化005:关键词共现网络分析
最新发布
qq_41725964的博客
03-21 1892
以Web of Science数据来源为例:1.检索数据:选择【Web of Science核心合集】,(举例)检索主题为“artificial intelligence”和“python”、时间为最近5年的数据,点击【检索】。⬇2.导出数据:选择【纯文本文件】导出(或【制表符分隔文件】),【记录选项】按照数据的数量依次选择1-500、501-719,【记录内容】选择“全记录与引用的参考文献”,点击【导出】。⬇。
如何解决Vosviewer关键词共现分析出现的Incorrect number of columns错误
jpanther的博客
10-30 3854
Vosviewer在做关键词共现分析时,如何完成数据清洗并如何解决Incorrect number of columns错误
5-VOSviewer项目密度图含义解析
qq_39974284的博客
02-21 1万+
1-Vosviewer图谱相关指标详细解释VOSviewer关键词时间图(叠加可视化)详细解释 2-VOSviewer图谱相关指标- Occurrencs与Total link Strength详细解释 3-VOSviewer图谱相关指标-Links、Total link Strength和Documents详细解释 4-VOSviewer关键词时间图(叠加可视化)详细解释 下图为关键词聚类图,可...
# 研究杂感 × VOSviewer(第一辑)
rc15680632552的博客
03-08 2586
VOSviewer 数据可视化 ① —— 英文论文摘要绘制可视化网络 写在前面 很小就喜欢画画,对各种漂亮的东西完全没有吸引力,数据可视化完完全全就是我的菜(当然技术很差只能跪着看别人的 )之前大三痴迷 Tableau 了一段时间(然后3分钟热度就结束了 ),现在又打算入坑VOSviewer,希望能够好好走完… ...
CNKI数据库使用与检索技巧.ppt
11-13
CNKI数据库使用与检索技巧.ppt
Python中国知网(cnki)爬虫及数据可视化分析设计
10-24
毕业设计-中国知网(cnki)爬虫及数据可视化,采用Django和Celery将爬虫内置在网站内,展示实时爬取的数据,数据结果通过Highcharts图表展示!其中数据的爬取是通过python调用selenium驱动Chrome浏览器实现网页内容...
CNKI知识库系统分析及优化研究_黎衍芳
05-17
CNKI知识库系统分析及优化研究_黎衍芳
EndNote入门指南
10-20
Endnote是一款经典的文献管理工具软件,是每一个科研工作者必不可少的工具。
VOSviewer进行中文和英文文献分析
sz1125218970的博客
11-11 6302
笔记
Vosviewer的安装与使用
Alexa_的博客
09-19 3622
关于vosviewer我就不过多介绍了。vosviewer与citespace有什么区别?
[VOSViewer] 合并同义词、删除指定词语
OneChestnut的博客
02-07 8872
1. 在哪一步可以进行该操作 在选完导入的数据之后,“Thesaurus file” 这个选项即是VOSviewer官方设置用来合并同义词,以及删除指定词语的。 将鼠标移到旁边的问号处,即可看到相关的解释。 2. Thesaurus file怎么用 最好的办法还是参考官方文档,下载VOSViewer后,在下图的位置可以找到随附的官方文档。在文档目录中,可以找到 4.3节专门解释了这个文件的使用方法。 文档的最后指出可以参见官方的示例,这两个示例可在VOSViewer下载所在文件夹的“data”文件夹中
【Macos系统】安装VOSviewer及使用VOSviewer教程!!以ESN网络的研究进行案例分析
BetterBench的博客
01-16 2158
本文介绍如何安装和使用VOSviewer软件,并以ESN(Echo State Network)网络的研究为案例进行分析。利用VOSviewer对相关文献进行可视化分析,并深入了解ESN网络在学术研究中的应用和发展情况。VOSviewer是一款用于可视化科学文献、词汇和其他类型数据的开放源代码软件,可以帮助用户发现数据中的模式,并更好地理解其内在结构。
全网独家【超越VOSviewer】突破VOSviewer只能做数据库里数据的限制
qq_39974284的博客
02-21 2273
如何让VosViewer也可以做非数据库中的数据呢? 众所周知,VOSviewer只能做数据库里的文献或专利计量与知识图谱,如中国知网,wos数据库等,对于非数据库中的数据,VOSviewer便无能为力了。 但是,由于VOSviewer具备的主题聚类、密度图等图谱展示非常美观,因此如果VOSviewer只能做文献的知识图谱就浪费了上述算法的强大功能了。 如何让VOSviewer也可以做非数据库中的...
使用NoteExpress/Citespace/VOSviewer/EndNote进行CNKI文献计量分析
weixin_43910227的博客
03-15 1万+
1 数据下载 CNKI下载数据 显示50-全选-导出与分析-NoteExpress-导出 2 数据预处理 NoteExpress新建数据库 NoteExpress中编辑过滤器 使得能对机构进行自动分隔 数据库-右键 导入题录-下拉当前过滤器-更多过滤器-NoteExpress-编辑选中样式-删除模板-字段-作者机构-字段规则-输入AuthorAddress-多字段连接符输入“; ”-另存为NoteExpress New ...
如何用VOSviewer分析CNKI数据?
热门推荐
玉树芝兰
11-12 1万+
学会了用VOSviewer分析Web of Science数据后,想不想知道如何用它分析中文文献?本文用CNKI数据做样例,一步步教你实现步骤。(由于微信公众号外部链接的限制,文中的部分链接可能无法正确打开。如有需要,请点击文末的“阅读原文”按钮,访问可以正常显示外链的版本。)疑问自从写了《如何快速梳理领域文献》一文后,不少读者留言或者来信问我一个问题:如何可视化分析中文文献呢?我之前没有用VOS
citespace 5.6 如何分析cnki文献
10-02
CiteSpace 5.6是一个用于文献分析的软件工具,可用于识别和分析CNKI(中国知网)文献。下面是如何使用CiteSpace 5.6来分析CNKI文献的步骤: 1. 数据准备:从CNKI数据库下载需要分析的文献,并将其导出为EndNote(.enw)格式。确保文献包含作者、标题、关键词、摘要和引用等信息。 2. 软件安装:将CiteSpace 5.6安装到计算机上,并确保已下载和安装了Java运行时环境。 3. 打开CiteSpace 5.6:双击CiteSpace 5.6图标启动软件。 4. 导入文献:在CiteSpace 5.6的菜单栏中选择"File",然后选择"File"或"Files",以导入EndNote格式的CNKI文献文件。 5. 数据预处理:在导入文献后,CiteSpace 5.6会自动进行数据预处理。这包括数据清洗、标准化和去重。根据文献的数量和大小,这个过程可能需要一些时间。 6. 可视化分析:在数据预处理完成后,用户可以使用CiteSpace 5.6的各种功能进行可视化分析。例如,用户可以生成共词图、合著网络图、引文网络图等来观察文献之间的关系和联系。用户还可以根据关键词或作者对文献进行筛选和排序。 7. 结果解读:通过观察和分析生成的图形和数据,用户可以获得对CNKI文献的更深入的理解。例如,用户可以发现热门研究领域、重要作者、引用网络等。这些结果可用于指导进一步的研究和分析。 总之,CiteSpace 5.6是一个功能强大的工具,可以帮助用户对CNKI文献进行分析和可视化。通过使用CiteSpace 5.6,研究人员可以更好地了解CNKI文献之间的关系和趋势,并借此指导和支持后续的研究工作。

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
写文章

热门文章

  • 如何用Python爬数据?(一)网页抓取 210920
  • 如何用iPad运行Python代码? 45958
  • 如何用VOSviewer分析CNKI关键词共现? 39387
  • 如何用Python批量提取PDF文本内容? 34467
  • 如何用Python提取中文关键词? 32693

分类专栏

  • 机器学习 1篇
  • 深度学习 1篇
  • python 1篇

最新评论

  • 可视化卡片笔记写作?我试了最近才开放的 Heptabase

    小枝晚落: 怎么订阅呢,国内支付方式可以吗

  • Heptabase 究竟好在哪儿?

    小枝晚落: 每个月多少钱呀

  • 如何正确使用机器学习中的训练集、验证集和测试集?

    阿振: 首先给这篇文档的博主点赞,文章后面准备多拜读几遍,知其然还要知其所以然,通过简单易懂的类比把训练集、验证集、测试集的关系讲的通俗易懂,充分说明了博主对这些东西的理解是相当深刻的。 另外博主从学术角度进行了阐述, 拔高了n个层次,再次为博主点赞,如果中国每个科研人都能像这样扎扎实实做学术,明明白白搞科研,中华复兴估计早就实现了。

  • 文献回顾与文献综述的区别是什么?

    CSDN-Ada助手: Python入门 技能树或许可以帮到你:https://edu.csdn.net/skill/python?utm_source=AI_act_python

  • 如何用 Open Interpreter 帮你自动做数据可视化?

    chenxia89: 王老师,为啥文章都是只有一半啊

您愿意向朋友推荐“博客详情页”吗?

  • 强烈不推荐
  • 不推荐
  • 一般般
  • 推荐
  • 强烈推荐
提交

最新文章

  • 如何让 AI 自动阅读文档样例,编写符合你需求的代码?
  • 开发文档 RAG 的 GPTs 如何更高效地帮你 AI 编程?
  • 给你推荐一款强悍的 RAG 智能搜索引擎
2024年36篇
2023年32篇
2022年36篇
2021年45篇
2020年26篇
2019年32篇
2018年59篇
2017年17篇

目录

目录

评论 4
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43元 前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值

聚圣源伪原创代写怎么给孩子起名字怎样起名食品公司起名免费公司名称起名周易免费起名称最大货轮獐子岛扇贝事件dota6.78ai地图披萨店起名满清十大酷刑在线观看麻花辫子回到古代当匠神手机街机游戏摸胸视频公司起名方法全攻略公司软件起名下载李居明 起名学店铺免费起名测名打分结果赵姓马宝宝起名南丁格尔jstv.com三毛从军记电影男生被男生做的漫画个体饮食店如何起名张姓女孩起名高分攻略生化危机5百度云骨龄鉴定申请书孩子起名大全免费开医疗器械公司起名吉凶淀粉肠小王子日销售额涨超10倍罗斯否认插足凯特王妃婚姻让美丽中国“从细节出发”清明节放假3天调休1天男孩疑遭霸凌 家长讨说法被踢出群国产伟哥去年销售近13亿网友建议重庆地铁不准乘客携带菜筐雅江山火三名扑火人员牺牲系谣言代拍被何赛飞拿着魔杖追着打月嫂回应掌掴婴儿是在赶虫子山西高速一大巴发生事故 已致13死高中生被打伤下体休学 邯郸通报李梦为奥运任务婉拒WNBA邀请19岁小伙救下5人后溺亡 多方发声王树国3次鞠躬告别西交大师生单亲妈妈陷入热恋 14岁儿子报警315晚会后胖东来又人满为患了倪萍分享减重40斤方法王楚钦登顶三项第一今日春分两大学生合买彩票中奖一人不认账张家界的山上“长”满了韩国人?周杰伦一审败诉网易房客欠租失踪 房东直发愁男子持台球杆殴打2名女店员被抓男子被猫抓伤后确诊“猫抓病”“重生之我在北大当嫡校长”槽头肉企业被曝光前生意红火男孩8年未见母亲被告知被遗忘恒大被罚41.75亿到底怎么缴网友洛杉矶偶遇贾玲杨倩无缘巴黎奥运张立群任西安交通大学校长黑马情侣提车了西双版纳热带植物园回应蜉蝣大爆发妈妈回应孩子在校撞护栏坠楼考生莫言也上北大硕士复试名单了韩国首次吊销离岗医生执照奥巴马现身唐宁街 黑色着装引猜测沈阳一轿车冲入人行道致3死2伤阿根廷将发行1万与2万面值的纸币外国人感慨凌晨的中国很安全男子被流浪猫绊倒 投喂者赔24万手机成瘾是影响睡眠质量重要因素春分“立蛋”成功率更高?胖东来员工每周单休无小长假“开封王婆”爆火:促成四五十对专家建议不必谈骨泥色变浙江一高校内汽车冲撞行人 多人受伤许家印被限制高消费

聚圣源 XML地图 TXT地图 虚拟主机 SEO 网站制作 网站优化