一文详解 如何用 R 语言进行卡方检验。

本文主要介绍如何用R语言进行 卡方检验,将按以下顺序进行介绍。
在这里插入图片描述

一、卡方检验基本概念

1、基本原理:卡方检验就是统计样本的实际观测值与理论推断值之间的偏离程度,实际观测值与理论推断值之间的偏离程度就决定卡方值的大小,如果卡方值越大,二者偏差程度越大;反之,二者偏差越小;若两个值完全相等时,卡方值就为0,表明理论值完全符合。
注意:卡方检验针对分类变量。
2、常见用途:检验两个变量之间是否有关系,比如机器学习中的特征选择,以及医学领域(这块我不了解~~)。
3、计算公式:
3.1通用公式:
在这里插入图片描述
observed:观察频数
expected:理论频数
3.2四格卡方值快速计算公式(又叫拟合度公式):
在这里插入图片描述
4 自由度:简称df(degree of freedom),指的是计算某一统计量时,取值不受限制的个数。
5、适用条件:
1、四格卡方表中的理论频数都应大于5,且n>40
2、当n>40,但理论频数大于 1 且小于5时,此时计算卡方值的通用公式需要进行校正,或者用fisher精确检验,在R语言中的函数为fisher.test()。
6、校正后的卡方值计算公式:
在这里插入图片描述
二、例题计算

假设我们现在有这样一份原始数据:(乱造的)
在这里插入图片描述
我们想探究一下感冒与喝牛奶之间是否有关联,接下来,我们将原始数据转换为四格卡方值,因为两个变量都只有两个值(是与否),所以就是四格卡方检验,当然可能您要检验的其他两个变量之间有其他的特征值,比如有变量天气(晴天,雨天,阴天,下雪)与变量出门(是,否),那这个时候就成了4*2格卡方检验,好了,简单的提一下,不扯远了~,那么经过统计转换后的四格卡方数据如下:
在这里插入图片描述
更一般的格式是这样的:

在这里插入图片描述
好了,现在的数据处理已经完了,接下来就该进行假设检验了,
让我们再回顾一下临界值法假设检验的步骤吧:
1 、给出原假设,备择假设
2 、找统计量,此时需要知道统计量的分布。
3、在给定显著性水平下,求出临界值,构造拒绝域。
4、求出观察值
5、将临界值与观察值进行比较,得出假设检验的结论。
好了,接下来就将问题代入到假设检验的步骤中吧。
小提示:卡方分布为右侧单边检验,如下,这就是一个卡方分布的概率密度函数。在这里插入图片描述
好了,现在正式开始临界值法 假设检验,先说下原理吧。
临界值法假设检验原理:在给定显著性水平α 和统计量的概率密度函数的条件下,我们可以求得拒绝域的临界值,如果我们计算出统计量的观察值落入了拒绝域内,即我们拒绝原假设,否则我们就接受原假设。
现在正式开始 ^ ^
STEP1:原假设:感冒与喝牛奶没有关系 (通常是我们希望推翻的假设,故又称零假设)
备择假设:感冒与喝牛奶有关系。
STEP2:找统计量,此时的统计量就是我们的卡方值计算公式,分布就是卡方分布。统计量:
在这里插入图片描述
STEP3:给定显著性水平α=0.05,此时自由度df=(行数–1)*(列数–1)=1
切勿认为,四格卡方数据中,行数=列数=3
现在,在卡方分布的条件下,我们就可以计算出拒绝域的临界值了:
我用R语言来求:
在这里插入图片描述
上面已经提到过,卡方检验为右侧单边检验,所以拒绝域就是K=[3.8414,∞] (临界值我取了个大概为3.8414)
STEP4:求观察值
求观察值这里,需要细讲一下,我们现在已知观察频数表,重要的是如何求得理论频数表,
在这里插入图片描述

现在我们再回头看我们的原假设:感冒与喝牛奶没有关系
在这个假设下,我们可以根据观察频数表求得感冒率:感冒人数 / 总人数=110/220=0.5,即感冒率就是0.5
那么,现在我们就开始填充上面的理论频数表:
1、先填充理论频数表中的喝牛奶这一行:
根据观察频数表我们知道现在喝牛奶的有120个人,感冒率为0.5,则理论频数表中的’a?’=120 × 感冒率=120*0.5=60,同理,不感冒率为1-0.5,则‘b?’=喝牛奶人数 ×不感冒率=120 ×(1-0.5)=60
2、再填充理论频数表中的不喝牛奶这一行:
不喝牛奶的有100人,感冒率为0.5,则‘c?’=100×0.5=50
同理,‘d?’=不喝牛奶人数 × 不感冒率=100×(1-0.5)=50
至此,我们的理论频数表就填充完成了,如下:
在这里插入图片描述
注意:当理论频数表中有理论值小于5时,则应该使用校正后的卡方值计算公式,公式已经写在上面。
可以尝试用R语言来检验一下是否计算正确:
在这里插入图片描述
可以看到,我们的计算结果正确。
现在我们开始计算观察值,也就是前面我们提到的卡方值通用公式计算:
在这里插入图片描述
当然,对于四格卡方检验,我们也可以拟合度公式来快速求出卡方值。

STEP5:可以很明显看出观察值89.83>3.8414,即我们的观察值落入了拒绝域内,我们就拒绝原假设,接受备择假设,即感冒与喝牛奶有关系。。

三、用R语言来进行卡方检验。
3.1、卡方检验的函数:
首先来看下R语言中进行卡方检验的公式:
在这里插入图片描述
特别需要注意一下这个参数correct,它默认的就是TRUE,即进行卡方值修正,也就是上面我们说的那个校正公式。
在这里插入图片描述
你看,现在的卡方值怎么为87.285,但是我们用通用公式计算的不是89.83多吗?,现在我把参数correct设置为F:
在这里插入图片描述
可以看到,现在卡方值和我们原来用通用公式计算的相同了,且P-value<2.2e-16,远小于我们的显著性水平α=0.05,即我们拒绝原假设。
3.2 P值检验法、
好了,既然说到用R来进行卡方检验了,就再提一下另外一种假设检验方法,即P值检验法,它的假设检验步骤如下:
1、给出原假设,备择假设。
2、给出统计量,需要已知该统计量的分布。
3、根据样本,求出该统计量的观察值,依据观察值与该统计量的分布函数,我们可以求出拒绝原假设的最小的显著性水平P。
4、比较P与给定的显著性水平α,若P<=α,则在显著性水平α下拒绝原假设,否则,接受原假设。
而我们用R语言进行假设检验,通常都是P值法假设检验,其实临界值法假设检验和P值法假设检验,二者是殊途同归。
从已求得的卡方观察值为89.3,那么拒绝原假设的最小的显著性水平P是多少呢?下面我将用卡方分布的分位数函数来求出P值:
在这里插入图片描述
我们可以看到,P值约为2.5985e-21,而chisq.test给出的P值应该是压缩了一些。
好了,以上就是这篇文章的全部内容了,本文基本纯手打,如果有错误,还请各位大佬指出,非常感谢!如果有帮助到您,欢迎点赞、收藏 ^ ^
参考:
https://www.jianshu.com/p/bb0bd72bc428

小风alter
关注 关注
  • 41
    点赞
  • 177
    收藏
    觉得还不错? 一键收藏
  • 3
    评论
R语言中的卡方检验
Mrrunsen的博客
02-09 8470
大家应该很熟悉卡方检验卡方检验作为非参数检验的一种主要应用大样本数据(样本量>40)。今天我们详细介绍R语言卡方检验的实现与应用。 1. 我们看下理论基础 (1)检验某个连续变量的分布是否与某种理论分布相一致。如是否符合正态分布、是否服从均匀分布等 ①提出原假设H0:变量符合F(x)分布(针对连续型变量),若针对离散型变量,则要假设其分布律 ②将样本划分区间k个,每个区间样本数不小于5,区间互不相交,获得每个区间的实际频数fi ③根据假设分布的分布函数,求出每个区间的理论概率pi,得到理
R语言基础 | 卡方检验与列联表、独立性检验
R语言学堂
11-12 3223
专注系列化、高质量的R语言教程推文索引 | 联系小编 | 付费合集上篇介绍了三大检验的t检验和F检验,本篇接着介绍卡方检验。相比于前两者,我们其实更早地接触到卡方检验,它在高中数学教材中就已经出现,但用的却相对较少。本篇目录如下:1 22列联表下的卡方检验2 一般情况的卡方检验3 chisq.test函数1 22列联表下的卡方检验卡方检验适用于计数事件的独立性检验。在高中阶段见到的就是22列联表(...
R语言检验独立性:卡方检验(Chi-square test)和费舍尔Fisher精确检验分析案例报告
大数据部落
06-12 5665
原文http://tecdat.cn/?p=3715 统计测试最常见的领域之一是测试列联表中的独立性。在这篇文章中,我将展示如何计算列联表,我将在列联表中引入两个流行的测试:卡方检验和Fisher精确检验。 什么是列联表? 列联表提供关于两个分类变量的测量的整数计数。最简单的列联表是一个2×22×2频率表,由两个变量产生,每个变量有两个级别: 组/观察 观察1 观察2 ...
卡方检验软件
02-28
可用于卡方检验计算,统计数据分析,方便使用,避免SPSS软件的难处
使用R语言进行卡方检验
Simmons_0724的博客
09-20 892
https://www.jianshu.com/p/bb0bd72bc428
R语言_卡方检验
热门推荐
fanlei的博客
10-13 1万+
R语言 卡方检验 由 xiaoxiaogang 创建,youj 最后一次修改 2016-12-12 卡方检验是一种确定两个分类变量之间是否存在显着相关性的统计方法。 这两个变量应该来自相同的人口,他们应该是类似 - 是/否,男/女,红/绿等。 例如,我们可以建立一个观察人们的冰淇淋购买模式的数据集,并尝试将一个人的性别与他们喜欢的冰淇淋的味道相关联。 如果发现相关性,我
基于R实现统计中的检验方法---卡方检验
R语言中文社区
02-22 6316
作者:徐涛,19年应届毕业生,专注于珊瑚礁研究,喜欢用R各种清洗数据。知乎:https://www.zhihu.com/people/parkson-19/posts前言...
desktop_逻辑回归_R语言卡方检验_疾病模型_卡方检验_metaCCA_
09-30
针对具有遗传性疾病和性状的遗传位点分析问题,使用假设检验的方法,分别采用卡方检验、逻辑回归、SKAT 以及metaCCA 方法建立数学模型,使用MATLAB 和R 语言及其工具包进行编程,在合理的假设下,确定了与遗传性疾病...
卡方检验的Matlab实现
01-08
基于Matlab实现的卡方检验源代码,欢迎下载,学习交流 1 基于Matlab实现的卡方检验源代码,欢迎下载,学习交流 1
卡方检验的Matlab实现.zip
05-07
基于Matlab实现的卡方检验源代码,欢迎下载,学习交流。
卡方检验
01-20
医学中最最常见的就是四格表的卡方检验,spss教材上计算四格表资料的卡方检验结果值有:Pearson chi-square 、Continuity correction 、Likelihood ratio 、 Fisher’s exact test 、 Linear-by-Linear association ...
R语言卡方(chisq)分布
qq_27390023的博客
06-10 1万+
若n个相互独立的随机变量ξ₁,ξ₂,...,ξn ,均服从标准正态分布(也称独立同分布于标准正态分布),则这n个服从标准正态分布的随机变量的平方和构成一新的随机变量,其分布规律称为卡方分布(chi-square distribution)。 Density, distribution function, quantile function and random generation for the chi-squared (chi^2) distribution with degrees of freed
R语言卡方检验最全总结
医学和生信笔记的博客
10-30 7565
完美观看体验请至公众号查看本文。,专注R语言在临床医学中的使用,R语言数据分析和可视化。卡方检验/列联表资料的卡方检验在临床中非常常见!因为最近又有一批临床数据要进行统计,所以趁机把卡方检验的R语言实现再重新梳理一遍。这篇文章涵盖了。课本电子版和配套数据已上传到QQ群,需要的朋友加群下载即可。
R语言学习:卡方检验
justbrain的博客
10-09 6480
本文是个人学习笔记 卡方检验用来检验类别变量。 一、频数与频率 性别在不同组中的频数: > gender_f <- table(data_paper$gender, data_paper$group) > print(gender_f) 1 2 3 1 6 16 9 2 7 7 10 #行是性别,列是组 性别在不同组中的频率: > prop.table( gender_f, 2 ) 注意,这里2代表 “gender_f” 中
scratch2源码星球大战
05-30
scratch2源码星球大战提取方式是百度网盘分享地址
scratch2源码母亲节
05-30
scratch2源码母亲节提取方式是百度网盘分享地址
asp.net中图像的检索技术毕业设计(论文+源码+任务书+开题报告+答辩ppt).rar
最新发布
05-30
图像处理,asp.net中图像的检索技术毕业设计(论文+源码+任务书+开题报告+答辩ppt)
scratch2源码微重力方块
05-30
scratch2源码微重力方块提取方式是百度网盘分享地址
R 语言进行卡方检验
08-21
在R语言进行卡方检验的方法有多种。一种常见的方法是使用chisq.test()函数。该函数可以计算卡方值和p值。根据引用中的内容,可以使用以下步骤进行卡方检验: 1. 给出原假设和备择假设。 2. 使用chisq.test()函数计算卡方值和p值。默认情况下,该函数会进行卡方值的修正,但你可以通过设置参数correct为FALSE来使用通用公式计算卡方值。 3. 根据给定的显著性水平α,比较p值和α。如果p值小于等于α,则拒绝原假设,否则接受原假设。 需要注意的是,根据引用中提供的信息,chisq.test()函数给出的p值可能会有所压缩。你可以使用卡方分布的分位数函数来获得更准确的p值。 总结起来,使用R语言进行卡方检验的一般步骤如下: 1. 设置原假设和备择假设。 2. 使用chisq.test()函数计算卡方值和p值。 3. 比较p值和给定的显著性水平α,判断是否拒绝原假设。 请注意,这只是一种常见的方法,实际上还有其他方法可以使用R语言进行卡方检验。<span class="em">1</span><span class="em">2</span><span class="em">3</span> #### 引用[.reference_title] - *1* [R语言_卡方检验](https://blog.csdn.net/fanlei_lianjia/article/details/78225231)[target="_blank" data-report-click={"spm":"1018.2226.3001.9630","extra":{"utm_source":"vip_chatgpt_common_search_pc_result","utm_medium":"distribute.pc_search_result.none-task-cask-2~all~insert_cask~default-1-null.142^v93^chatsearchT3_2"}}] [.reference_item style="max-width: 33.333333333333336%"] - *2* [一文详解 如何用 R 语言进行卡方检验。](https://blog.csdn.net/weixin_44298740/article/details/107225872)[target="_blank" data-report-click={"spm":"1018.2226.3001.9630","extra":{"utm_source":"vip_chatgpt_common_search_pc_result","utm_medium":"distribute.pc_search_result.none-task-cask-2~all~insert_cask~default-1-null.142^v93^chatsearchT3_2"}}] [.reference_item style="max-width: 33.333333333333336%"] - *3* [desktop_逻辑回归_R语言卡方检验_疾病模型_卡方检验_metaCCA_](https://download.csdn.net/download/weixin_42668301/26272989)[target="_blank" data-report-click={"spm":"1018.2226.3001.9630","extra":{"utm_source":"vip_chatgpt_common_search_pc_result","utm_medium":"distribute.pc_search_result.none-task-cask-2~all~insert_cask~default-1-null.142^v93^chatsearchT3_2"}}] [.reference_item style="max-width: 33.333333333333336%"] [ .reference_list ]

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
写文章

热门文章

  • 百度OCR API识别失败:Open api qps request limit reached 错误也许在这 61658
  • 一文详解 如何用 R 语言进行卡方检验。 38184
  • PyTorch的 nn.CrossEntropyLoss() 方法详解 16509
  • 安装dplyr报错之rlang’ 0.4.5,但需要的是>= 0.4.10 14741
  • 用 R 来进行时间序列分析中的参数的显著性检验 11844

最新评论

  • 惨遭 openssl 不同版本毒打的一天

    DreamHs-love-Wm: 哪里位置加呢

  • 惨遭 openssl 不同版本毒打的一天

    Aliuer: 1.1版本加个参数 -md md5 就可以了,摘要算法是可以指定的

  • 惨遭 openssl 不同版本毒打的一天

    uygurjan2008: 我正在经历openssl的毒打,已经三天了还没有结果 关键是还要用golang实现

  • 2021年R语言学习路线以及资源推荐

    weixin_46333699: R语言学习资源

  • 一文详解 如何用 R 语言进行卡方检验。

    小熊呀~: Chisq.test(y,correct=T)

大家在看

  • 【Linux】如何利用linux项目自动化构建工具-make/Makefile以及vim编辑器构建两个小程序:倒计时和进度条
  • Python魔法之旅-魔法方法(08)
  • 计算机基础学习路线 361
  • 【Java】Java主要知识点目录整理 286
  • 排队论 | 基于排队论的新能源充电站Matlab仿真

最新文章

  • 【无标题】
  • 百度OCR API识别失败:Open api qps request limit reached 错误也许在这
  • 2021年R语言学习路线以及资源推荐
2023年1篇
2021年11篇
2020年8篇

目录

目录

评论 3
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43元 前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值

聚圣源芮起名压缩软件排行计件工资软件韩文起名翻译伊人:谢文大胆私拍人体男孩罗起名用菊起个微信名工程公司起名的字荣辱观教育dnf复仇者名字公众号起名大全amorz最大胆37人体艺照片起名称 易经汽车起重机厂家排名工藤有希子粮油批发起名大数据起名字叔叔不约匿名聊天网站生辰八字起名网免费取名民办教育机构起名黑冰客2010年NBA总决赛巴萨vs阿森纳棋牌室起什么名称不收费的定位找人软件惠普电脑怎么样起名字免费起名女孩张姓起名寇梓起那个名字淀粉肠小王子日销售额涨超10倍罗斯否认插足凯特王妃婚姻让美丽中国“从细节出发”清明节放假3天调休1天男孩疑遭霸凌 家长讨说法被踢出群国产伟哥去年销售近13亿网友建议重庆地铁不准乘客携带菜筐雅江山火三名扑火人员牺牲系谣言代拍被何赛飞拿着魔杖追着打月嫂回应掌掴婴儿是在赶虫子山西高速一大巴发生事故 已致13死高中生被打伤下体休学 邯郸通报李梦为奥运任务婉拒WNBA邀请19岁小伙救下5人后溺亡 多方发声王树国3次鞠躬告别西交大师生单亲妈妈陷入热恋 14岁儿子报警315晚会后胖东来又人满为患了倪萍分享减重40斤方法王楚钦登顶三项第一今日春分两大学生合买彩票中奖一人不认账张家界的山上“长”满了韩国人?周杰伦一审败诉网易房客欠租失踪 房东直发愁男子持台球杆殴打2名女店员被抓男子被猫抓伤后确诊“猫抓病”“重生之我在北大当嫡校长”槽头肉企业被曝光前生意红火男孩8年未见母亲被告知被遗忘恒大被罚41.75亿到底怎么缴网友洛杉矶偶遇贾玲杨倩无缘巴黎奥运张立群任西安交通大学校长黑马情侣提车了西双版纳热带植物园回应蜉蝣大爆发妈妈回应孩子在校撞护栏坠楼考生莫言也上北大硕士复试名单了韩国首次吊销离岗医生执照奥巴马现身唐宁街 黑色着装引猜测沈阳一轿车冲入人行道致3死2伤阿根廷将发行1万与2万面值的纸币外国人感慨凌晨的中国很安全男子被流浪猫绊倒 投喂者赔24万手机成瘾是影响睡眠质量重要因素春分“立蛋”成功率更高?胖东来员工每周单休无小长假“开封王婆”爆火:促成四五十对专家建议不必谈骨泥色变浙江一高校内汽车冲撞行人 多人受伤许家印被限制高消费

聚圣源 XML地图 TXT地图 虚拟主机 SEO 网站制作 网站优化