业界动态
统计中的假设检验介绍-t检验-A/B测试及python示例
2024-11-09 19:40

写在前面

统计中的假设检验介绍-t检验-A/B测试及python示例

  • 假设检验,是根据一定的假设条件,由样本推断总体的一种方法。

  • 标准差和标准误的区别: 1)标准差: 一次抽样样本的标准差,反应这些样本的离散程度,用于描述统计; 2)标准误 :多次抽样中先计算每一次抽样样本的平均值,然后计算这些均值的标准差,反应的是这些均值之间的离散程度,用于推论统计。

  • 我以前常分不清楚如何定义原假设和备择假设,后来用一个例子才记得比较深刻:就像法庭审判犯人,会首先假设他是一个好人(备择假设,然后提交证据证明他是有罪的(原假设)。

    所以假设检验选择原假设和备择假设的原则如下: 1)原假设:想要证明其不好的方向(证明有罪; 2)备择假设:是想要证明其好的方向(若原假设发生概率比较低,也就是没有充分的理由证明有罪,那就是无罪的

以下大部分内容转载:https://zhuanlan.zhihu.com/p/37265478 在此基础上,根据自己的理解思路在结构上略有调整,记录下来以供学习,感谢原作者。

①根据实际问题,确定出零假设H0和备择假设H1。H0和H1互为相反,非此即彼,不可能同时满足。

②确定检验类型。检验类型包括:单样本t检验、相关配对t检验、独立双样本t检验。

③均值的抽样分布。

  • 当小样本时,即样本容量n<30,假如总体近似服从正态分布,则均值的抽样分布为t分布

  • 当大样本时,即样本容量n>=30,无论总体为何分布,均值的抽样分布均为正态分布。(中心极限定理

④确定检验方向。看备择假设H1的描述

  • 如果H1中包含小于号"<",则为左尾

  • 如果H1中包含大于号">",则为右尾

  • 如果H1中包含不等号"≠",则为双尾。

检验类型及检验方向的判定,总结为下表检验类型和检验方向

有一种说法:假设检验就是个p(不是拍马屁的屁哦

没错,假设检验最核心的步骤就是计算p值,什么是p值呢

p值就是:在零假设H0成立的条件下,出现样本均值的概率是多少。

t检验的p值计算过程

方法一:根据样本均值和标准误,结合抽样分布类型,先计算出检验统计量和自由度,手动查表计算p值

方法二:使用Python的科学计算包scipy自动计算检验统计量和p值。

显著性水平α,由人为根据实际情况主观指定,常用的显著性水平α=0.05。

根据检验是单尾还是双尾,用最终的p值与α值做比较

  • 当p<=α时,拒绝零假设H0,接受备择假设H1

  • 当p>α时,没有充分的证据拒绝零假设(倾向于接受H0,但需要进一步证据)。

1、描述统计分析

对样本数据进行描述统计,报告平均值和标准差。

2、推论统计分析

  • 报告假设检验结果:采用APA格式,需要报告检验类型、抽样分布类型、检验方向、检验统计量、p值、显著性水平α

  • 报告置信区间:根据APA格式,需要报告置信区间的类型、置信水平、区间上下限

  • 报告效应量:效应量代表实际效果是否显著,包含两种度量方法: ①差异度量Cohen’s d = (样本均值1-样本均值2)/标准差; ②相关度r^2 = t2/(t2+df),df是自由度

示例 在这里插入图片描述

以一个示例来了解:汽车引擎排放标准

汽车引擎是否满足排放标准 “Super Engine”是一家专门生产汽车引擎的公司,根据政府发布的新排放要求,引擎排放平均值要低于20ppm。公司制造出10台引擎供测试使用,每一台的排放水平如下: 15.6 16.2 22.5 20.5 16.4 19.4 16.6 17.9 12.7 13.9 问题:公司生产的引擎是否符合政府规定呢

准备基础数据

 

1、描述统计分析

 

输出在这里插入图片描述 2、推论统计分析

A、假设检验

1)问题是什么 在这里插入图片描述

小样本的抽样分布是否满足t分布使用条件(总体近似正态?因总体未知,此处只能通过样本数据的可视化分布,大致推断总体是否服从单峰的正态分布。

 

在这里插入图片描述 通过观察样本集分布,可以看出总体近似服从正态分布。

总结:定义了零假设和备择假设,确定了检验类型为单样本t检验中的左尾检验,自由度df=9。

2)证据是什么

证据就是计算p值(零假设成立的前提下,出现样本均值的概率。

 

输出在这里插入图片描述 由于该例属于单尾检验,所以最终的p值需要双尾p值除以2

 

输出在这里插入图片描述 3)判断标准是什么

常用的显著性水平α=5%

 

4)结论是什么

单尾p值与显著性水平α作比较:当p<=α时,拒绝零假设H0,接受备择假设H1;当p>α时,没有充分的证据拒绝零假设(倾向于接受H0,但需要进一步证据)。

 

输出在这里插入图片描述 B、置信区间

置信区间在不同的置信水平下有不同的“宽度”,此处置信水平为95%。

 

输出在这里插入图片描述 C、效应量

当假设检验具有统计显著的结论时,需要进一步研究是否具有实际意义,即实验结果是否“效果显著”?衡量效果显著用Cohen’s d指标,它表示:样本均值1与样本均值2,差异有几个标准差。差异大小的衡量标准如下在这里插入图片描述

 

输出在这里插入图片描述 3、关于“汽车引擎是否满足排放标准”的整体数据分析报告如下

(说明:以下截图中的数值跟文中代码运行出来的结果略不同,这是因为我用的数据略有不同,此处只要了解下面的报告形式中包含哪些内容即可 在这里插入图片描述

同样的,以一个示例来了解:斯特鲁普效应验证

验证斯特鲁普效应是否存在 斯特鲁普效应是著名的心理学现象,展示了人们对事物的认知过程是一个自动化的历程。当有一个新的刺激出现时,如果它的特征和原先的刺激相似或符合一致,便会加速人们的认知;反之,若新的刺激特征与原先的刺激不相同,则会干扰人们的认知,使人们的反映时间变长。 通过网上的stroop实验做测试人的反应时间斯特鲁普效应,每名参与者得到两组有颜色的文字,第一组数据是字体内容和字体颜色一致,第二组数据是字体内容和字体颜色不一致。每名参与者对每组文字说出文字的颜色,并分别统计完成每组的时间。 问题:验证斯特鲁普效应的存在(不一致组反应时间均值比一致组反应时间均值长

准备基础数据

 

在这里插入图片描述

1、描述统计分析

 

输出在这里插入图片描述 2、推论统计分析

A、假设检验

1)问题是什么 在这里插入图片描述 相关配对检验关心的是两组成对数据的差值,因此需先构造出差值数据

 

在这里插入图片描述 假设检验中的t检验,需要总体满足近似正态分布的条件,但总体未知,可以从样本数据的核密度图粗略估计

 

在这里插入图片描述

通过观察样本集配对差值数据的分布,可以看出总体近似服从正态分布。

总结:定义了零假设和备择假设,确定了检验类型为相关配对t检验中的左尾检验,自由度df=n-1=9。

2)证据是什么

证据就是计算p值(零假设成立的前提下,出现样本均值的概率)。

 

输出在这里插入图片描述 由于该例属于单尾检验,所以最终的p值需要双尾p值除以2

 

输出在这里插入图片描述 3)判断标准是什么

常用的显著性水平α=5%

 

4)结论是什么

单尾p值与显著性水平α作比较:当p<=α时,拒绝零假设H0,接受备择假设H1;当p>α时,没有充分的证据拒绝零假设(倾向于接受H0,但需要进一步证据)。

 

输出在这里插入图片描述 B、置信区间

置信区间在不同的置信水平下有不同的“宽度”,此处置信水平为95%。

 

输出在这里插入图片描述 C、效应量

当假设检验具有统计显著的结论时,需要进一步研究是否具有实际意义,即实验结果是否“效果显著”?衡量效果显著用Cohen’s d指标,它表示:样本均值距总体均值几个标准差,代表差异是否显著

 

输出在这里插入图片描述 效果显著。

3、关于“验证斯特鲁普效应存在性”的整体数据分析报告如下

(说明:以下截图中的数值跟文中代码运行出来的结果略不同,这是因为我用的数据略有不同,此处只要了解下面的报告形式中包含哪些内容即可 在这里插入图片描述

同样的,以一个示例来了解

验证两款键盘布局对用户体验性是否有差别 两款键盘布局不一样的手机应用(A版本,B版本),你作为公司的产品经理,想在正式发布产品之前,知道哪个键盘布局对用户体验更好? 随机抽取实验者,将实验者分成2组,每组25人,A组使用键盘布局A,B组使用键盘布局B。让他们在30秒内打出标准的20个单词文字消息,然后记录打错字的数量。 问题:两种版本布局是否用户体验显著不同,哪种更好在这里插入图片描述 准备基础数据

 

在这里插入图片描述 1、描述统计分析

 

输出在这里插入图片描述 2、推论统计分析

A、假设检验

1)问题是什么 在这里插入图片描述 假设检验中的t检验,需要总体满足近似正态分布的条件,但总体未知,可以从样本数据的核密度图粗略估计

 

在这里插入图片描述 由两样本数据集的分布情况可粗略估计,其所在的总体也近似服从正态分布,故抽样分布满足t分布使用条件。

在做独立双样本t检验之前,需要先做方差分析(F检验,判断两总体方差是否显著不同,我们称该操作为方差齐性检验。方差相同情况为“等方差,方差不同情况为“异方差”。两种情况下,计算的检验统计量t值和自由度df会存在差异。

 

输出在这里插入图片描述

 

输出在这里插入图片描述

 

在这里插入图片描述 补充:单纯的方差齐性检验也可通过下面3种方法 得到结果

 

在这里插入图片描述

无论以上哪种方法做方差齐性检验,均得到p值大于显著性水平α的结果,证明两总体等方差a_var = b_var。

总结:定义了零假设和备择假设,确定了检验类型为独立双样本t检验,双尾检验,经方差齐性检验,两总体方差相同,自由度df=n1+n2-2=22

2)证据是什么

计算检验统计量和p值.

 

输出在这里插入图片描述 3)判断标准是什么

常用的显著性水平α=5%

 

4)结论是什么

 

输出在这里插入图片描述 B、置信区间

置信区间在不同的置信水平下有不同的“宽度”,此处置信水平为95%。

 

输出在这里插入图片描述 通过读取置信区间的数值,区间边界值均为负值,证明A版本打错字数量均值显著小于B版本,即A布局版本更符合用户体验。

C、效应量

 

输出在这里插入图片描述 效果显著。

独立双样本的混合标准差sp的计算公式可参考统计书籍《商务与经济统计第12版》275页最下面;样本均值=样本均值1-样本均值2。

3、关于“两款键盘布局对用户体验性是否有差别”的整体数据分析报告如下 在这里插入图片描述

本文介绍了统计学的重头戏:假设检验的实现方法,重点介绍t检验

    以上就是本篇文章【统计中的假设检验介绍-t检验-A/B测试及python示例】的全部内容了,欢迎阅览 ! 文章地址:http://keair.bhha.com.cn/news/336.html 
     文章      相关文章      动态      同类文章      热门文章      栏目首页      网站地图      返回首页 康宝晨移动站 http://keair.bhha.com.cn/mobile/ , 查看更多   
最新文章
Tap Translate Screen翻译器手机版手机在线翻译「Tap Translate Screen翻译器手机版」
Tap Translate Screen翻译器手机版app是一款实用的翻译工具应用,可以帮助用户实时翻译屏幕上的文字,支持多种语言的互译,在线
今天起,手机充电请调整一下!手机多少电量充电合适「今天起,手机充电请调整一下!」
901公司招聘计划手机电量还剩多少,对许多人而言都是一个关键的问题。人们对手机充电的强烈需求,也让市面上催生出许多噱头产品
在手机上怎么炒股票,同花顺可以炒股吗手机炒股「在手机上怎么炒股票,同花顺可以炒股吗」
您好,很高兴为您解答问题。同花顺可以炒股,现在很多人通过手机炒股,因为它方便快捷,可以随时随地跟踪行情和进行交易。以下是
4月14日美股盘前要闻
钛媒体App 4月14日消息,美股盘前要闻:1. 美国股指期货集体上涨,截至目前,道指期货涨1.08%,标普500指数期货涨1.59%,纳斯达
警惕“高阶智驾”陷阱!诱导“解放双手”,最高可判处死刑
近期,因驾驶人错误使用辅助驾驶导致的交通事故时有发生,引起社会关注讨论。部分驾驶人对辅助驾驶的认知不到位,误以为“辅助驾
中房协将于4月21日-22日召开“中小房企稳健发展经验交流会”
观点网讯:4月8日,中国房地产业协会宣布,为深入探讨中小房企、本土房企稳健经营经验,促进企业间相互学习、交流借鉴,中国房地
奈雪的茶2024年营收近50亿元
新京报讯(记者王子扬)3月27日,新茶饮企业发布2024年年报显示,2024年全年营收近50亿元。截至2024年12月31日,奈雪的茶全国门
荣耀首款8000mAh电池手机今日开售 起售价仅1699元
  【CNMO科技消息】据荣耀手机官方消息,4月18日上午10点08分,荣耀Power正式开售,这是今年荣耀旗下首款8000mAh超大电池手机
假面骑士雷杰多腰带模拟器假面骑士游戏手机版「假面骑士雷杰多腰带模拟器」
假面骑士雷杰多腰带模拟器是一款极具挑战性的游戏,能让玩家获得更多的腰带,还能让玩家利用角色的技能来进行战斗,可尝试快速变
星际争霸2破解补丁星际争霸手机版下载「星际争霸2破解补丁」
星际争霸2破解补丁是款很实用的游戏补丁工具。玩家们使用这款补丁之后就可以免费激活星际争霸2这款游戏的各种文件,没有任何的限
相关文章