推广 热搜： 公司快速中国上海金未来企业政策系统教师

统计中的假设检验介绍-t检验-A／B测试及python示例

日期：2024-11-09 作者：xinet caijiyuan 评论：0 移动：http://keair.bhha.com.cn/mobile/news/336.html

核心提示：写在前面：假设检验，是根据一定的假设条件，由样本推断总体的一种方法。标准差和标准误的区别： 1

写在前面：

统计中的假设检验介绍-t检验-A／B测试及python示例

假设检验，是根据一定的假设条件，由样本推断总体的一种方法。
标准差和标准误的区别： 1）标准差：一次抽样样本的标准差，反应这些样本的离散程度，用于描述统计； 2）标准误：多次抽样中先计算每一次抽样样本的平均值，然后计算这些均值的标准差，反应的是这些均值之间的离散程度，用于推论统计。
我以前常分不清楚如何定义原假设和备择假设，后来用一个例子才记得比较深刻：就像法庭审判犯人，会首先假设他是一个好人（备择假设），然后提交证据证明他是有罪的（原假设）。

所以假设检验选择原假设和备择假设的原则如下： 1）原假设：想要证明其不好的方向（证明有罪）； 2）备择假设：是想要证明其好的方向（若原假设发生概率比较低，也就是没有充分的理由证明有罪，那就是无罪的）；

以下大部分内容转载：https://zhuanlan.zhihu.com/p/37265478 在此基础上，根据自己的理解思路在结构上略有调整，记录下来以供学习，感谢原作者。

①根据实际问题，确定出零假设H0和备择假设H1。H0和H1互为相反，非此即彼，不可能同时满足。

②确定检验类型。检验类型包括：单样本t检验、相关配对t检验、独立双样本t检验。

③均值的抽样分布。

当小样本时，即样本容量n<30，假如总体近似服从正态分布，则均值的抽样分布为t分布；
当大样本时，即样本容量n>=30，无论总体为何分布，均值的抽样分布均为正态分布。（中心极限定理）

④确定检验方向。看备择假设H1的描述：

如果H1中包含小于号"<"，则为左尾；
如果H1中包含大于号">"，则为右尾；
如果H1中包含不等号"≠"，则为双尾。

检验类型及检验方向的判定，总结为下表：检验类型和检验方向

有一种说法：假设检验就是个p（不是拍马屁的屁哦）

没错，假设检验最核心的步骤就是计算p值，什么是p值呢？

p值就是：在零假设H0成立的条件下，出现样本均值的概率是多少。

t检验的p值计算过程：

方法一：根据样本均值和标准误，结合抽样分布类型，先计算出检验统计量和自由度，手动查表计算p值；

方法二：使用Python的科学计算包scipy自动计算检验统计量和p值。

显著性水平α，由人为根据实际情况主观指定，常用的显著性水平α=0.05。

根据检验是单尾还是双尾，用最终的p值与α值做比较：

当p<=α时，拒绝零假设H0，接受备择假设H1；
当p>α时，没有充分的证据拒绝零假设（倾向于接受H0，但需要进一步证据）。

1、描述统计分析

对样本数据进行描述统计，报告平均值和标准差。

2、推论统计分析

报告假设检验结果：采用APA格式，需要报告检验类型、抽样分布类型、检验方向、检验统计量、p值、显著性水平α；
报告置信区间：根据APA格式，需要报告置信区间的类型、置信水平、区间上下限；
报告效应量：效应量代表实际效果是否显著，包含两种度量方法： ①差异度量Cohen’s d = (样本均值1-样本均值2)/标准差； ②相关度r^2 = t^2/(t2+df)，df是自由度

示例： 在这里插入图片描述

以一个示例来了解：汽车引擎排放标准

汽车引擎是否满足排放标准？ “Super Engine”是一家专门生产汽车引擎的公司，根据政府发布的新排放要求，引擎排放平均值要低于20ppm。公司制造出10台引擎供测试使用，每一台的排放水平如下： 15.6 16.2 22.5 20.5 16.4 19.4 16.6 17.9 12.7 13.9 问题：公司生产的引擎是否符合政府规定呢？

准备基础数据：

1、描述统计分析

输出：在这里插入图片描述 2、推论统计分析

A、假设检验：

1）问题是什么？ 在这里插入图片描述

小样本的抽样分布是否满足t分布使用条件（总体近似正态）？因总体未知，此处只能通过样本数据的可视化分布，大致推断总体是否服从单峰的正态分布。

在这里插入图片描述通过观察样本集分布，可以看出总体近似服从正态分布。

总结：定义了零假设和备择假设，确定了检验类型为单样本t检验中的左尾检验，自由度df=9。

2）证据是什么？

证据就是计算p值（零假设成立的前提下，出现样本均值的概率。

输出：在这里插入图片描述由于该例属于单尾检验，所以最终的p值需要双尾p值除以2：

输出：在这里插入图片描述 3）判断标准是什么？

常用的显著性水平α=5%

4）结论是什么？

单尾p值与显著性水平α作比较：当p<=α时，拒绝零假设H0，接受备择假设H1；当p>α时，没有充分的证据拒绝零假设（倾向于接受H0，但需要进一步证据）。

输出：在这里插入图片描述 B、置信区间：

置信区间在不同的置信水平下有不同的“宽度”，此处置信水平为95%。

输出：在这里插入图片描述 C、效应量：

当假设检验具有统计显著的结论时，需要进一步研究是否具有实际意义，即实验结果是否“效果显著”？衡量效果显著用Cohen’s d指标，它表示：样本均值1与样本均值2，差异有几个标准差。差异大小的衡量标准如下：在这里插入图片描述

输出：在这里插入图片描述 3、关于“汽车引擎是否满足排放标准”的整体数据分析报告如下：

（说明：以下截图中的数值跟文中代码运行出来的结果略不同，这是因为我用的数据略有不同，此处只要了解下面的报告形式中包含哪些内容即可） 在这里插入图片描述

同样的，以一个示例来了解：斯特鲁普效应验证

验证斯特鲁普效应是否存在？ 斯特鲁普效应是著名的心理学现象，展示了人们对事物的认知过程是一个自动化的历程。当有一个新的刺激出现时，如果它的特征和原先的刺激相似或符合一致，便会加速人们的认知；反之，若新的刺激特征与原先的刺激不相同，则会干扰人们的认知，使人们的反映时间变长。通过网上的stroop实验做测试人的反应时间斯特鲁普效应，每名参与者得到两组有颜色的文字，第一组数据是字体内容和字体颜色一致，第二组数据是字体内容和字体颜色不一致。每名参与者对每组文字说出文字的颜色，并分别统计完成每组的时间。问题：验证斯特鲁普效应的存在（不一致组反应时间均值比一致组反应时间均值长）

准备基础数据：

在这里插入图片描述

1、描述统计分析

输出：在这里插入图片描述 2、推论统计分析

A、假设检验：

1）问题是什么？ 在这里插入图片描述相关配对检验关心的是两组成对数据的差值，因此需先构造出差值数据：

在这里插入图片描述假设检验中的t检验，需要总体满足近似正态分布的条件，但总体未知，可以从样本数据的核密度图粗略估计：

在这里插入图片描述

通过观察样本集配对差值数据的分布，可以看出总体近似服从正态分布。

总结：定义了零假设和备择假设，确定了检验类型为相关配对t检验中的左尾检验，自由度df=n-1=9。

2）证据是什么？

证据就是计算p值（零假设成立的前提下，出现样本均值的概率）。

输出：在这里插入图片描述由于该例属于单尾检验，所以最终的p值需要双尾p值除以2：

输出：在这里插入图片描述 3）判断标准是什么？

常用的显著性水平α=5%

4）结论是什么？

单尾p值与显著性水平α作比较：当p<=α时，拒绝零假设H0，接受备择假设H1；当p>α时，没有充分的证据拒绝零假设（倾向于接受H0，但需要进一步证据）。

输出：在这里插入图片描述 B、置信区间：

置信区间在不同的置信水平下有不同的“宽度”，此处置信水平为95%。

输出：在这里插入图片描述 C、效应量：

当假设检验具有统计显著的结论时，需要进一步研究是否具有实际意义，即实验结果是否“效果显著”？衡量效果显著用Cohen’s d指标，它表示：样本均值距总体均值几个标准差，代表差异是否显著：

输出：在这里插入图片描述效果显著。

3、关于“验证斯特鲁普效应存在性”的整体数据分析报告如下：

（说明：以下截图中的数值跟文中代码运行出来的结果略不同，这是因为我用的数据略有不同，此处只要了解下面的报告形式中包含哪些内容即可） 在这里插入图片描述

同样的，以一个示例来了解：

验证两款键盘布局对用户体验性是否有差别？ 两款键盘布局不一样的手机应用(A版本，B版本)，你作为公司的产品经理，想在正式发布产品之前，知道哪个键盘布局对用户体验更好？随机抽取实验者，将实验者分成2组，每组25人，A组使用键盘布局A，B组使用键盘布局B。让他们在30秒内打出标准的20个单词文字消息，然后记录打错字的数量。问题：两种版本布局是否用户体验显著不同，哪种更好？在这里插入图片描述 准备基础数据：

在这里插入图片描述 1、描述统计分析

输出：在这里插入图片描述 2、推论统计分析

A、假设检验：

1）问题是什么？ 在这里插入图片描述假设检验中的t检验，需要总体满足近似正态分布的条件，但总体未知，可以从样本数据的核密度图粗略估计：

在这里插入图片描述由两样本数据集的分布情况可粗略估计，其所在的总体也近似服从正态分布，故抽样分布满足t分布使用条件。

在做独立双样本t检验之前，需要先做方差分析（F检验），判断两总体方差是否显著不同，我们称该操作为：方差齐性检验。方差相同情况为“等方差”，方差不同情况为“异方差”。两种情况下，计算的检验统计量t值和自由度df会存在差异。

输出：在这里插入图片描述

在这里插入图片描述补充：单纯的方差齐性检验也可通过下面3种方法得到结果：

在这里插入图片描述

无论以上哪种方法做方差齐性检验，均得到p值大于显著性水平α的结果，证明两总体等方差a_var = b_var。

总结：定义了零假设和备择假设，确定了检验类型为独立双样本t检验，双尾检验，经方差齐性检验，两总体方差相同，自由度df=n1+n2-2=22

2）证据是什么？

计算检验统计量和p值.

输出：在这里插入图片描述 3）判断标准是什么？

常用的显著性水平α=5%

4）结论是什么？

输出：在这里插入图片描述 B、置信区间：

置信区间在不同的置信水平下有不同的“宽度”，此处置信水平为95%。

输出：在这里插入图片描述通过读取置信区间的数值，区间边界值均为负值，证明A版本打错字数量均值显著小于B版本，即A布局版本更符合用户体验。

C、效应量：

输出：在这里插入图片描述效果显著。

独立双样本的混合标准差sp的计算公式可参考统计书籍《商务与经济统计第12版》275页最下面；样本均值=样本均值1-样本均值2。

3、关于“两款键盘布局对用户体验性是否有差别”的整体数据分析报告如下： 在这里插入图片描述

本文介绍了统计学的重头戏：假设检验的实现方法，重点介绍t检验

本文地址：http://keair.bhha.com.cn/news/336.html 康宝晨 http://keair.bhha.com.cn/ , 查看更多

特别提示：本信息由相关用户自行提供，真实性未证实，仅供参考。请谨慎采用，风险自负。

更多>同类最新资讯

0 条相关评论

文章列表

相关文章

6000万预约，突然定档，腾讯游戏让年轻人炸开了锅

最新动态

推荐图文

最新资讯

点击排行

• 厦门三区小学一年级已经实现随迁子女公办学位自	• 大动作！全球资管巨头抄底中国房地产
• 韩国技术改造美国船厂，韩华称十年内实现年产10	• 假山假景假脸，短剧《窃心》爆火，让多少内娱流
• 军事晚报AI速递：今日军事热点一览丨2025年8月	• 原包PA66 GVS-5H 瑞士EMS 耐化学性
• 征信逾期五年超十次？别慌！2025最新解密与攻略	• SAB47减速机
• 九类危险品进口流程？	• 乡村学校少年宫丨池淮镇中心小学：快乐不“打烊

征信逾期五年超十次？	东渚街道：支部领航，
全新360安全云重磅发	新刊推介丨挺膺担当，
南开大学：非211秒拒	德信服务时隔两年折价
DNF手游：8月首套联动	固安：暑期多元影片热
防城港亮证姐事件通报	四大行协商还款会减免
群像叙事的成功，《樱