r语言检验均值是否为0
1.两变量均为多分类
此时就是通常说的分析变量间的关联性,此时数据一般为数据框或矩阵结构的频数表,可直接使用chisq.test()命令进行处理,如:
> chisq.test(bird.df)
如果频数表中有频数为0,则会输出一个错误信息:Chi-squared approximation may be incorrect
2.两变量均为二分类
此时数据为2*2列联表,chisq.test()会默认使用耶茨连续性校正,可通过corrct=TRUE进行关闭,实际上,chisq.test()只会对2*2列联表使用耶茨校正。如果设定了使用蒙特卡洛方法,则不会再使用耶茨校正。
3.一个变量为二分类一个变量为多分类
这种情况下为卡方拟合优度检验,为保险起见,基本上都要设定rescale.p=TRUE,如果不指定P,则认为期望概率全部相等的情况。
> chisq.test(survey$new,p=survey$old,rescale.p = TRUE)
频数表是什么
频数表是统计描述中经常使用的基本工具之一。
1.频数表(frequency table)的编制 在观察值个数较多时,为了解一组同质观察值的分布规律和便于指标的计算,可编制频数分布表,简称频数表。(1)求全距(range):找出观察值中的最大值与最小值,其差值即为全距(或极差),用R表示。(2)确定组段和组距:根据样本含量的大小确定“组段”数,一般设8-15个组段,观察单位较少时组段数可相对少些,观察单位较多时组段数可相对多些,常用全距的1/10取整做组距,以便于汇总和计算。第一组段应包括全部观察值中的最小值,最末组段应包括全部观察值中的最大值,并且同时写出其下限与上限。各组段的起点和终点分别称为下限和上限,某组段包含下限,但不包含上限,其组中值为该组段的(下限+上限)/2。相邻两组段的下限之差称为组距。
是指将一组计量资料按观察值大小分为不同组段,然后将各观察值归纳到各组段中,最后清点各组段的观察值个数(称频数),以表格形式表示之,称为频数分布表又称“频次分布表”,简称“频数表”。
频数分布表计算法
频数表是统计描述中经常使用的基本工具之一。
1.频数表(frequency table)的编制 在观察值个数较多时,为了解一组同质观察值的分布规律和便于指标的计算,可编制频数分布表,简称频数表。(1)求全距(range):找出观察值中的最大值与最小值,其差值即为全距(或极差),用R表示。(2)确定组段和组距:根据样本含量的大小确定“组段”数,一般设8-15个组段,观察单位较少时组段数可相对少些,观察单位较多时组段数可相对多些,常用全距的1/10取整做组距,以便于汇总和计算。第一组段应包括全部观察值中的最小值,最末组段应包括全部观察值中的最大值,并且同时写出其下限与上限。各组段的起点和终点分别称为下限和上限,某组段包含下限,但不包含上限,其组中值为该组段的(下限+上限)/2。相邻两组段的下限之差称为组距。
还没有评论,来说两句吧...