组别及样本量

组节点表示一组动物。它可以是最初的动物池,也可以是被分配进行特定干预或测量的治疗或对照组。

内容:

组节点的属性详细说明了组的特征,包括其在实验中的作用以及样本大小的细节。

在EDA图表中,分组通常是通过随机产生的分配Node用来表示动物是如何被分配到组的。

组节点用于定义实验中不同的动物组。它们可以被标记为组1,组2或组3,等等。不同的组必须有不同的标签,因为EDA在评估图表时将使用这些标签。如果同一个组在图中多次显示,那么每次出现时都应该有完全相同的标签。

回到顶部

小组在实验中的角色

组在实验中的作用应在各组节点的属性中标明。每次实验至少应包括一个对照组或比较组。对照可以是阴性对照,例如未经治疗的动物,或接受安慰剂或虚假治疗的动物,这通常更合适。阳性对照有时也包括在内,用于检查在实验设置中是否能检测到预期的效果。

对照组或比较组的选择取决于实验的目的;有时,可能不需要单独的对照而不加治疗。例如,如果实验的目的是比较不同方法的治疗(如腹腔内给药或口服灌胃),那么没有治疗的第三组是不必要的。

回到顶部

样本大小

样本的大小与样本的数量有关实验台每组,如果实验单位不是动物个体,则可能与动物数量不同。如果实验单位包含多个动物(例如,一个笼子或一窝猫,见实验单位部分的其他例子),样本量小于每个处理组的动物数量。

在EDA图中,样本量应该在组节点的属性中标明。计划的实验单元数量与实验前规划阶段确定的样本量有关。如果预期会发生数据或动物的潜在损失,则需要调整样本量。一个样本量的理由,即如何决定,也应予以说明。

一旦进行了实验,如果实际的样本量与计划的样本量不同,例如,磨损率高于或低于预期,则实验单元的实际数量可以被指出来。

在使用推理统计和p值生成来检验形式假设的实验中,每组实验单元的数量应使用适当的方法,如幂分析;应避免仅根据历史先例建立样本量,因为这可能导致对所需动物的严重高估或低估。研究表明,如果一项原始研究“只是”具有统计学意义,那么如果使用与原始研究相同的样本量,重复研究至少有50%的失败率。

有些类型的实验并不是为了检验一个正式的假设;这些包括,例如,初步实验设计用于测试不良影响或评估技术问题,或基于预期目标的成功或失败的实验,如转基因系的生产。在这种情况下,功率计算是不合适的,样本大小可以根据经验估计,取决于实验的目标。在这些实验中收集的数据有时可以用来计算后续研究所需的样本量,这些研究旨在测试产生的一些假设。

通常建议使用平衡的设计,其中所有试验组都有相同的大小,因为这最大限度地提高灵敏度;例如,在只涉及两组的研究中,或几组进行两两比较的研究中。然而,在某些情况下,例如,对几个处理组进行有计划的比较回到一个共同的对照组的实验,可以通过在对照组中放入更多的动物来提高敏感性贝特和卡普,2014年进一步阅读)。

回到顶部

动力分析

在假设检验实验中,样本取自动物种群。如果观察到治疗组之间的差异,研究人员必须确定这种差异是由于抽样效应还是真实的治疗效应。统计检验用于管理抽样问题,并通过p值的计算帮助做出明智的决定。p值是获得与零假设为真时观察到的结果一样极端,甚至更极端的结果的机会。p值越小,在零假设为真且没有治疗效果的情况下,越不可能获得观察数据。设定了一个阈值α,按照惯例,低于阈值的p值被认为具有统计学意义,也就是说,这样的结果非常不可能,以至于人们可以得出零假设实际上不正确的结论。下表描述了使用统计检验来评估是否接受或拒绝a的可能结果零假设

没有生物学相关的影响 生物相关的影响
统计上显著
P <阈值(α)
H0不太可能是真的
假阳性
第1类误差(α)
正确接受H1
权力(1 -β)
统计上不显著
P >阈值(α)
H0可能是真的
正确拒绝H1 假阴性
2型误差(β)

功率计算是一种评估错误否定呼叫风险的方法。幂(1-β)是实验正确地导致拒绝错误的零假设的概率,因此幂是当现实中存在生物学相关效应时,获得统计上显著结果的概率。

显著性阈值(α)是零假设为真时偶然获得显著性结果(假阳性)的概率。当设置为0.05时,这意味着获得假阳性的风险是1 / 20,或5%。

样本量越小,统计能力越低;用低功率进行实验没有什么价值。例如,当幂为10%时,获得假阴性结果的概率为90%。换句话说,如果使用的动物太少,就很难证明“真实”效应的存在。

此外,功率越低,观察到的达到统计显著性的效应实际反映真实效应的概率就越低;小样本量可能导致不寻常和不可靠的结果(假阳性)。最后,即使一项动力不足的研究发现了一个真正的效应,这种效应的量级也很可能被夸大了按钮, 2013年进一步阅读)。

力不从心在活的有机体内实验浪费时间和资源,导致不必要的动物痛苦,导致错误的生物学结论。在过于强大的实验中(样本量太大),统计检验变得过于敏感,而影响太小,没有任何生物学相关性,可能在统计上显著。统计学显著性不应与生物学显著性相混淆。

为了使研究结论具有科学有效性,需要正确选择样本量,使生物学相关性和统计学显著性相辅相成。目标功率在80-95%之间被认为是可以接受的,这取决于获得假阴性结果的风险实验者愿意承担。

样本量可以根据幂分析来估计,幂分析是专门用于分析数据的统计检验的。其他适当的样本量规划方法包括贝叶斯和频率法;这里不讨论这个。

虽然功率计算是在实验计划阶段使用的一个有价值的工具,但在实验完成后使用它们来帮助解释结果是不合适的。当在实验后进行功率计算时,基于观察到的效应量(而不是预先定义的生物学意义上的效应量),我们必须假设实验中的效应量与群体中的真实效应量相同。这种假设很可能是错误的,尤其是在样本量很小的情况下。在这种情况下,观测显著性水平(p值)与观测功率直接相关,所以高(不显著)的p值必然对应低的观测功率,因为高p值提供了相反的证据,所以认为低的观测功率提供了弱的证据来证明零假设是正确的是错误的。因此,计算得到p值后的观测功率不能带来更多的信息,也不能改变对p值的解释。

回到顶部

选择合适的功率计算

在确定组的大小时,考虑实验的类型是很重要的,例如,在其他条件相同的情况下,有许多因素组合的析因设计将比两个或三个处理组之间的标准比较需要更少的动物。下面的决策树可以用来帮助确定适合特定实验的功率计算类型。

配对和非配对t检验的计算可以在EDA中完成,或者使用下面的计算器。更全面的功率分析软件可从几个来源,包括Russ Lenth的能力和样本大小G权力.但是,如果不彻底了解样本量计算中要求的参数,就不应该使用这些工具,最好在第一时间寻求统计帮助。

回到顶部

t检验的强大计算器

在下面的功率计算工具中,输入实验参数。根据您的实验设计,使用功率计算工具顶部的选项卡选择配对或非配对t检验。18luck新利体育官网登录填写除N /组,然后单击计算.每组实验单元的数量将在现场显示N /组.power计算器使用R 3.5.2和包power.t.test。有关t检验功率计算中参数的更多信息,请参见下面的部分。

t检验幂分析中的参数

t检验的样本量计算是基于以下参数之间的数学关系:效应量、变异性、显著性水平、功率和样本量;下面将对此进行说明。

效果(m12

估计生物学相关效应量

效应量是研究中两组之间的最小差异,这在生物学上很有意义,值得进一步研究或临床试验。它是基于主要结果测量.在EDA功率计算选项卡中,应表示为绝对平均值差(|m12|,米1和m2表示治疗组和对照组的平均值,差异用正数表示)。它应该具有实际意义,例如3秒的变化,而不是以百分比的形式给出。

在进行实验之前,研究人员应该始终对什么效应大小具有生物学重要性有一个概念。这不是基于治疗效果的大小的先验知识,而是研究者希望实验能够检测到的差异。换句话说,效应量是被认为是重要的最小效应,而不是过去从实验数据中估计或观察到的效应。仔细考虑效应大小可以使实验只检测到有意义的效应,而不会产生与生物学无关的统计显著结果。

使用科恩的维

Cohen’s d是一个标准化的效应量;它代表治疗和控制手段之间的差异,以可变性单位校准。计算公式为:Cohen’s d = |m12| /平均SD

如果没有可用的信息来估计可变性,或者无法估计生物学上显著效应的大小,则可以使用标准化效应大小而不是生物学上相关的效应大小。Cohen’s d可以用治疗组与对照组结果测量值重叠的百分比来解释。

科恩在社会科学领域提出的最初指南建议,小型、中型和大型效应分别用d = 0.2、0.5和0.8来表示。然而,在对实验室动物的研究中,人们普遍认为这些可能更现实地设定为:

科恩的d = 0.5:小效应,科恩的d =1.0:中等效应,科恩的d =1.5:大效应(更多信息见Wahlsten 2011)。

可变性(SD)

样本量与实验单元之间的可变性有关。变异性越大,就需要更多的动物来获得可靠的结果(在其他条件相同的情况下)。你还应该考虑你是否在表演:

  1. 动物之间的治疗比较,动物被分配到不同的治疗组。在这种情况下,应该考虑无配对t检验的幂分析
  2. 动物内处理比较(即每只动物作为自己的对照)。在这种情况下,配对t检验的威力分析工具可能更合适。

计算变异性的估计

计算用于无配对t检验的功率计算的平均标准差(标准偏差)

根据现有的信息,有几种方法来估计可变性。以下是根据我们认为最准确到最不准确的顺序列出的。

1.对未来研究的可变性最准确的估计是在与计划实验相同的条件下进行的初步实验收集的数据,例如,在相同的实验室,在相似的条件下,在具有相同特征的动物身上测试相同的处理。这种实验有时可以用于测试不良影响或评估技术问题。根据使用的动物数量,它们可以用来估计SD。根据经验,总数少于10只的动物不可能提供SD的准确估计http://www.graphpad.com/guides/prism/6/statistics/index.htm?stat_confidence_interval_of_a_stand.htm为进一步的信息)。

如下表所示,有两组或更多,变异性可以从方差分析表中残差的均方得到。SD是这个数的平方根。或者,如果只有两组,SD可以计算为t检验表中汇总方差的平方根。

下载附有SD计算例子的Excel表格:估计平均SD(无配对t-检验).xlsx

请注意,使用协变量或阻塞因子可能会降低可变性,因此允许在减少样本量的情况下获得相同的功率。等软件InVivoStat可以用于计算具有阻塞因子或协变量的数据集的可变性(使用单测量参数分析模块)。InVivoStat中的功率计算模块也可以用于直接从数据集运行功率分析。

2.如果没有在相同条件下进行的初步实验的数据,且成本/效益评估无法证明在初步实验中使用额外的动物来估计SD,那么可以考虑在同一实验室的类似条件下进行的之前的实验(即相同的动物特性和方法),但可能测试其他处理方法。由于不同的治疗可能会导致不同程度的变异性,因此最好只考虑对照组的SD(假设所有组的变异性预期相同)。这可以在Excel中使用函数STDEV()进行计算。

3.如果上述条件都不具备,即您的实验室以前没有在相同的环境中使用相同类型的动物进行过实验,那么可以根据文献中报道的实验来估计其可变性,但实验室与实验室之间的差异可能会使这种方法不可靠。如果报告了方差分析表,它可能会提供你将获得的结果潜在变异性的估计,但如果没有,那么可以使用对照组的标准差来代替。请注意,文献中报告的错误条不一定是SD。

如果报告均值的标准误差(SEM),则SD的计算公式为:SD = SEM ×√n

报告95% CI(置信区间)时,SD计算公式为:SD =√n ×(上限-下限)/ 3.92

4.这可能是这样的情况,你可以从以前的许多实验中访问对照组数据的历史数据库,例如毒性研究,通常在具有相同特征的动物身上进行多年的研究。应注意这些信息,尽管你可能无法控制现有的信息,例如,动物可能来自不同批次,不同供应商,或在不同的饲养制度下(随着时间的推移),这可能会影响潜在的可变性,但在使用这样的数据库作为信息来源之前,最好咨询统计学家。然而,这样的数据库确实提供了大量的信息,因为通常会有许多动物被包含在其中,因此,它们可能会在动物间测试(如非配对t检验)中提供动物间SD的有用估计。

计算差异的SD值用于配对t检验的功率计算

在与计划的实验相同的条件下收集的初步数据,例如,在同一实验室之前的实验中,对具有相同特征的动物进行相同的处理,需要评估在使用动物作为自己对照的研究中的可变性,

如下表所示,首先计算每种动物两种反应之间的绝对差异。然后将这些差异(在所有动物之间)的SD值作为动物组内(动物内)SD值的估计。

下载附有SD计算例子的Excel表格:差异的SD估计(配对t检验).xlsx

如果不能估计可变性(使用科恩d)

Cohen’s d是一种标准化的效应量,以可变性单位表示。由于这个原因,当使用科恩的d效应大小(见标准的尺度效应),可变性必须设置为1。

显著性水平

显著性水平或阈值(α)是当零假设为真时(即组间不存在真实的、生物学上相关的差异),偶然获得显著结果(假阳性)的概率。它通常设置为0.05,这意味着获得假阳性的风险是5%;然而,有时使用不同的值可能是合适的。

权力

幂(1-β)是实验正确地导致拒绝错误零假设的概率(即,当存在差异时,检测到存在差异)。目标功率在80-95%之间被认为是可以接受的,这取决于获得假阴性结果的风险实验者愿意承担。

单面或双面测验

是否使用单面或双面测试来分析数据,关系到是否备择假设(H1是否有方向性。这是更详细的描述实验页面。

如果H1如果是方向性的(片面的),那么实验就可以用片面的测试来提供动力和分析,这在生物学中是非常罕见的,而且研究人员必须接受零假设,即使结果显示出与备择假设相反的强烈影响。

带有非定向H的双向测试1更常见,允许研究人员检测治疗效果,而不管其方向。

N /组

N为每组所需的实验单位数,即样本量。在EDA功率分析选项卡中,如果该字段为空,而其他字段均已填写,系统将计算该数值。

回到顶部

参考文献和进一步阅读

贝特,s.t., 2018。当功率计算不直观时,如何确定样本大小.NC3Rs博客。

贝特,s.t. &克拉克,r.a. 2014。《动物实验设计与统计分析》,剑桥大学出版社。

贝特,s . & karp, n.a. 2014。一个共同的控制组——优化实验设计,使灵敏度最大化。《公共科学图书馆·综合》。9e114872。doi:10.1371 / journal.pone.0114872

巴顿,k.s., ioannidis, j.p, mokrysz, c ., nosek, b.a, flint, j ., robinson, e.s. & munafo, m.r 2013。停电:为什么小样本量削弱了神经科学的可靠性。Nat Rev Neurosci, 14岁365 - 76。doi:10.1038 / nrn3475

科恩,j . 1992。底漆。Psychol牛,112155 - 9。doi:10.1037 / 0033 - 2909.112.1.155

戴尔,r.b., holleran, s . & ramakrishnan, r . 2002。样本大小的决心。Ilar j, 43, 207-13。doi:10.1093 / ilar.43.4.207

福尔,厄德菲尔德,如,朗,a.g. &布赫纳,2007年。G*Power 3:社会、行为和生物医学科学的一个灵活的统计能力分析程序。Behav Res方法,39175 - 91。doi:10.3758 / bf03193146

Festing, m.f. & altman, d.g. 2002。使用实验动物进行实验的设计和统计分析指南。Ilar j, 43, 244-58。doi:10.1093 / ilar.43.4.244

费斯汀,m.f. w, overend, p . gaines das, r . cortina borja, m . & berdoy, m . 2002。动物实验的设计:通过更好的实验设计来减少研究中使用动物,18luck新利体育官网登录英国伦敦皇家医学会。

费斯汀m . F。http://www.3rs-reduction.co.uk/html/6__power_and_sample_size.html.[15-01-2015]访问

费茨博士,2011年。伦理和动物数量:非正式分析,不确定的样本大小,低效的复制,和第一类错误。美国实验室动物科学协会,50445 - 53。

炸,d . 2014。第8章-实验设计:在使用18luck新利体育官网登录动物的研究中减少和改进。:特纳(主编)实验室动物福利。波士顿:学术出版社。

Hoenig, j.m. & heisey, d.m. 2001。权力滥用:数据分析中普遍存在的权力计算谬论。《美国统计学家》55,19 -24。10.1198 / 000313001300339897

Hubrecht, r . & kirkwood, j . 2010。UFAW关于实验室和其他研究动物的照顾和管理手册,牛津,威利-布莱克韦尔。

披散下来房车。有效样本量测定的实用指南。2001.我统计。55岁,187 - 93。doi:10.1198 / 000313001317098149

米德,r . 1988。实验设计:实际应用的统计原理,剑桥[英国];纽约,剑桥大学出版社

WAHLSTEN, d . 2011。第5章-样本大小。:WAHLSTEN d (ed)。鼠标行为测试。伦敦:学术出版社。

扎克扎尼斯,2001年。统计告诉真相,全部的真相,只有真相:公式,说明性的数值例子,和启发式的解释效应量分析的神经心理学研究人员。拱Neuropsychol,16653 - 67。doi:10.1093 / arclin / 16.7.653

Baidu
map