跳到主要内容

欢迎来到新的NC3Rs网站,了解更多关于我们所做的改变和改进。

NC3Rs:国家替代、改良和减少动物研究中心
指导

当功率计算不简单时,如何决定样本量

来自葛兰素史克统计科学公司的Simon Bate博士是实验设计方面的专家,也是这本书的作者18luck新利体育官网登录动物实验的设计与统计分析.他被授予2018年制药行业统计卓越奖获奖原因是“通过使用InVivoStat提高动物研究的质量和可靠性:动物研究人员的统计软件包”。我们向贝特博士询问了他最常被问到的关于统计学和3r的问题。

我的实验合适的样本量是多少?

我最常被问到的一个问题(除了排除那些讨厌的异常值)是“我的实验的合适样本量是多少?”这是一个古老的问题,也是在动物研究中应用3r理论的基础。如果使用的动物太少,实验的科学有效性和结果的可靠性就会受到质疑。如果使用了太多的动物,得出假阳性结论的风险就会增加(在统计上有显著影响,但没有实际意义),更不用说伦理问题了。许多资助者和期刊现在都要求了解如何选择样本量,这是非常重要的一步。

通过突出我经常被问到的问题,我将介绍一些可供动物研究人员选择的选项。

如所述EDA信息页面时,在进行功率计算以确定样本量时,会考虑以下参数:

  • 你感兴趣的效果的大小(或“信号”,研究人员需要定义)。
  • 假阳性的风险(或显著性阈值,通常固定在5%)。
  • 统计能力(或发现真实效果的能力)。
  • 数据的可变性——数据的可变性越大,你需要的动物就越多,所以值得花时间思考你的实验设计/统计分析,看看你是否能找到减少可变性的方法。18luck新利体育官网登录

在我的研究领域,我们一直使用n=6。我为什么要做幂计算呢?

我经常听到“我们总是使用n=6”或“其他研究人员使用n=6,我们也应该这样做”。不用说,这不是一个推荐的方法。你不能简单地复制别人的样本量;您需要评估在您的实验室中,在您的实验条件下和使用您的协议所产生的数据的可变性。即使你的主管或经理说“使用n=6”,也要确保你质疑他们并检查它是否合适!

也就是说,其他实验室之前使用相同动物模型进行的实验可以提供有用的数据,以估计变异。在一个理想的世界里,你会对你的数据的可变性有一个想法,也许来自一个试点研究或你最近在实验室做的其他工作,以及你认为与生物学相关的效应的大小。如果你自己没有任何数据,那么也许你可以从文献中得到一个粗略的概念。最近有一种趋势,要求作者描述他们所使用的样本量背后的原因,我认为这让读者在评论他们的作品时更有信心。当引用样本量评估的结果时,应始终说明所使用的可变性估计。

功率曲线是一个有用的可视化工具,以评估样本大小和各种生物相关效应的功率。它们很容易在内部产生InVivoStat的功率分析模块。在下面的图中,可以看到,为了达到80%的统计幂(y轴),其中效应大小是大小3的绝对变化(绿线),将需要n=8只动物(读数向下到x轴)。

如果您感兴趣检测的效应大小是小于2的绝对变化(蓝线),则不可能正确地为实验供电。在这种情况下,你不应该进行实验,而应该研究如何减少动物模型中的可变性。

功率曲线显示所需的样本大小,以达到不同水平的统计功率与特定的效应大小。

请记住,这些功率曲线是基于可变性的估计,这可能是可靠的,也可能是不可靠的。我总是建议研究人员使用从他们完成的研究数据中获得的最新变异性估计重新生成这个图表。这些新的图表不应该用来做“事后功率分析”,但是将原始功率曲线与新的功率曲线进行比较会让你知道原始功率分析的可靠性。从理论上讲,如果能量曲线是可靠的,那么无论何时获得新数据,都应该得到相似的图形。

好,我怎么确定效果大小呢?

在调查样本量时,我经常被问到这个问题。这是一个很难回答的问题,但我认为你应该在开始之前对你正在寻找的影响的大小有一些想法!您不需要确定一个单一的值(如上图中突出显示的那样),但您确实需要一个合适的范围。我首先要问:

  • 与生物学相关的最小影响是什么?
  • 在动物模型中测试阳性对照时,预期的最大影响是什么?

这给了我们一个可以缩小和微调的工作范围。

在决定具有生物学相关性的效应大小时,要问的一个关键问题是:我需要看到的最小效应是多少,才能认为值得进行进一步研究?

例如,如果你正在研究一种改善中风模型症状的药物,你可能只对至少30%的变化感兴趣,因为这是临床药物提供的保护水平,所以作为研究人员,你只对效果更大的治疗方法感兴趣。

或者,假设你计划用RNAi使一个基因沉默——你首先需要决定什么样的效果是令人满意的。比方说,降低50%就足以产生生物效应,还是需要达到90%的功效?了解基因及其丰度、功能、基因产物的周转时间、其他可能具有重叠功能的基因产物等方面的背景信息是很有用的。

如果我从之前的实验中没有任何可变性的估计呢?

上述方法依赖于您对数据的可变性有一个概念。如果没有历史数据,可以使用文献来估计类似实验或模型的可变性。然而,你必须特别小心,因为实验过程中的微小变化可能会导致变异性意想不到的巨大变化。如果没有可用的信息来告知你的实验设计,那么就有替代方案,例如科恩的d -一个标准化的效应大小18luck新利体育官网登录,可以用来代替。使用科恩d方法有特定的规则,而且它通常不如使用测量数据准确。有关这方面的更多信息,请参见此可变性部分

如果我的实验中有20个结果指标呢?

许多动物实验确实有多种反应,因为我们想从一个实验中获得最多的信息。例如,我们可以同时测量炎症标志物,如趋化因子、细胞因子、CRP、IL-1、IL-4、IL-6、IL-10、TNF-α、TGFb、ICAM-1、IFN-γ等。然而,每种反应可能有不同的生物学相关效应大小和不同水平的可变性。所以,不可避免地,在给定样本量下,不同响应的统计能力会有所不同。我们需要借鉴临床试验手册,决定哪些结果指标对检验假设是必要的,哪些是可取的,然后选择一个主要结果指标来计算样本量。如果次要指标被认为是必要的,应对每一项指标进行幂次计算,以确保所选择的样本量将为所有必要指标提供足够的幂次。

我的结果很有趣,但在统计上并不显著。我是否可以测试更多的动物/批次细胞,直到p<0.05?

这种情况,我见过在体外超过在活的有机体内研究是这样进行的:研究人员进行一系列实验并分析结果。如果他们在结果中看到一些“有趣”但在统计上不显著的东西,他们就会测试另一批细胞(并可能继续测试,直到他们到达p<0.05的“应许之地”)。

这就是所谓的p黑客[1],不建议使用,因为这会大大增加你得到假阳性结果的风险。它还显示出对实验设计和随机化缺乏理解。18luck新利体育官网登录设计应该是提前计划(例如,通过使用EDA),包括样本量的选择,并应遵守该计划,以使整个过程在受控和无偏的情况下进行。

我打算把我的实验重复三次。我真的需要使用功率计算吗?

我有时会被问到这个问题,我认为这可能是对独立和阻塞概念的误解。逻辑是,如果研究人员重复一个(可能很小的)实验三次,并且在所有三次实验中观察到相同的趋势,那么就有“强有力的”证据证明效果。在这种情况下,有一个假设,权力计算是不必要的。

这种逻辑存在几个问题。首先,如果单个实验的动力不足,那么所有三个实验都可能揭示相同的假阳性趋势,因为没有一个实验是独立可靠的。另一种可能是,由于可变性,力量不足的个体实验未能确定真正的影响。这种情况更糟的是,测试本身可能不是真正独立的:这些实验可能是由相同的研究人员在同一实验室按照相同的协议进行的,只是在不同的日子(确保实验之间的密切一致)。因此,通过三项研究收集的证据可能并不像研究人员想象的那样具有结论性。

一种选择是将三个实验的数据作为一个单一的(更大的)数据集进行分析。由于样本量现在增加了三倍,统计能力将更高(结果也更可靠)。然而,这仍然不理想,更有效的方法是使用块设计(每个小实验都是一个块),并通过幂计算计算整个实验所需的样本量。在这种情况下,可能会使用比三个独立实验更少的动物,同时增加统计能力。

我能在不失去动力的情况下减少实验中使用的动物数量吗?

如果您有可变性的估计,那么有可能增加统计能力的替代策略是使用组顺序设计。在组序设计中,中期分析,通常是两到三次,被预先计划到研究设计中,如果在统计上取得了显著的效果(或没有观察到效果),实验可以提前结束,从而拯救动物。当进行多重分析时,发现假阳性的风险会增加,因此显著性水平必须从5%降低,以解释这一点:有各种方法可以做到这一点。诺伊曼et al。2]描述了一个场景,其中两组进行比较(效应量=1),使用传统设计(每组n=18)或组序设计。在后者中,当n=6只动物被评估时进行中期分析,然后当n=12和n=18只动物被测试时进行中期分析(取决于之前的中期分析结果)。使用这种方法可以在不降低统计能力的情况下平均节省20%的动物。

你想回答的问题是什么?

最后,我的一个问题结束了。

在决定样本量时,首先应该考虑你要回答什么问题。许多传统的功率分析方法假设实验的目的是比较两个(或多个)实验组的均值,使用方差分析或t检验。这样的评估需要每一组动物的适当数量。但你真的只是想把一个治疗组和对照组进行比较吗?也许你真的对估计/理解潜在的剂量-反应关系本身感兴趣。如果是这样,那么实验设计的选择,因此每组的样本量,可能是不同18luck新利体育官网登录的。

例如,如果你对理解剂量-反应关系感兴趣,想要识别ED50,那么使用更多剂量组而每组动物数量更少的设计,也许每组低至3只,是比更正统的设计/样本量更好的设计。Bate和Clark(2014,第3.6.2.2节)给出了这样一个例子。另一个例子是,如果筛选多个因素的整体影响是研究的目的,那么使用阶乘设计(每个因素水平的组合n=1或2只动物)可能是一个合适的设计-参见[3.]。

一般来说,研究人员试图回答的问题往往很复杂。如果是这种情况,则可能需要统计学家的帮助,例如运行模拟以确定最佳设计/样本量。无论如何,原则上我们应该总是尝试将实验设计的选择与我们试图回答的问题相一致。18luck新利体育官网登录

总结

最后一点,有一个YouTube视频一开始看起来有点奇怪,但这很好地代表了当两个人说不同的研究语言时会发生什么。一位科学家找到一位统计学家,就证明样本量的合理性向他们提出建议。统计学家问了许多相关的问题,研究者试图提供一些在他们眼中有用的额外信息,但与此同时研究者的回答总是“我需要使用n=3”。希望这样的对话将来会少一些!

Simon Bate博士,GSK

参考文献

  1. 头毫升et al。(2015)。p-hacking在科学上的程度和后果。公共科学图书馆杂志13 (3): e1002106。doi: 10.1371 / journal.pbio.1002106
  2. 诺伊曼Ket al。(2017)。通过组序设计提高临床前研究的效率。公共科学图书馆杂志15 (3): e2001307。doi: 10.1371 / journal.pbio.2001307
  3. 肖Ret al。(2002).利用析因设计优化动物实验,减少动物使用。ILAR J43 (4)223 - 32。doi: 10.1093 / ilar.43.4.223
  4. 贝特ST和克拉克RA(2014)。动物实验的设计和统计分析.1版。剑桥大学出版社。
Baidu
map