指导

当功率计算不直接时，如何决定你的样本大小

葛兰素史克统计科学公司的Simon Bate博士是实验设计方面的专家，也是这本书的作者18luck新利体育官网登录动物实验的设计与统计分析．他被授予2018年制药行业统计卓越奖“通过使用InVivoStat提高动物研究的质量和可靠性:动物研究人员的统计软件包”。我们问过贝特博士，他最常被问到关于统计和3Rs的哪些问题。

我的实验合适的样本量是多少?

我最常被问到的一个问题(除了排除那些讨厌的异常值)是“我的实验的合适样本量是多少?”这是一个古老的问题，是在动物研究中应用3Rs的基本问题。如果使用的动物太少，实验的科学有效性和结果的可靠性就会受到质疑。如果使用了太多的动物，得出假阳性结论的风险就会增加(在统计上显著的效果被宣布是没有实际相关性的)，更不用说伦理问题了。许多资助者和期刊现在都要求了解样本大小是如何选择的，这是非常重要的一步。

通过突出我经常被问到的问题，我将介绍动物研究人员的一些选择。

正如在EDA信息页，在进行功率计算以确定样本大小时，需要考虑以下参数:

你感兴趣的效果的大小(或“信号”，研究人员需要定义)。
假阳性的风险(或显著性阈值，通常固定在5%)。
统计能力(或发现真实效应的能力)。
数据的可变性——数据的可变性越大，你需要的动物就越多，所以值得花时间思考你的实验设计/统计分析，看看你是否能找到减少可变性的方法。18luck新利体育官网登录

在我的研究领域，我们一直使用n=6。为什么我需要做功率计算呢?

我经常听到“我们总是使用n=6”或“其他研究人员使用n=6，我们也应该使用”。不用说，这不是一个推荐的方法。你不能简单地复制别人的样本大小;您需要评估在您的实验室中，在您的实验条件下，使用您的协议生成的数据的可变性。即使你的主管或经理说“使用n=6”，一定要问他们，并检查它是否合适!

也就是说，之前其他实验室使用相同动物模型进行的实验可以提供有用的数据，据此估计变率。在一个理想的世界里，你会对你的数据的可变性有一个想法，也许是来自一个试点研究或最近在你的实验室完成的其他工作，以及你认为与生物学相关的效应的大小。如果你自己没有任何数据，那么也许你可以从文献中得到一个粗略的概念。最近有一种趋势，要求作者描述他们使用样本量背后的原因，我认为这给了读者更多的信心来评论他们的作品。当引用来自样本量评估的结果时，应始终说明所使用的可变性估计。

功率曲线是评估样本大小和各种生物相关效应的功率的一个有用的可视化工具。它们可以很容易地在内部生成InVivoStat的功率分析模块。从下图中可以看出，为了达到80%的统计幂(y轴)，其中效应大小是3大小的绝对变化(绿线)，需要n=8只动物(向下读到x轴)。

如果您感兴趣的效应大小的绝对变化小于2(蓝线)，就不可能正确地为实验供电。在这种情况下，你不应该进行实验，而应该研究减少动物模型的可变性的方法。

功率曲线显示在特定效应量下达到不同统计功率水平所需的样本量。

记住，这些功率曲线是基于对可变性的估计——这可能是可靠的，也可能是不可靠的。我总是建议研究人员使用从他们完成的研究数据中获得的变异性的最新估计重新生成这个图表。这些新曲线不应该用来做“事后功率分析”，但将原始功率曲线与新曲线进行比较会让你了解原始功率分析的可靠性。理论上，如果功率曲线是可靠的，那么无论何时你得到新的数据，你都应该得到一个看起来相似的图。

好吧，那我该如何确定我的效应大小呢?

在调查样本量时，我经常被问到这个问题。这是一个很难回答的问题，但我认为在你开始之前，你应该对你正在寻找的效果的大小有一些想法!您不需要确定一个单一的值(如上图所示)，但需要一个合适的范围。我首先要问:

与生物学相关的最小影响是什么?
当在动物模型中测试阳性对照时，预期的最大效果是什么?

这给了我们一个可以缩小和微调的工作范围。

在决定与生物学相关的效应大小时，要问的一个关键问题是:我需要看到的最小效应是什么，才值得进一步研究?

例如，如果你正在研究一种药物改善中风模型的症状，你可能只对至少30%的变化感兴趣，因为这是临床药物提供的保护水平，所以作为研究人员，你只对有更大效果的治疗感兴趣。

或者，假设你计划使用RNAi使一个基因沉默——你首先需要决定什么样的功效是令人满意的。比方说，50%的药效是否足以产生生物效应，还是需要以90%的药效为目标?了解基因及其丰度、功能、基因产物的周转时间、其他可能具有重叠功能的基因产物等背景信息是很有用的。

如果我从之前的实验中没有任何可变性的估计呢?

上述方法依赖于您对数据的可变性有一个概念。如果没有历史数据，可以使用文献从类似的实验或模型来估计可变性。然而，你必须特别小心，因为实验过程中的微小变化可能会导致变异性意想不到的巨大变化。如果没有可用的信息来通知你的实验设计，那么就有替代方案，例如科恩的d -一个标准化的效应大小18luck新利体育官网登录，可以用来代替。使用科恩d方法有特定的规则，它通常不如使用测量数据准确。有关这方面的更多信息，请参阅这个部分变化．

如果我的实验中有20个结果指标呢?

许多动物实验确实有多重反应，因为我们想从一个实验中获得最多的信息。例如，我们可以同时测量炎症的标记物，如趋化因子、细胞因子、CRP、IL-1、IL-4、IL-6、IL-10、TNF-α、TGFb、ICAM-1、IFN-γ等。然而，每种反应可能有不同的生物学相关效应大小和不同水平的可变性。因此，在给定的样本量下，统计力量不可避免地会在不同的响应之间有所不同。我们需要在这里从临床试验书中拿出一页，决定哪些结果测量对检验假设是必要的，哪些是可取的，然后选择一个主要结果测量来计算样本量。如果认为次要结果测量是必要的，则应对每一种测量进行功率计算，以确保所选的样本量将为所有基本结果测量提供足够的功率。

我的研究结果很有趣，但在统计上并不显著。我是否可以测试更多的动物/批次的细胞，直到p<0.05?

这种情况，我在在体外比在活的有机体内研究的过程是这样的:研究人员进行一系列实验并分析结果。如果他们发现了一些“有趣”的东西，但在结果中没有统计学意义，他们就会测试另一批细胞(可能会继续下去，直到达到p<0.05的“应许之地”)。

这就是所谓的P-hacking [1]，实际上并不推荐，因为它大大增加了获得假阳性结果的风险。它也显示了对实验设计和随机化的缺乏理解。18luck新利体育官网登录设计应该是提前计划(例如，通过使用EDA)，包括样本量的选择，并应遵守该计划，使整个过程在可控和无偏的情况下进行。

我打算把我的实验重复三次。我真的需要使用功率计算吗?

我有时会被问到这个问题，我认为这可能是对独立和阻塞概念的误解。逻辑是，如果研究人员重复一个(可能很小的)实验三次，并且在所有三个实验中观察到相同的趋势，那么就有“强有力的”证据表明有影响。在这种情况下，有一个假设，功率计算是不必要的。

这个逻辑有几个问题。首先，如果单个实验的动力不足，那么所有三个实验都可能揭示相同的假阳性趋势，因为没有一个实验是独立可靠的。另一种可能是，由于可变性，动力不足的个体实验未能识别出真正的效果。由于测试本身可能不是真正独立的，这种情况更加糟糕:实验可能是由相同的研究人员在同一实验室按照相同的协议，只是在不同的日子进行的(确保实验之间的密切一致)。因此，在三个研究中收集的证据可能并不像研究人员想象的那样结论性。

一个选择是将三个实验的数据作为一个单一的(更大的)数据集进行分析。由于现在的样本量增加了三倍，统计力量将更高(结果也更可靠)。然而，这仍然是不理想的，一个更有效的方法是使用块设计(每个小实验是一个块)，并计算整个实验所需的样本大小的功率计算。在这种情况下，在增加统计能力的同时，使用的动物可能比三个单独的实验中要少。

我能在不失去动力的情况下减少实验中使用的动物数量吗?

如果您对可变性有一个估计，那么有可能增加统计能力的另一种策略是使用群体顺序设计。在分组顺序设计中，中期分析(通常是两到三个)被预先规划到研究设计中，如果取得了统计上显著的效果(或没有观察到效果)，实验可以提前结束，从而拯救动物。当进行多重分析时，发现假阳性的风险会增加，因此显著性水平必须从5%降低，以解释这一点:有各种方法可以做到这一点。诺伊曼et al。［2]描述一个场景，其中两组比较(效应大小为1)使用传统设计(每组n=18)或组序设计。在后者中，当n=6只动物被评估时进行中期分析，然后可能在n=12和n=18只动物被测试时进行中期分析(取决于之前的中期分析结果)。使用这种方法，在不降低统计效力的情况下，平均节省了20%的动物。

你想回答的问题是什么?

最后，由我的一个问题来结束。

在决定样本量时，首先要考虑你要回答的问题是什么。许多传统的权力分析方法假设实验的目的是比较两个(或多个)实验组的平均数，使用方差分析或t检验。这样的评估需要每组动物的适当数量。但你真的只是想把一个治疗组和对照组进行比较吗?也许你真的对估计/理解潜在的剂量-反应关系本身感兴趣。如果是这样，那么实验设计的选择，因此每组的样本量可能是不同的18luck新利体育官网登录。

例如，如果你对剂量-反应关系感兴趣，想要识别ED₅₀，那么使用剂量组更多，每组动物更少的设计，也许每组最少3只，是比更传统的设计/样本量更好的设计。Bate和Clark(2014，第3.6.2.2节)给出了这样的例子。另一个例子是，如果筛选多个因素的整体影响是研究的目的，那么使用析因设计(每个因素水平的组合n=1或2只动物)可能是一个适当的设计-见[3.]。

一般来说，研究人员试图回答的问题通常很复杂。如果是这种情况，则可能需要统计学家的帮助，例如运行模拟以确定最佳设计/样本量。尽管如此，原则上我们应该总是尝试着将实验设计的选择与我们试图回答的问题保持一致。18luck新利体育官网登录

总结

最后，有一个YouTube视频一开始看起来有点奇怪，但这很好地代表了当两个人说不同的研究语言时会发生什么。一位科学家找到一位统计学家，询问他们对样本量合理性的建议。统计学家会问许多相关的问题，而研究人员则试图提供一些在他们看来有用的额外信息，但与此同时，研究人员的回答总是“我需要使用n=3”。希望这样的对话将来能少一些!

葛兰素史克的西蒙·贝特博士

参考文献

头毫升et al。(2015)。科学中p-hack的范围和后果。公共科学图书馆杂志13 (3): e1002106。doi: 10.1371 / journal.pbio.1002106
诺伊曼Ket al。(2017)。通过分组顺序设计提高临床前研究的效率。公共科学图书馆杂志15 (3): e2001307。doi: 10.1371 / journal.pbio.2001307
肖Ret al。(2002)。利用析因设计优化动物实验，减少动物使用。ILAR J43 (4)：223 - 32。doi: 10.1093 / ilar.43.4.223
Bate ST和Clark RA(2014)。动物实验的设计与统计分析．1版。剑桥大学出版社。