为何体育研究难以复现？新颖比靠谱重要吗？—— 从首个大型复制项目看领域挑战_资讯

为何体育研究难以复现？新颖比靠谱重要吗？—— 从首个大型复制项目看领域挑战

创始人

2025-08-05 01:22:02

0次

Max大郭（备注：郭佰鑫）

一位运营着公众号体育科学和AI大模型爱好者，喜欢刷科技资讯的大学生

联系我：MaxGBX （欢迎科研、产品、自媒体合作交流）

我的微信留在上方了↑

▲做了个图片当海报

有任何想法欢迎您私信或评论，有问题可以联系MaxGBX（我的微信）

文章比较长，希望各位有耐心阅读！我的文章同时也会发表到Linkedin和Medium上，欢迎你们也关注一下哈哈！

建议各位再关注一下这两个号，我也是作为作者的↑

我的私域资讯群会分享人工智能、心理学、健康以及海外的一些工作/科技资讯，有兴趣的欢迎您来了解！’

如果您认可我的内容的话，我非常希望您可以帮我转载/传播一下，让更多人了解前沿的文献/产品相关资讯！大郭在这里抱拳了

我联系方式放在文末了！

欢迎大家到腾讯元宝首页或公众号后台与我个人创建的AI智能体对话！（知识库是使用的我的公众号文章）

《关于开展体育和运动科学大型复制的思考》文章信息整理一、基础信息

文章标题：开展体育与运动科学大型复制项目的思考（《关于开展体育和运动科学大型复制项目的思考》）
发表期刊：运动医学（运动医学领域权威期刊）
发表状态：2025年2月27日被接受，2025年6月16日在线发表
版权信息：© The Author(s) 2025，采用 Creative Commons Attribution 4.0 International License 授权

二、作者及机构

作者：詹妮弗·墨菲、艾伦·R·考德威尔、乔·P·沃恩
所属机构：

Jennifer Murphy：都柏林理工大学生物、健康与运动科学学院，阿肯色大学医学科学西北社区健康创新研究所
联系方式：Jennifer Murphy的邮箱为jennymurphy1@outlook.ie

三、研究背景与目标

背景：体育和运动科学领域长期缺乏大规模复制研究，对已发表成果的可重复性存在普遍担忧，但尚无对该领域复制率的系统性评估。
核心目标：

复盘体育与运动科学领域首个大型合作复制项目的经验与开幕；
分析复制研究面临的挑战与障碍；
探讨复制研究该领域理论发展的贡献，为未来复制项目提供参考。

四、项目概况

发起方：运动科学复制中心（运动科学复制中心）
合作规模：全球10个国家实验室网络参与，完成29项复制研究，最终分析25项。
研究对象：2016-2021年发表在Q1（顶级）期刊的应用体育和运动科学研究。
核心发现：

56%的复制研究与原研究具有相同的零假设显着性检验结果（以P值标准）；
36%的复制研究与原研究的效应量估算兼容；
仅28%的复制研究就被视为“成功”（同时达到统计显着性和效果量兼容）。

五、文章结构

引言：介绍项目背景、规模及与其他领域大型复制项目的对比；
第一部分：复制项目的挑战：分析实际操作挑战（统计信息报告、数据可得性、吸纳偏误）和社会学挑战（原作者沟通、激励机制）；
第二部分：复制研究的意义与质量：探讨复制与概念复制的区别、复制质量评估及对理论发展的作用；
第三部分：未来启示建议提出改善领域可重复性的，包括理论发展、研究预期管理、教育改革等；
结论：总结项目的核心发现与对领域的反思。

六、数据与资源公开

原始数据及补充材料：可访问https://doi.org/10.17605/OSF.IO/SFBVA ；
代码公开：同上述链接。

七、基金支持

由IReL Consortium提供开放获取资金；
得到爱尔兰研究委员会政府拨款项目（GOIPG/2020/1155）支持。

八、核心关键词

复制研究（Replication）、可重复性（Replicability）、效应量（Effect Size）、统计报告（Statistical Reporting）、体育和运动科学（Sports and Movement Science）。

一、为什么“复制研究”是体育科研的“照妖镜”？

你没有反对：那些“每天10分钟瘦5斤”“某动作能快速提升爆发力”的体育研究，真的靠谱吗？

在科学领域，“能被重复”是判断结论是否可信的核心标准。就像一个食谱，只要按照食谱严格操作，任何人都会做出相似的味道——科学结论也该如此。但在体育和运动科学领域，长期以来缺乏大规模的“复制研究”（即重复前人实验验证结果），导致很多“权威”的结论，可能只是“偶然现象”。

2025年，国际顶级运动医学期刊《运动医学》发表了一篇重磅论文，首次系统复盘了体育和运动科学领域第一个大型国际合作复制项目。这个由“运动科学复制中心”牵头的项目，联合了10个国家的实验室，全年复现了29项发表在顶级期刊的研究（最终分析25项）。结果让整个领域关闭：只有28%的研究能被成功复现。

这篇名为《关于开展体育和运动科学大型复制项目的思考》的论文，不仅揭露了我们体育科研的“信任危机”，更深入分析了背后的根源。今天，就来拆解这个项目的来龙去脉，看看体育科研到底“卡”在哪里。

二、项目背景：为什么要大力做“复制研究”？

在这个项目之前，体育运动科学领域的“复制研究”几乎是空白。虽然偶尔有零星的重复实验，但从未有过“大规模、系统性”的验证——没人知道这个领域的研究“整体靠谱度”有多高。

为什么做这个项目？

解决“信任危机”：当时已有研究指出，体育科研存在“统计信息报告模糊”“数据不公开”等问题，很多结论可能不可靠。
建立“复现标准”：通过大规模合作，探索体育科研的复现方法，为未来的研究提供参考。
推动“领域进步”：复现研究不是为了“打假”，而是为了筛选出真正可靠的结论，让体育科研更好地指导训练和健身。

项目规模有多大？

时间范围：复现2016-2021年发表在“Q1期刊”（领域内顶级期刊）的研究，确保研究的“主题”。
参与力量：全球10个国家的实验室合作，发现来自不同的背景，减少“单一团队偏见”。
复现数量：最初计划复现更多研究，最终完成29项，分析了25项（部分因数据缺失等原因未纳入）。

三、核心发现：只有28%的研究能力“经受住检验”

项目用透明度标准判断“复现是否成功”，结果如下：

判断标准	数据结果	背后意义
统计显着性一致	56%	56%的复现研究和原研究一样，得出“有统计学意义”的结论（即P<0.05）。但这只说明“结果不是随机的”，不代表“结论可靠”。
效应量兼容	36%	仅36%的复现研究，其“效果量”（即结果的实际意义，如“训练后力量提升多少”）和原研究接近。效果量比P值更能反映结论的实用价值。
成功（双方完全满足）	28%	只有28%的研究，既重复产生了“统计显着性”，又保证了“效果量和原研究兼容”——这才是真正“靠谱”的结论。

这些数据意味着什么？

打个比方：如果把体育科研结论比作“100道菜谱”，只有28道能被别人“照着做出同款味道”；剩下的72道，要么是“菜谱写得模糊”（描述方法不清楚），要么是“调料放错了”（统计分析有误），甚至可能是“厨师记错了做法”（原始数据丢失）。
更坚强的是，36%的“效果训练量现率”说明：即使复研究得出了“显着结果”，其实际意义也可能和原研究相差很远。比如原研究说“某物能够爆发力提升30%”，复现却发现“只能提升5%”——结论这种对运动员和健身者来说，参考价值天差地别。

四、复现研究的“第一重难关”：实际操作中的“坑”太多

项目团队在复现过程中，遇到的第一个大问题是“技术层面做不下去”。大量研究“设计严谨”，但真正要复现起来，处处是漏洞。

1.原研究的“统计信息”写得太潦草，复全靠“猜”

体育科研长期存在一个顽疾：关键统计数据报告不完整。比如，很多论文只写“P<0.05”（结果显着），同时提供“效应量”“样本均值”“纵向”等数据——这些近似是复现研究的“基础材料”。

项目中，中间我们做了大量“指导”：

36%的“检验统计量”（如t值、F值，用于计算P值的关键数据）需要“猜测”；
48%的“自由度”（统计分析的核心参数）需要“猜测”；
20%的“效应量”（结果实际意义）需要“猜测”。

更离谱的是，有些原研究连“效应量的计算方法”都写错了。比如：

9项用“计量t检验”的研究中，6项报告的效应量类型错误，2项压根未报告，1项用了错误公式；
3项“耳环分析”研究，连诉的“偏eta平方”（一个效应量指标）都算错了。

这就好比有人给你一个蛋糕食谱，却没写“放糖10克还是100克”，还把“低筋面粉”写成了“高筋面粉”——你怎么可能做同款蛋糕？

2.原始数据“藏着掖着”，复现像“破案”

想要准确复现研究，最好能得到原作者的原始数据（比如每个人的测试结果）。但在这个项目中，25项研究里只有7项（28%）的原作者愿意分享原始数据。

为什么原作者不愿意分享？

有人担心“数据被挑出错误”，影响自己的学术价值；
有人觉得“数据是自己辛苦收集的，凭什么给别人”；
还有人可能“自己都找不到数据源了”（比如换电脑、实验室搬迁导致数据丢失）。

没有原始数据，复现团队只能从论文的“只言片语”中反推方法。比如原研究说“目前平均年龄25岁”，“年龄范围”“男女比例”但没说——复现的样本可能和原研究差异很大，结果自然不一致。

3.为了“能做下去”，复现研究被迫“降低标准”

复现研究依赖全球实验室“自愿参与”，而实验室的资源（设备、连通、听力来源）有限。因此，选研究时不得不优先考虑“呼吸”：

样本量不能完成（否则招募不动）；
设备不能太特殊（否则实验室没有）；
周期不能太长（否则没人愿意坚持）。

比如，原研究要测算“职业足球运动员的心肺功能”，但复现团队只能找到“大学生足球兴趣”，就不得不放宽招募条件。这种“让步”其实藏着“隐性偏误”——容易复现的研究优先选择，可能会让项目被低估了整个领域的复现维度。

五、复现研究的“第二重难关”：原作者不配合，沟通“打仗”

除了技术问题，项目团队还遇到了更棘手的“人情关系”——和原作者沟通太难了。

1.原作者“不回复、不配合”成常态

复现研究需要原作者阐明方法细节（如“设备型号”“测试流程”），但项目中：

29份复现方案发给原作者审核，69%的人“压根不回复”；
14份需要“方法咨询”的邮件，36%石沉大海；
只有17%的原“明确批准”复现方案，14%的人提出了具体意见（比如“测力台必须与相同模型作者”）。

2.部分原作者“热情激烈”，把复现当“攻击”

更让人意外的是，有些原对复现研究充满敌意。项目团队在邮件沟通中，被指责“这是政治迫害”“你们是在浪费资源”“别来烦我”。甚至有原作者说：“我的研究不用复现，你们去复现XXX的吧”。

他们觉得：“复现失败=我的研究为什么很多作者错了=我不行”。但实际上，复现失败可能只是因为“方法没说清”，不一定是研究本身有问题。这种“防御心态”让科学沟通“彻底卡壳”。

以下是围绕《关于开展体育和运动科学大型复制项目的思考.pdf》展开的科普推文第二部分，聚焦复现研究的深层意义、行业反思及未来建议：

六、复现研究不仅仅是“挑错”，更是理论进步的“阶梯”

很多人觉得，复现研究的意义在于“验证原研究对不对”。但这篇文章强调：复现的真正意义，是推动体育科学理论的“伪去存真”。

1.“紧密复制”与“概念复制”：复现不是机械照搬

复现研究分两种类型，两者各有价值：

严格复制：严格按照原研究的方法（如时装特征、设备型号、实验步骤）重复，要求减少差异。这种复现能直接检验“原研究结论是否稳定”。原研究用“20-25岁男性短跑运动员”，复现也严格按此标准招募，用同一品牌测力台，目的是看“在条件下结果相同，是否一致”。
概念复制：保留原研究的核心逻辑，但在方法上做合理调整，检验结论的“普适性”。比如原研究用“短跑运动”，复现用“中长跑运动”；原研究用“室内测力台”，复现用“室外跑步”，目的是看“结论是否能推广到更广泛的场景”。

但在实际操作中，这两种复现的惯例界限模糊。比如项目中，有项研究因“找不到与原研究完全一致的女排运动”，不得不放宽为“女子团队项目运动员”；还有项研究将老年人年龄范围从“20-30岁”扩大到“18-35岁”。这些调整虽然固然，却可能影响复现结果——这也提醒我们：原研究必须把方法写得足够详细，才能让复现者知道“哪些细节不能改”。

2.复现质量的“好与差”：细节决定成败

项目团队对25项复现研究的质量进行了分级：12项“好”、10项“中”、3项“差”。判断标准包括“样本特征与原研究的相似度”“设备一致性”“实验流程重合度”等。

“差”的复现往往输在细节上。比如有一项研究复“不同负担对运动力学的影响”，原研究使用的跑步机“转弯与头部齐平”，但复现团队的跑步机“侧面稍稍转弯”，导致不得不“刻意抬高”更关键的是，原研究论文中压根没有提“跑步机体重高度”这个细节——这就像菜谱没说“用粘不锅”，别人用铁锅炒糊了，能怪操作者吗？

这也提出了一个问题：很多原研究为了让论文“看起来简洁”，刻意省略了关键方法细节。比如“增强时排除了哪些疾病”“设备安排的具体步骤”“数据值如何处理”等，这些异常“隐藏信息”恰恰是恢复成功的关键。

七、体育科研的“深刻危机”：不止复现，理论根基也不稳定

复现率低只是表面现象，文章深挖后发现，体育科研仍存在更强烈的“理论危机”：

1.研究“重结论、轻假设”，很多结论“无法证明伪”

科学的核心是“可证伪性”——一个结论必须被“论证是错误的”，才值得研究。但很多体育科研的假设模糊到“都对”。比如“运动能改善心肺功能”，既没说“每周运动几次”，也没说“改善多少算有效”，这样的结论复现失败，也能找到借口“是运动强度不够”。

项目中，是重大原研究甚至“没有明确假设”，却直接用“显着性检验”（P值）下结论。更糟糕的是，有些研究“先收集数据，再倒推假设”（学术上叫HARKing），相当于“先射箭再画靶”，这样的结论自然很难复现。

2.“追求积极结果”成潜规则，数据“被美化”

体育科研的“积极结果率”高达81%即（81%的论文都声称“发现了显着效果”），远近科学研究的合理水平（一般认为50%左右更可信）。这就是背后“期刊爱发结果”“推测靠结果评职称”的潜规则。

为了出“快速结果”，一些突然会突然用“质疑操作”：比如“只报告显着的结果，却忽略不显着的”（选择性报告）、“反复调整数据直到P<0.05”（P-hacking）。这些操作让研究“看起来”，彻底破坏了复现的可能。

3.学术激励机制“反科学”，复现研究“费力不讨好”

当前学术评价体系“重创新、轻验证”：发表“新发现”能快速提出，而复现研究被视为“重复劳动”，期刊不愿发，基金不愿支持。项目中，189名最初表示愿意参与，但最终只有29人完成——因为复现需要另外做“注册方案”“公开数据”“与原作者沟通”等工作，这些都“并非科研成果”。

更讽刺的是，很多人瞬间觉得“复现别人的研究是在挑错”，甚至担心“得罪人”。这种“多一事不如少一事”的心态，让体育科研陷入“只得出结论、不验真假”的恶性循环。

八、如何挽救体育科研的“可信度”？三大改革方向

文章结合项目经验，为体育科研的未来培育出“药方”：

1.从“闭门造车”到“开放科学”：数据和方法必须透明

强制公开关键信息：论文必须完整报告“效应量、均值、偏差”等统计数据，不能报P值；方法部分要只写清“设备型号、顶部排除标准、数据处理步骤”，甚至“实验中遇到意外的及解决方式”。
完成原始数据突发成常态：研究后，原始数据、分析代码要上传到公共平台（如开放科学框架），方便他人复现。团队项目已带头将数据上传至https://doi.org/10.17605/OSF.IO/SFBVA，供全球侦察。

2.改革评价体系：给予复现研究“正名”

期刊要欢迎现论文：复现成功还是失败，只要方法严谨，都该发表。比如复现《运动医学》这类顶刊已开始设立“复现研究专栏”。
职称评审纳入“复现贡献”：介入复现项目、公开数据、改进方法等行为，都应作为“学术成果”被认可，而不只是看“发表了多少新论文”。

3.科研教育“刮骨疗毒”：从“算P值”到“做靠谱研究”

当前体育科研的统计教育太“功利”：学生只用软件算P值，却不懂“为什么要算”“结果意味着什么”。改革方向包括：

教学生设计“可证伪的假设”：比如不说“运动减肥能”，而说“每周跑3次、每次30分钟，12周后体重下降≥3%”，让结论能得到检验。
强调“不确定性”：结果科研总有缺陷，论文的“局限性”部分不能衍生，要阐明“结论可能不适用哪些人群”“方法存在哪些漏洞”。
培养“批判性思维”：鼓励学生质疑自己的研究，也敢于复述别人的研究——这不是“挑错”，而是科学进步的正常过程。

九、对普通人的启示：别盲从“科研结论”，排除“是否被重复验证”

这篇醒文章不仅给臀部提了，也给健身者、运动员敲响警钟：

别轻信“单一研究”：比如“某动作能瘦肚子”，如果只有一项研究支持，很可能是偶然结果；如果对照现研究都证实，才更可信。
关注“效应量”而非“显着性”：比如“某训练能提升爆发力”，除了“提升了5%还是30%”，今晚出现实际意义。
氧气“过度包装”的结论：如果研究说“100%有效”“无副作用”，很可能不严谨——科学结论往往带有“不确定性”。

结语：体育科研需要“慢下来”的勇气

这个大型复制项目像一面镜子，照出体育现科研的“浮躁”：太多人追求“快速出成果”，却忘记了科学的本质是“求真”。28%的复核率不是“否定”，而是“警示”——它提醒我们：靠谱的科研，比“新发现”更重要。

未来，当我们看到“某项训练方法被10项复现研究验证”时，才能真正放心地把它诉诸心血管健身计划；当运动员的训练方案基于“被反复验证的结论”时，才能更有效地提升成绩。这一天的到来，需要心脏病、期刊、评价共同——而这篇文章，正是见证了变革努力的“起点”。

體育文章項目 License 運動科學資訊挑戰領域研究結論效應量

上一篇：一群美女在街头聊天，接下来发生的一幕监控拍下全过程！

下一篇：当小伙去了老丈人家，看来还是有家庭地位的，这下惨了姑娘啊！

为何体育研究难以复现？新颖比靠谱重要吗？—— 从首个大型复制项目看领域挑战

相关内容

热门资讯