为何体育研究难以复现?新颖比靠谱重要吗?—— 从首个大型复制项目看领域挑战
创始人
2025-08-05 01:22:02
0

Max大郭(备注:郭佰鑫)

一位运营着公众号体育科学和AI大模型爱好者,喜欢刷科技资讯的大学生

联系我:MaxGBX (欢迎科研、产品、自媒体合作交流)

我的微信留在上方了↑

▲做了个图片当海报

有任何想法欢迎您私信或评论,有问题可以联系MaxGBX(我的微信)

文章比较长,希望各位有耐心阅读!我的文章同时也会发表到Linkedin和Medium上,欢迎你们也关注一下哈哈!

建议各位再关注一下这两个号,我也是作为作者的↑

我的私域资讯群会分享人工智能、心理学、健康以及海外的一些工作/科技资讯,有兴趣的欢迎您来了解!

如果您认可我的内容的话,我非常希望您可以帮我转载/传播一下,让更多人了解前沿的文献/产品相关资讯!大郭在这里抱拳了

我联系方式放在文末了!

欢迎大家到腾讯元宝首页或公众号后台与我个人创建的AI智能体对话!(知识库是使用的我的公众号文章)

《关于开展体育和运动科学大型复制的思考》文章信息整理一、基础信息

  • 文章标题:开展体育与运动科学大型复制项目的思考(《关于开展体育和运动科学大型复制项目的思考》)

  • 发表期刊运动医学(运动医学领域权威期刊)

  • 发表状态:2025年2月27日被接受,2025年6月16日在线发表

  • 版权信息:© The Author(s) 2025,采用 Creative Commons Attribution 4.0 International License 授权

二、作者及机构
  • 作者:詹妮弗·墨菲、艾伦·R·考德威尔、乔·P·沃恩

  • 所属机构

    • Jennifer Murphy:都柏林理工大学生物、健康与运动科学学院,阿肯色大学医学科学西北社区健康创新研究所

    • 联系方式:Jennifer Murphy的邮箱为jennymurphy1@outlook.ie

三、研究背景与目标
  • 背景:体育和运动科学领域长期缺乏大规模复制研究,对已发表成果的可重复性存在普遍担忧,但尚无对该领域复制率的系统性评估。

  • 核心目标

    1. 复盘体育与运动科学领域首个大型合作复制项目的经验与开幕;

    2. 分析复制研究面临的挑战与障碍;

    3. 探讨复制研究该领域理论发展的贡献,为未来复制项目提供参考。

四、项目概况
  • 发起方:运动科学复制中心(运动科学复制中心)

  • 合作规模:全球10个国家实验室网络参与,完成29项复制研究,最终分析25项。

  • 研究对象:2016-2021年发表在Q1(顶级)期刊的应用体育和运动科学研究。

  • 核心发现

    • 56%的复制研究与原研究具有相同的零假设显着性检验结果(以P值标准);

    • 36%的复制研究与原研究的效应量估算兼容;

    • 仅28%的复制研究就被视为“成功”(同时达到统计显着性和效果量兼容)。

五、文章结构
  1. 引言:介绍项目背景、规模及与其他领域大型复制项目的对比;

  2. 第一部分:复制项目的挑战:分析实际操作挑战(统计信息报告、数据可得性、吸纳偏误)和社会学挑战(原作者沟通、激励机制);

  3. 第二部分:复制研究的意义与质量:探讨复制与概念复制的区别、复制质量评估及对理论发展的作用;

  4. 第三部分:未来启示建议提出改善领域可重复性的,包括理论发展、研究预期管理、教育改革等;

  5. 结论:总结项目的核心发现与对领域的反思。

六、数据与资源公开
  • 原始数据及补充材料:可访问https://doi.org/10.17605/OSF.IO/SFBVA ;

  • 代码公开:同上述链接。

七、基金支持
  • 由IReL Consortium提供开放获取资金;

  • 得到爱尔兰研究委员会政府拨款项目(GOIPG/2020/1155)支持。

八、核心关键词

复制研究(Replication)、可重复性(Replicability)、效应量(Effect Size)、统计报告(Statistical Reporting)、体育和运动科学(Sports and Movement Science)。

一、为什么“复制研究”是体育科研的“照妖镜”?

你没有反对:那些“每天10分钟瘦5斤”“某动作能快速提升爆发力”的体育研究,真的靠谱吗?

在科学领域,“能被重复”是判断结论是否可信的核心标准。就像一个食谱,只要按照食谱严格操作,任何人都会做出相似的味道——科学结论也该如此。但在体育和运动科学领域,长期以来缺乏大规模的“复制研究”(即重复前人实验验证结果),导致很多“权威”的结论,可能只是“偶然现象”。

2025年,国际顶级运动医学期刊《运动医学》发表了一篇重磅论文,首次系统复盘了体育和运动科学领域第一个大型国际合作复制项目。这个由“运动科学复制中心”牵头的项目,联合了10个国家的实验室,全年复现了29项发表在顶级期刊的研究(最终分析25项)。结果让整个领域关闭:只有28%的研究能被成功复现

这篇名为《关于开展体育和运动科学大型复制项目的思考》的论文,不仅揭露了我们体育科研的“信任危机”,更深入分析了背后的根源。今天,就来拆解这个项目的来龙去脉,看看体育科研到底“卡”在哪里。

二、项目背景:为什么要大力做“复制研究”?

在这个项目之前,体育运动科学领域的“复制研究”几乎是空白。虽然偶尔有零星的重复实验,但从未有过“大规模、系统性”的验证——没人知道这个领域的研究“整体靠谱度”有多高。

为什么做这个项目?

  • 解决“信任危机”:当时已有研究指出,体育科研存在“统计信息报告模糊”“数据不公开”等问题,很多结论可能不可靠。

  • 建立“复现标准”:通过大规模合作,探索体育科研的复现方法,为未来的研究提供参考。

  • 推动“领域进步”:复现研究不是为了“打假”,而是为了筛选出真正可靠的结论,让体育科研更好地指导训练和健身。

项目规模有多大?
  • 时间范围:复现2016-2021年发表在“Q1期刊”(领域内顶级期刊)的研究,确保研究的“主题”。

  • 参与力量:全球10个国家的实验室合作,发现来自不同的背景,减少“单一团队偏见”。

  • 复现数量:最初计划复现更多研究,最终完成29项,分析了25项(部分因数据缺失等原因未纳入)。

三、核心发现:只有28%的研究能力“经受住检验”

项目用透明度标准判断“复现是否成功”,结果如下:

判断标准 数据结果 背后意义
统计显着性一致 56% 56%的复现研究和原研究一样,得出“有统计学意义”的结论(即P<0.05)。但这只说明“结果不是随机的”,不代表“结论可靠”。
效应量兼容 36% 仅36%的复现研究,其“效果量”(即结果的实际意义,如“训练后力量提升多少”)和原研究接近。效果量比P值更能反映结论的实用价值。
成功(双方完全满足) 28% 只有28%的研究,既重复产生了“统计显着性”,又保证了“效果量和原研究兼容”——这才是真正“靠谱”的结论。

这些数据意味着什么?

  • 打个比方:如果把体育科研结论比作“100道菜谱”,只有28道能被别人“照着做出同款味道”;剩下的72道,要么是“菜谱写得模糊”(描述方法不清楚),要么是“调料放错了”(统计分析有误),甚至可能是“厨师记错了做法”(原始数据丢失)。

  • 更坚强的是,36%的“效果训练量现率”说明:即使复研究得出了“显着结果”,其实际意义也可能和原研究相差很远。比如原研究说“某物能够爆发力提升30%”,复现却发现“只能提升5%”——结论这种对运动员和健身者来说,参考价值天差地别。

四、复现研究的“第一重难关”:实际操作中的“坑”太多

项目团队在复现过程中,遇到的第一个大问题是“技术层面做不下去”。大量研究“设计严谨”,但真正要复现起来,处处是漏洞。

1.原研究的“统计信息”写得太潦草,复全靠“猜”

体育科研长期存在一个顽疾:关键统计数据报告不完整。比如,很多论文只写“P<0.05”(结果显着),同时提供“效应量”“样本均值”“纵向”等数据——这些近似是复现研究的“基础材料”。

项目中,中间我们做了大量“指导”:

  • 36%的“检验统计量”(如t值、F值,用于计算P值的关键数据)需要“猜测”;

  • 48%的“自由度”(统计分析的核心参数)需要“猜测”;

  • 20%的“效应量”(结果实际意义)需要“猜测”。

更离谱的是,有些原研究连“效应量的计算方法”都写错了。比如:

  • 9项用“计量t检验”的研究中,6项报告的效应量类型错误,2项压根未报告,1项用了错误公式;

  • 3项“耳环分析”研究,连诉的“偏eta平方”(一个效应量指标)都算错了。

这就好比有人给你一个蛋糕食谱,却没写“放糖10克还是100克”,还把“低筋面粉”写成了“高筋面粉”——你怎么可能做同款蛋糕?

2.原始数据“藏着掖着”,复现像“破案”

想要准确复现研究,最好能得到原作者的原始数据(比如每个人的测试结果)。但在这个项目中,25项研究里只有7项(28%)的原作者愿意分享原始数据

为什么原作者不愿意分享?

  • 有人担心“数据被挑出错误”,影响自己的学术价值;

  • 有人觉得“数据是自己辛苦收集的,凭什么给别人”;

  • 还有人可能“自己都找不到数据源了”(比如换电脑、实验室搬迁导致数据丢失)。

没有原始数据,复现团队只能从论文的“只言片语”中反推方法。比如原研究说“目前平均年龄25岁”,“年龄范围”“男女比例”但没说——复现的样本可能和原研究差异很大,结果自然不一致。

3.为了“能做下去”,复现研究被迫“降低标准”

复现研究依赖全球实验室“自愿参与”,而实验室的资源(设备、连通、听力来源)有限。因此,选研究时不得不优先考虑“呼吸”:

  • 样本量不能完成(否则招募不动);

  • 设备不能太特殊(否则实验室没有);

  • 周期不能太长(否则没人愿意坚持)。

比如,原研究要测算“职业足球运动员的心肺功能”,但复现团队只能找到“大学生足球兴趣”,就不得不放宽招募条件。这种“让步”其实藏着“隐性偏误”——容易复现的研究优先选择,可能会让项目被低估了整个领域的复现维度。

五、复现研究的“第二重难关”:原作者不配合,沟通“打仗”

除了技术问题,项目团队还遇到了更棘手的“人情关系”——和原作者沟通太难了

1.原作者“不回复、不配合”成常态

复现研究需要原作者阐明方法细节(如“设备型号”“测试流程”),但项目中:

  • 29份复现方案发给原作者审核,69%的人“压根不回复”;

  • 14份需要“方法咨询”的邮件,36%石沉大海;

  • 只有17%的原“明确批准”复现方案,14%的人提出了具体意见(比如“测力台必须与相同模型作者”)。

2.部分原作者“热情激烈”,把复现当“攻击”

更让人意外的是,有些原对复现研究充满敌意。项目团队在邮件沟通中,被指责“这是政治迫害”“你们是在浪费资源”“别来烦我”。甚至有原作者说:“我的研究不用复现,你们去复现XXX的吧”。

他们觉得:“复现失败=我的研究为什么很多作者错了=我不行”。但实际上,复现失败可能只是因为“方法没说清”,不一定是研究本身有问题。这种“防御心态”让科学沟通“彻底卡壳”。

以下是围绕《关于开展体育和运动科学大型复制项目的思考.pdf》展开的科普推文第二部分,聚焦复现研究的深层意义、行业反思及未来建议:

六、复现研究不仅仅是“挑错”,更是理论进步的“阶梯”

很多人觉得,复现研究的意义在于“验证原研究对不对”。但这篇文章强调:复现的真正意义,是推动体育科学理论的“伪去存真”

1.“紧密复制”与“概念复制”:复现不是机械照搬

复现研究分两种类型,两者各有价值:

  • 严格复制:严格按照原研究的方法(如时装特征、设备型号、实验步骤)重复,要求减少差异。这种复现能直接检验“原研究结论是否稳定”。原研究用“20-25岁男性短跑运动员”,复现也严格按此标准招募,用同一品牌测力台,目的是看“在条件下结果相同,是否一致”。

  • 概念复制:保留原研究的核心逻辑,但在方法上做合理调整,检验结论的“普适性”。比如原研究用“短跑运动”,复现用“中长跑运动”;原研究用“室内测力台”,复现用“室外跑步”,目的是看“结论是否能推广到更广泛的场景”。

但在实际操作中,这两种复现的惯例界限模糊。比如项目中,有项研究因“找不到与原研究完全一致的女排运动”,不得不放宽为“女子团队项目运动员”;还有项研究将老年人年龄范围从“20-30岁”扩大到“18-35岁”。这些调整虽然固然,却可能影响复现结果——这也提醒我们:原研究必须把方法写得足够详细,才能让复现者知道“哪些细节不能改”

2.复现质量的“好与差”:细节决定成败

项目团队对25项复现研究的质量进行了分级:12项“好”、10项“中”、3项“差”。判断标准包括“样本特征与原研究的相似度”“设备一致性”“实验流程重合度”等。

“差”的复现往往输在细节上。比如有一项研究复“不同负担对运动力学的影响”,原研究使用的跑步机“转弯与头部齐平”,但复现团队的跑步机“侧面稍稍转弯”,导致不得不“刻意抬高”更关键的是,原研究论文中压根没有提“跑步机体重高度”这个细节——这就像菜谱没说“用粘不锅”,别人用铁锅炒糊了,能怪操作者吗?

这也提出了一个问题:很多原研究为了让论文“看起来简洁”,刻意省略了关键方法细节。比如“增强时排除了哪些疾病”“设备安排的具体步骤”“数据值如何处理”等,这些异常“隐藏信息”恰恰是恢复成功的关键。

七、体育科研的“深刻危机”:不止复现,理论根基也不稳定

复现率低只是表面现象,文章深挖后发现,体育科研仍存在更强烈的“理论危机”:

1.研究“重结论、轻假设”,很多结论“无法证明伪”

科学的核心是“可证伪性”——一个结论必须被“论证是错误的”,才值得研究。但很多体育科研的假设模糊到“都对”。比如“运动能改善心肺功能”,既没说“每周运动几次”,也没说“改善多少算有效”,这样的结论复现失败,也能找到借口“是运动强度不够”。

项目中,是重大原研究甚至“没有明确假设”,却直接用“显着性检验”(P值)下结论。更糟糕的是,有些研究“先收集数据,再倒推假设”(学术上叫HARKing),相当于“先射箭再画靶”,这样的结论自然很难复现。

2.“追求积极结果”成潜规则,数据“被美化”

体育科研的“积极结果率”高达81%即(81%的论文都声称“发现了显着效果”),远近科学研究的合理水平(一般认为50%左右更可信)。这就是背后“期刊爱发结果”“推测靠结果评职称”的潜规则。

为了出“快速结果”,一些突然会突然用“质疑操作”:比如“只报告显着的结果,却忽略不显着的”(选择性报告)、“反复调整数据直到P<0.05”(P-hacking)。这些操作让研究“看起来”,彻底破坏了复现的可能。

3.学术激励机制“反科学”,复现研究“费力不讨好”

当前学术评价体系“重创新、轻验证”:发表“新发现”能快速提出,而复现研究被视为“重复劳动”,期刊不愿发,基金不愿支持。项目中,189名最初表示愿意参与,但最终只有29人完成——因为复现需要另外做“注册方案”“公开数据”“与原作者沟通”等工作,这些都“并非科研成果”。

更讽刺的是,很多人瞬间觉得“复现别人的研究是在挑错”,甚至担心“得罪人”。这种“多一事不如少一事”的心态,让体育科研陷入“只得出结论、不验真假”的恶性循环。

八、如何挽救体育科研的“可信度”?三大改革方向

文章结合项目经验,为体育科研的未来培育出“药方”:

1.从“闭门造车”到“开放科学”:数据和方法必须透明

  • 强制公开关键信息:论文必须完整报告“效应量、均值、偏差”等统计数据,不能报P值;方法部分要只写清“设备型号、顶部排除标准、数据处理步骤”,甚至“实验中遇到意外的及解决方式”。

  • 完成原始数据突发成常态:研究后,原始数据、分析代码要上传到公共平台(如开放科学框架),方便他人复现。团队项目已带头将数据上传至https://doi.org/10.17605/OSF.IO/SFBVA,供全球侦察。

2.改革评价体系:给予复现研究“正名”
  • 期刊要欢迎现论文:复现成功还是失败,只要方法严谨,都该发表。比如复现《运动医学》这类顶刊已开始设立“复现研究专栏”。

  • 职称评审纳入“复现贡献”:介入复现项目、公开数据、改进方法等行为,都应作为“学术成果”被认可,而不只是看“发表了多少新论文”。

3.科研教育“刮骨疗毒”:从“算P值”到“做靠谱研究”

当前体育科研的统计教育太“功利”:学生只用软件算P值,却不懂“为什么要算”“结果意味着什么”。改革方向包括:

  • 教学生设计“可证伪的假设”:比如不说“运动减肥能”,而说“每周跑3次、每次30分钟,12周后体重下降≥3%”,让结论能得到检验。

  • 强调“不确定性”:结果科研总有缺陷,论文的“局限性”部分不能衍生,要阐明“结论可能不适用哪些人群”“方法存在哪些漏洞”。

  • 培养“批判性思维”:鼓励学生质疑自己的研究,也敢于复述别人的研究——这不是“挑错”,而是科学进步的正常过程。

九、对普通人的启示:别盲从“科研结论”,排除“是否被重复验证”

这篇醒文章不仅给臀部提了,也给健身者、运动员敲响警钟:

  • 别轻信“单一研究”:比如“某动作能瘦肚子”,如果只有一项研究支持,很可能是偶然结果;如果对照现研究都证实,才更可信。

  • 关注“效应量”而非“显着性”:比如“某训练能提升爆发力”,除了“提升了5%还是30%”,今晚出现实际意义。

  • 氧气“过度包装”的结论:如果研究说“100%有效”“无副作用”,很可能不严谨——科学结论往往带有“不确定性”。

结语:体育科研需要“慢下来”的勇气

这个大型复制项目像一面镜子,照出体育现科研的“浮躁”:太多人追求“快速出成果”,却忘记了科学的本质是“求真”。28%的复核率不是“否定”,而是“警示”——它提醒我们:靠谱的科研,比“新发现”更重要

未来,当我们看到“某项训练方法被10项复现研究验证”时,才能真正放心地把它诉诸心血管健身计划;当运动员的训练方案基于“被反复验证的结论”时,才能更有效地提升成绩。这一天的到来,需要心脏病、期刊、评价共同——而这篇文章,正是见证了变革努力的“起点”。

相关内容

热门资讯

为何体育研究难以复现?新颖比靠... Max大郭(备注:郭佰鑫) 一位运营着公众号体育科学和AI大模型爱好者,喜欢刷科技资讯的大学生 联系...
“假如我是社区书记” 碑林区柏... 8月4日,碑林区柏树林街道举办“假如我是社区书记”思想众筹会,12名一线工作者化身“十分钟书记”,围...
北京的雨到哪了?未来1小时降水... 根据市气象部门的最新消息,目前北京地区对流活动增强,城区出现局地强降水,最近一小时(16-17时)最...
原创 抽... 国际乒联的抽签分组再现"神剧本"!资深评论员贺晓龙梳理2021-2025三届世乒赛数据,揭示惊人规律...
设计驱变,北汽设计更快如何更好... 设计不是装饰,而是解决问题的思考。 在如今的中国新能源汽车市场,十几个月的时间里,汽车品牌就能开发出...
广西合浦县委原书记王川被决定逮... 正义网记者8月4日从最高人民检察院获悉,广西壮族自治区合浦县委原书记、二级巡视员王川涉嫌受贿一案,由...
51岁男游客在辽宁一景区坠落身... 央广网北京8月4日消息(记者费权)近日,辽宁丹东凤城市凤凰山景区发生了一起令人痛心的事件。一名51岁...
投顾观市:指数反弹力度如何,可... 8月4日,和讯投顾都业华在今日市场分析中指出,从日线图来看,市场在20日均线附近止跌,但是否意味着市...
收入水平全国第三,浙江如何提振... 21世纪经济报道记者柳宁馨 杭州报道 据新华社报道,7月30日,中共中央政治局召开会议并强调,要有效...
揭秘:OpenAI是如何发展出... 当全世界都在为ChatGPT的横空出世而狂欢时,你可能不知道,这只是OpenAI一次“无心插柳”的惊...
字节跳动:因北京暴雨预警,北京... 8月4日,字节跳动发布提前下班公告,因北京暴雨橙色预警,昌平、石景山、房山已升级至红色。 北京工区员...
原创 中... 中超联赛:北京国安为何被津门虎逼平,到底是哪出了问题?网友热议一针见血地指出:北京国安教练固然可能不...
三年逆袭!云顶新耀肾病药一药难... 出品 | 子弹财经 张珏 近日,一场突然的药品断货潮,让一款此前鲜少被大众提及的肾病药——耐赋康(...
痛经假入法二十年,为何“请不动... 近日,“多地明确女职工可休痛经假”的话题引发广泛关注。据不完全统计,目前全国已有约20个省市在地方性...