“生成式 AI 对在线知识社区的影响” 这篇论文由 Gordon Burtch、Dokyun Lee 和 Zhichen Chen 撰写,主要探讨了生成式人工智能(Gen AI)技术,特别是像 ChatGPT 这样的大语言模型(LLMs)对在线知识社区的影响。研究发现 ChatGPT 的发布与 Stack Overflow 的网站流量和问题发布量下降有关,而 Reddit 开发者社区未受明显影响,且在 Stack Overflow 中,新用户和较简单问题受影响较大。
研究背景
- Gen AI 技术发展:Gen AI 技术尤其是 LLMs 发展显著,在信息检索和内容创建任务中表现出色,这可能改变在线知识社区的知识开发和交流方式。
- LLMs 的影响:LLMs 对在线知识社区的参与和活动有正负两方面影响,积极方面可增强知识共享,消极方面可能取代社区,若取代效应占主导会引发诸多问题,如信息准确性、人际互动机会减少、对组织和个人发展的影响等。
研究问题
- 评估 Gen AI 尤其是 LLMs 对在线知识社区中用户参与和内容创建的影响。
- 探索调节 LLMs 对在线知识社区参与和内容创建影响的因素,以增进对 LLMs 在塑造在线知识共享和协作未来中作用的理解,并为鼓励人类用户与 AI 技术间可持续知识共享动态提供见解。
研究方法
- 数据来源:使用来自 SimilarWeb 的每日网站流量数据集(2022 年 9 月 – 2023 年 3 月),Stack Exchange Data Explorer 的 Stack Overflow 问题和答案及用户特征数据(2021 年 10 月 – 2022 年 3 月中旬、2022 年 10 月 – 2023 年 3 月中旬),subredditstats.com的 Reddit 子版块每日发布量数据。
- 研究方法
- 运用合成控制法(Synthetic Control Using LASSO, SCUL)分析 ChatGPT 发布对 Stack Overflow 网站流量影响。
- 通过双重差分法评估 ChatGPT 对 Stack Overflow 问题发布量影响,并对比 Reddit 数据。
- 对比 Stack Overflow 和 Reddit 社区,考虑社交结构对 LLMs 影响的调节作用,探索 Stack Overflow 不同主题下的异质性。
- 分析 ChatGPT 发布后 Stack Overflow 用户平均账户年龄和问题复杂性变化。
研究结果
- LLMs 对社区参与的总体影响:ChatGPT 发布后,Stack Overflow 每日网站流量下降约 100 万人 / 天(约为发布前 12%)。
- LLMs 对用户内容生产的影响:Stack Overflow 问题发布量显著下降,而 Reddit 用户参与未受影响。
- ChatGPT 影响的异质性:Stack Overflow 中与具体软件编码活动相关主题受影响大,这些主题的训练数据较易获取;受影响小的主题多涉及复杂任务,超出 ChatGPT 训练数据范围。
- ChatGPT 对平均用户账户年龄和问题复杂性的影响:ChatGPT 发布后,Stack Overflow 提问用户账户平均任期上升,问题复杂性增加,表明新用户可能更多依赖 ChatGPT 而退出社区。
研究讨论
- 结果表明许多人依赖 LLMs 获取知识而减少使用在线知识社区,凸显社交结构对在线社区可持续性的重要性,社区管理者可通过促进社交化应对 LLMs 影响,同时 LLMs 影响社区内容特征和成员结构,为管理策略提供依据。
- 内容生产下降引发对 LLMs 训练数据来源的担忧,长期内容许可协议可能受影响,若问题未解决,可能需寻找替代数据来源。
研究局限与展望
- 研究局限
- 研究设计假设无混杂因素,若同期出现其他大型在线社区可能影响结果。
- 对内容特征变化分析不够细致,衡量方式存在局限性。
- 仅研究了 Stack Overflow,无法确定其他组织环境(如工作场所)是否有相同动态,且结果可能仅适用于软件开发和信息技术相关知识社区,研究时间较短,长期动态可能变化。
- 未来展望:未来研究可探索结果对其他社区的普适性,研究 Gen AI 技术对社区参与和知识共享的长期影响,以及分析 Gen AI 技术对组织和社会知识共享与协作模式的更广泛影响。