谁该成为大模型成长的“养料”？

有关“AI将要取代人工”的言论甚嚣尘上，且不再局限于科技幻想，而是真实地走进了现实世界。

先是萝卜快跑落地，导致大批网约车司机不满，随后，番茄小说上线“AI作者”一日同更三本书让网文作者如临大敌。

接着，与番茄小说同属于字节跳动的“豆包”被爆出正全网搜索小说素材，以便“喂养”番茄的AI作者。更有意思的是，这出风波波及到了在线文档领域。据悉，有网友在社交平台表示，称豆包的搜罗范围不仅在网文界，手还伸向了在线文档内作者尚未发布的内容。

其中，WPS首当其冲。

WPS官方为此不得不紧急辟谣。但除了WPS，几乎所有在线文档APP都遭受了一番审查，包括石墨、腾讯文档、印象笔记、墨客、橙瓜……最终很多人发现，当AI风口来袭，网络世界哪里都不安全。

这也不算空穴来风。去年，WPS就被爆出在用户协议里增添了AI训练条例，尽管这两年官方一直在据理力争地辟谣，但很多用户还是不肯给予信任，“罗生门”大戏就此上演。

用户在担心自己辛苦创作的内容，成了他人的嫁衣，而AI背后的资本则一心想当“普罗米修斯”，为大模型到处搜集“火种”。

在线文档，集体奔向AI

这些年，在线文档面临了太多压力：诸如研发停滞、用户流失、同行内卷、广告营收疲软…

在线文档遇到创新乏力已是不争的事实，WPS作为行业代表，也难逃这一困境。在入局AI之前，WPS最高调的一次革新还在2018年，当年，腾讯文档横空出世，让WPS一时倍感焦灼，在前者上线三个月后，后者宣布升级。

尤其增加了多人协作功能，WPS还一度把这部分单独拿了出来。但时至今日，云协同早已遍地皆是，飞书、钉钉、企微这类企业APP、石墨这类在线文档玩家，甚至各种云办公文档小程序都能做到。

值得一提的是，前几年外部环境造就了一波线上办公热，也间接火了一大批在线文档APP，其中，印象笔记、石墨文档这类小众玩家人气激增。数据显示，2020年线上办公爆发初期，印象笔记的C端用户使用量翻了四五倍，石墨文档的新增用户量和企业注册数增长了约6倍。

同年，腾讯文档宣布月活突破1.6亿后，内卷开始成为行业生态，整个行业也开始陷入了漫长的瓶颈期。

直到大模型的爆发，情况开始有所转变。

2023年财报显示，WPS Office国内个人办公服务订阅营收到达了26.5亿，同比增长近30%，月活设备数高达5.98亿。

在线文档发力AI已经成为不可避免的一个趋势。艾媒咨询数据显示，随着大语言模型和AIGC的规模化落地应用，AIGC+协同办公场景将有效带动行业增长，2023年协同办公市场规模预计达330.1亿元

AI成了在线文档们稳固市场地位，留住用户的重要手段。而WPS入局AI的心情则更为急切。毕竟在ChatGPT的火爆出圈后，在线办公市场算是最方便落地的场景之一，隔壁微软在OpenAI的GPT-4刚发布之时，就结合大语言模型LLM上线了Microsoft 365。

一直以来，WPS Office都与微软Office针锋相对。公开资料显示，微软Office和WPS Office在国内市场Windows平台的平均市场覆盖率分别为81.5%和68.7%。微软Office在PC端领先一步，后者在移动端则更有优势。

不可否认，微软对AI的布局强烈刺激了WPS，可需要注意的是，开始关注AI的绝不止WPS一家。从国内企业来看，百度有智能办公平台如流，钉钉更是背靠通义千问，印象笔记发布“印象AI”，飞书发布“My AI”……

巨头们想利用AI更上一层楼，那些资金不足以入局AI的小众玩家，也开始在曲线救国，选择与大厂合作，这也是本次“豆包盗文”引发在线文档圈集体沦陷的由来。

总而言之，在线文档正热情奔向AI，不管谁先胜出，要承担“喂养”任务的用户都成了最无辜的人，当他们轮流奔走在不同的平台上，试图绕开这一步时，竟悲哀的发现，自己似乎早已无路可逃。

大模型训练背后的“原罪”

据悉，百度的文心一言已服务8.5万家企业客户，阿里的通义千问已服务了9万家企业客户，截至2024年5月15日，字节的豆包总下载量超过1亿，双端月活破2600万……

当大模型炙手可热，AI训练自然被外界所关注。公开资料显示，大模型训练步骤一般分为五步：数据收集和处理、模型设计与测试、模型训练、评估和优化以及模型部署与维护。

这其中，第一步至关重要。也正是这一步，造就了如豆包、WPS AI此类的诸多争议。

大模型训练与进化的基础是数据，但在AI发展进程中，数据来源是否合规成了这个赛道未来有无持续性的前提，否则，版权、隐私等疑云便会纷至沓来。在AI触怒网文作者之前，画手圈就已经有了先例。

去年年底，小红书AI绘画模型Trik被国内几位画师联手起诉，理由是Trik未经授权使用了画师的原创作品作为训练数据，生成了与原作高度相似的图片，侵犯了创作者的合法权益。360创始人周鸿祎也因涉及“AI盗图”被全网群嘲。

海外也是一样，有报道显示，有1.6万名英国艺术家联名，对OpenAI和其他人工智能公司发起集体诉讼；甚至就连NYT也向法院起诉OpenAI和微软侵犯版权。

在科技进步的历史征程里，我们享受技术成果之前，似乎总要付出一些“隐形”成本。但这个成本应该由谁来承担则值得探讨。

事实上，大模型训练之所以将触手伸向普通群体，归根到底还是因为企业发展大模型的成本居高不下，投入实用后又迟迟无法达到可观的收益。当前OpenAI、Midjourney、文心一言、讯飞星火大模型虽然均已开启付费模式，然而，大模型企业想要进入盈利阶段仍然还有一段距离要走。

以头部的OpenAI为例，调查显示，虽然其在今年前两个季度的收入不错，年度经常收入增长到了34亿美元，但由于构建和运行模型的成本高昂，亏损状态始终没能改善；ChatGPT会员付费收入达到50%以上，但偏向企业和开发者端的API收入占比仅为15%左右。

国内这边，Kimi目前的获客成本还在12元以上、WPS AI总结一个万字文档、输出千字摘要，仍旧需要2.64元……可行业内的价格战却突然开始了。此前，GPT-4o mini正式上线，每100万Token的输入/输出分别是15美分/60美分。

在这样的背景下，大模型界呈现精彩的“众生相”：被侵权的用户义愤填膺、成本与营收不对称的企业骑虎难下，而资本则开始生出退场的心思。来觅PEVC数据显示，2024年一季度，人工智能领域合计发生融资案例198起，同比减少20.80%。

在过往的历史经验里，当技术进步与伦理道德产生冲突，科技发展总会被视为某一方面的“原罪”，但应该背负原罪真的是科技吗？

创新与制约同存

关于AI能否取代人类，这个问题最早诞生于科幻片年代，随着大模型掀起全球科技狂潮，在戏剧化之外，似乎也增添了几分可能性。萝卜快跑惹起一众司机抗议、网文作者联名上书抵制番茄，都成了现代科技文明史上的一次开端。

7月6日，2024世界人工智能大会在上海落下帷幕，金融、教育、医疗成为重点应用落地方向。实际上，在ChatGPT 发布的时候，海外就有人专门统计过“哪些工作更有可能被 AI 替代”。

一位博主在Upwork（全球最大的自由职业平台）统计了从ChatGPT 发布前一个月到 2024 年 2 月 14 日的一些自由职业工作数据。调查发现，受ChatGPT 的影响，Upwork 上波及最大的几个圈子是写作、翻译、客服服务。其中，翻译沦为被AI取代的重灾区，工作数量下降了19%，时薪也下降了20%。

但在这些支持人工智能抢人类“饭碗”的数据表象背后，却也存在着相反的趋势：从宏观角度来看，不少工作因为ChatGPT 的出现反而更多了。

统计显示，尤其是可以用大模型为基础的创作型工作，吃到了AI的第一波“红利”。在Upwork 上，ChatGPT 发布之后，视频编辑/制作工作数量增加了 39%，平面设计工作增加了 8%，网页设计工作增加了 10%。软件开发工作也有所增加，后端开发工作增加了 6%，前端/网页开发工作增加了 4%。

科技的双面性就此凸显，AI并不是人人喊打，起码在保障用户基本利益的前提下，落地到具体生活里的好处远远大于弊端。国内也是如此。例如在2023年，阅文的起点国际出海的网文作品里，有20%是AI来翻译的。

当然，AI应用导致的争议性问题从来没有消失。

在网文作者与画手质疑版权外，学术界的大模型论文热也在击穿该领域的落地意义。以“中华医学杂志”为例，从去年七月，该刊发现AI生成的论文数据每月都在上升，一度超过了50%。

目前，《中华医学杂志》已发布AIGC技术使用的有关规定，轻者退稿或撤稿；情节严重者，将列入作者学术失信名单。

从这些案例中，我们不难看出，已经有行业意识到AI应用要基于一些必要的规则下施行。之所以我们面对各类在线文档AI化而草木皆兵，本质是因为当前的AI规范还没到位。

为此，官方出台的相关政策也越来越多，国内有《生成式人工智能服务管理暂行办法》、国际方面，欧洲议会在今年3月份通过了《人工智能法案》等等……而如何保证在不扼杀创新的同时，又合理的培养大模型、使用大模型，正成为整个行业的新节点。

种种迹象显示，大模型的出现，是人类科技文明丰碑上不可磨灭的一个符号，同时，也是一份沉重的责任，需要更多人去主动承担。

至于谁该成为大模型成长的“养料”，肯定不能只让普通用户成为唯一的代价。

道总有理，曾用名歪道道，互联网与科技圈新媒体。同名微信公众号：道总有理（daotmt）。本文为原创文章，谢绝未保留作者相关信息的任何形式的转载。

文章来源于网络。发布者：北方经济网，转转请注明出处：https://www.hujinzicha.net/2024/08/01/8974.html