shopify analytics ecommerce
tracking

加拿大新闻网

加拿大新闻网 首页 新闻 科技 查看内容

人工智能阴暗面:AI正在疯狂污染中文互联网

加新网CACnews.ca| 2023-6-20 08:45 |来自: 量子位

污染中文互联网,AI 成了 " 罪魁祸首 " 之一。


事情是这样的,最近大家不是都热衷于向 AI 咨询嘛,有位网友就问了 Bing 这么一个问题:


象鼻山是否有缆车?


Bing 也是有问必答,给出了看似挺靠谱的答案:




在给出肯定的答复之后,Bing 还贴心地附带上了票价、营业时间等细节信息。


不过这位网友并没有直接采纳答案,而是顺藤摸瓜点开了下方的 " 参考链接 "。




此时网友察觉到了一丝丝的不对劲——这人的回答怎么 " 机里机气 " 的。于是他点开了这位叫 " 百变人生 "的用户主页,猛然发觉,介是个 AI 啊!




因为这位用户回答问题速度可以说是极快,差不多每一两分钟就能搞定一个问题,甚至能在 1 分钟之内回答 2 个问题。


在这位网友更为细心的观察之下,发现这些回答的内容都是没经过核实的那种……




并且他认为,这就是导致 Bing 输出错误答案的原因:


这个 AI 疯狂地污染中文互联网。


"AI 污染源 ",不止这一个


那么被网友发现的这位 AI 用户,现在怎么样了?从目前结果来看,他已经被被知乎 " 判处 " 为禁言状态。




但尽管如此,也有其他网友直言不讳地表示:


不止一个。




若是点开知乎的 " 等你回答 " 这个栏目,随机找一个问题,往下拉一拉,确实是能碰到不少 " 机言机语 "的回答。


例如我们在 "AI 在生活中的应用场景有哪些?" 的回答中便找到了一个:




不仅是回答的语言 " 机言机语 ",甚至回答直接打上了 " 包含 AI 辅助创作 " 的标签。


然后,如果我们把问题丢给 ChatGPT,那么得到回答……嗯,挺换汤不换药的。




事实上,诸如此类的 "AI 污染源 " 不只是在这一个平台上有。就连简单的科普配图这事上,AI 也是屡屡犯错:




网友们看完这事也是蚌不住了:" 好家伙,没有一个配图是河蚌 "。




甚至各类 AI 生成的假新闻也是屡见不鲜。


例如前一段时间,便有一则耸人听闻的消息在网上疯传,标题是《郑州鸡排店惊现血案,男子用砖头砸死女子!》。


但事实上,这则新闻是江西男子陈某为吸粉引流,利用 ChatGPT 生成的。


无独有偶,广东深圳的洪某弟也是通过 AI 技术,发布过《今晨,甘肃一火车撞上修路工人, 致 9 人死亡》假新闻。


具体而言,他在全网搜索近几年的社会热点新闻,并使用 AI软件对新闻时间、地点等进行修改编辑后,在某些平台赚取关注和流量进行非法牟利。


警方均已对他们采取了刑事强制措施。




但其实这种 "AI 污染源 " 的现象不仅仅是在国内存在,在国外亦是如此。


程序员问答社区 Stack Overflow 便是一个例子。


早在去年年底 ChatGPT 刚火起来的时候,Stack Overflow 便突然宣布 " 临时禁用"。当时官方给出来的理由是这样的:


(这样做)的目的是减缓使用 ChatGPT 创建的大量答案流入社区。


因为从 ChatGPT 得到错误答案的概率太高了!




Stack Overflow 进一步阐述了这种现象。


他们认为以前用户回答的问题,都是会有专业知识背景的其他用户浏览,并给出正确与否,相当于是核实过。


但自打 ChatGPT 出现之后,涌现了大量让人觉得 " 很对 "的答案;而有专业知识背景的用户数量是有限的,没法把这些生成的答案都看个遍。


加之 ChatGPT 回答这些个专业性问题,它的错误率是实实在在摆在那里的;因此 Stack Overflow才选择了禁用。


一言蔽之,AI 污染了社区环境。


而且像在美版贴吧 Reddit 上,也是充斥着较多的 ChatGPT 板块、话题:




许多用户在这种栏目之下会提出各式各样的问题,ChatGPT bot 也是有问必答。


不过,还是老问题,答案的准确性如何,就不得而知了。


但这种现象背后,其实还隐藏着更大的隐患。


滥用 AI,也毁了 AI


AI 模型获得大量互联网数据,却无法很好地辨别信息的真实性和可信度。


结果就是,我们不得不面对一大堆快速生成的低质量内容,让人眼花缭乱,头晕目眩。


很难想象ChatGPT 这些大模型如果用这种数据训练,结果会是啥样……




而如此滥用 AI,反过来也是一种自噬。


最近,英国和加拿大的研究人员在 arXiv 上发表了一篇题目为《The Curse of Recursion: Trainingon Generated Data Makes Models Forget》的论文。




探讨了现在 AI生成内容污染互联网的现状,然后公布了一项令人担忧的发现,使用模型生成的内容训练其他模型,会导致结果模型出现不可逆的缺陷。


这种 AI 生成数据的 " 污染 "会导致模型对现实的认知产生扭曲,未来通过抓取互联网数据来训练模型会变得更加困难。


论文作者,剑桥大学和爱丁堡大学安全工程教授 Ross Anderson 毫不避讳地直言:


正如我们用塑料垃圾布满了海洋,用二氧化碳填满了大气层,我们即将用废话填满互联网。


对于虚假信息满天飞的情况,Google Brain 的高级研究科学家达芙妮 · 伊波利托(DaphneIppolito)表示:想在未来找到高质量且未被 AI 训练的数据,将难上加难。


假如满屏都是这种无营养的劣质信息,如此循环往复,那以后 AI 就没有数据训练,输出的结果还有啥意义呢。


基于这种状况,大胆设想一下。一个成长于垃圾、虚假数据环境中的 AI,在进化成人前,可能就先被拟合成一个 " 智障机器人"、一个心理扭曲的心理智障。




就像 1996年的科幻喜剧电影《丈夫一箩筐》,影片讲述了一个普通人克隆自己,然后又克隆克隆人,每一次克隆都导致克隆人的智力水平呈指数下降,愚蠢程度增加。


那个时候,我们可能将不得不面临一个荒谬困境:人类创造了具有惊人能力的 AI,而它却塞满了无聊愚蠢的信息。


如果 AI 被喂进的只是虚假的垃圾数据,我们又能期待它们创造出什么样的内容呢?


假如时间到那个时候,我们大概都会怀念过去,向那些真正的人类智慧致敬吧。


话虽如此,但也不全是坏消息。比如部分内容平台已开始关注 AI生成低劣内容的问题,并推出相关规定加以限制。


一些个 AI 公司也开始搞能鉴别 AI 生成内容的技术,以减少 AI 虚假、垃圾信息的爆炸。


免责声明:本网转载的文章仅为传播更多信息之目的,本网未独立核实其内容真实性,文章也不代表本网立场。如文章侵犯了你的权利,请联系我们修改或删除。本网提供的内容,包括并不限于财经、房产类信息,仅供参考,不构成投资建议;本网内容,包括并不限于健康、保健信息,亦非专业意见、医疗建议,请另行咨询专业意见。本网联系邮箱:contact@cacnews.ca

最新评论

今日推荐

高亚麟和女演员的性丑闻,越扒越残忍

娱乐 12 小时前

  • 48小时新闻排行
  • 7天新闻排行

今日焦点

旗下公众号

关注获得及时、准确、全方位的新闻消息

Copyright © 2012-2020 CACnews.ca All Rights Reserved 版权所有

返回顶部