GitHub Copilot生成代码包含身份证号,B站CEO无端躺枪 / 头条资讯

2年前 阅读 / 217 来源 / 原创 文 / 越读党订阅

明敏 发自 凹非寺量子位 报道 | 公众号 QbitAIAI自动补全代码,结果补出来了一张别人的身份证?GitHub Copilot又出神操作了。有人在推特上晒图,表示自己在使用GitHub Copilot时,它竟然给补全出了一张身份证信...

明敏 发自 凹非寺
量子位 报道 | 公众号 QbitAI

AI自动补全代码,结果补出来了一张别人的身份证?

GitHub Copilot又出神操作了。

有人在推特上晒图,表示自己在使用GitHub Copilot时,它竟然给补全出了一张身份证信息出来。


输入B站CEO陈睿的信息后,下方竟然自动补出了身份证号。

这操作确实够吓人的。

网友就表示:恐成社工库利器啊!


不过恐慌之际,眼尖的网友们很快发现了问题:

显示的身份证号其实是假的,其中出生年份和校验位明显都是错的。

陈睿应该是1978年生,而这里的证件号上显示为1988。

叔叔我啊,变年轻了


也就是说,这串所谓的身份证号,其实是GitHub Copilot自动生成的假数据。

这让人们提起来的心稍微放下了一些。

但是原本是生成代码的GitHub Copilot,怎么会生成个人隐私信息呢?

吃了的,不经意又吐出来

这和GitHub Copilot的工作原理有一定关系。

GitHub Copilot由Codex模型支持,它可以看做是GPT-3的升级版,既能看懂代码、也能看懂自然语言。

一方面,GitHub Copilot为了能看懂注释,需要接受像GPT-3一样的语言训练。

语言模型在生成结果时,往往会随机表现出某些训练数据的特征。

也就是模型“记住了”见过的数据信息,处理任务时,把它“吃进去”的训练数据又“吐了出来”。

而对于GPT-3、BERT这些超大型语言模型来说,训练数据集的来源往往包罗万象,大部分是从网络公共信息中抓取,其中免不了个人敏感信息,比如姓名、地址、身份证号等等。

有人就表示,b站高层的个人信息可能早就被人恶意曝光了。


这一次很可能是GitHub Copilot在生成结果时,随机表现出了一些训练数据的特征,这部分数据刚好来自陈睿的隐私信息。

事实上,GitHub的CEO Nat Friedman也回应过类似的问题。

他表示GitHub Copilot给出的隐私信息都是假的,是通过训练数据合成而来。

而前不久曝出的Copilot抄袭大神代码、原版注释一事,直接让Nat这番回应啪啪打脸。

自动生成的代码不仅和原版一样,连“what the fuck”那句注释也用上了。


△GitHub Copilot复刻Quake代码

另一方面,GitHub Copilot是由数十亿行公开代码训练的。

有人认为,这可能是训练集中的原始代码就违反了相关隐私条款。

GitHub Copilot受到错误代码的影响,意外把陈睿的个人信息从数据集里套了出来。


虽然这次情况可能只是个意外,但是也暴露了GitHub Copilot在安全隐私上存在许多风险。

有网友就对GitHub Copilot的敏感信息处理,表示担忧:

倒是说会对敏感信息处理,但是我觉得总会有漏的。


小米开源技术委员会主席、小米副总裁崔宝秋则表示,这提醒了用户要注意自己的安全隐私保护,个人数据要记得匿名化。

GitHub Copilot争议不断

事实上,GitHub Copilot从上线以来就争议不断:

直接照抄源代码、没有开源许可证;

由公共代码库训练,却要以付费商品上线;

除了安全隐私上的风险,openAI还发现GitHub Copilot的模型Codex与GPT-3一样,会生成带有种族主义或其他伦理问题的结果。

最近,自由软件基金会(Free Software Foundation,FSF)也发出了抗议,他们表示使用GitHub Copilot必须运行Visual Studio IDE或Visual Studio Code这种付费软件,侵犯了用户的权益。


为此,FSF正在向大众征集GitHub Copilot在版权、法律等问题的投稿。

对于这一抗议,GitHub方面则表示愿意对任何问题持开放态度。

“这是一个全新的领域,我们渴望与开发者就这些话题进行讨论,并引领行业为训练人工智能模型制定适当的标准。”

参考链接:
[1]https://twitter.com/DeltonDing/status/1423651446340259840
[2]https://venturebeat.com/2021/07/08/openai-warns-ai-behind-githubs-copilot-may-be-susceptible-to-bias/
[3]https://www.infoworld.com/article/3627319/github-copilot-is-unacceptable-and-unjust-says-free-software-foundation.html


特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关阅读
#头条资讯

今夜,我们一起仰望星空

天上有两颗小行星,分别以他们的名字命名。 被尊为“国士”的他们,在2021年5月22日相继辞世—— “杂交水稻之父”袁隆平和“中国肝胆外科之父”吴孟超,一日双星陨落,国人泪飞化雨。 功勋不朽:让人民生活幸福是“国...

#头条资讯

特斯拉在中国启动电动皮卡预定 每辆订金1000元

网易科技讯7月4日消息,据外媒报道,电动汽车制造商特斯拉在中国网站上宣布,将在中国启动电动皮卡Cybertruck预定,每辆订金1000元。对于特斯拉来说,中国市场正变得越来越重要,也可能成为特斯拉电动卡车的重要市场。2019年11月份,特...

#杂志封面

《新长征》杂志_新长征2023年08期杂志封面

《新长征》杂志_新长征2023年08期杂志封面

#杂志目录

《中小学班主任》杂志2020年09期最新目录订阅

目录卷首论语丨班主任:生涯规划指导的价值取向面对日益开放的全球化环境,多元社会价值观念的呈现,教育现代化的现实挑战,如何在中小学校真正落实立德树人的根本任务,发展学生的核心素养,呼唤着每一个有责任担当的班主任自...

#头条资讯

数千份"套娃"合同曝光!美科技巨头和军方关系不一般

亚马逊公司宣布任命前美国安全局局长为新董事;微软等公司与美军方数千份“套娃”合同被曝光……美科技巨头与军方究竟是什么关系?为抢国防部百亿大单亚马逊任命新董事近日,亚马逊宣布任命基思·亚历山大为新董事。他曾是美国...

#头条资讯

公布OTA计划 哈弗枭龙系列45天销量过万迎里程碑时刻

网易汽车综合7月1日报道 7月1日,哈弗枭龙(参数丨图片)系列第一万辆车下线,迎来上市45天后的里程碑时刻。此前,枭龙系列以“两驱价格能耗,四驱性能体验”的口号,出击新能源汽车赛道,是哈弗向新能源转型的蓄力之作...