当前位置: 宋百新闻 >>  科技  >> 你和人工智能的对话,正在被人工收听
你和人工智能的对话,正在被人工收听
2019-11-12 13:10:04
[摘要] 此前,甚至有传闻称,向海龙是马东敏的嫡系将领,而向海龙离职被视作是李彦宏进行的势力清理。一位在李彦宏身边工作的百度内部人士告诉《深网》,“有关公司的重大决定,不可能是马东敏一个人拍板的,最终还是要征得

资料来源:燃气财经作者:周晶晶

如今,智能设备越来越多地出现在每个人的生活中。在享受他们带来的便利的同时,许多人可能没有意识到他们所说的可能被人工“窃听”,并被分析和标记,因为制造商希望这些设备变得更加智能。

“放一首牛德华的歌”。一个带着口音的成年女性声音从电脑里响起,但机器认出这是“孩子”的声音。这是机器犯的一个常见错误。来电唐顿将其改为“成人”,然后将“牛德华”标注为“刘德华”,以使机器下次“更聪明”。

五年来,听写和标记这些声音一直是唐顿的日常工作。

在过去的五年里,她每天听大约1000个陌生人的声音。这些声音出现在不同的场景中:一个带有南方口音的尖锐男声发出指令“你好魏,请玩沙漠骆驼”,背景伴随着车辆闪光灯的滴答声。一个略带不耐烦的女性声音喊道“关掉导航”;偶尔,有些车主会破口大骂来发泄情绪...

唐顿不明白为什么这些声音应该被贴上标签。在她把问题交给领导后,她得到的反馈是:“机器需要我优化的数据。”唐顿因此嘲笑自己是人工智能背后的女人。

人工智能的发展需要大量的数据来“喂养”,这催生了一个全新的产业。像唐顿这样的注释者越来越多,一个巨大的系统正在形成。

早上8点,住在河南省的张一成打开电脑,戴上耳机,输入账号和密码,然后进入后台系统,开始一天的工作。

一个月前,他加入了两个由近2000人组成的标签小组和两个由50人组成的标签小组,一次一个。每次他收到一个大约有150个声音的包,他必须在大约一个小时内完成,然后才能继续领导这项任务。

张一成向CNFE展示了从不明来源窃取的语音包。从内容上看,这一场景相对比较私密,包括“涛哥,下班后为房东打架”、“善良的心累了”和“你在哪里”。

与“带头”任务相比,张一成认为“抓人”更合适,“和尚太多,粥太少,你能抓多少取决于老板的能力。”

在张一成向CNFE展示的50人团队中,每个人都称管理者为“老板”。老板之间也有竞争。团队转录的数据的质量和速度越高,老板们就能得到越多的列表,从而“养活”团队并继续扩大其规模。同时,团队规模越大,上游发言权就越大,获得的订单就越多,质量也就越高。这是一种相辅相成的关系。

无论团队是几千人还是几十人,新来者都必须先通过测试,然后是培训,再是任务,最后必须进行一轮人工质量检查,因为客户通常要求最终准确率在95%以上。

通过考试不容易。有必要记住复杂的详细说明,例如哪些客户需要用大写和小写书写英文字母,哪些情况下会直接将发音视为“无效”,哪些发音不清楚的单词需要音标,哪些不需要,“并且它们总是成批地被打回来”。此外,他们必须理解特定场景的术语。

语音播报员注释规范(下)

张一成让燃气财经试着转录他收到的10个语音包。从内容上看,这是游戏中其他玩家之间的对话。包括“吕布”、“李白”和“屋主”在内的荣耀的国王游戏的名字出现在里面,通常带有环境噪音。麦克风偶尔喷小麦,不容易听到。

留名者需要熟悉的专业词汇。

张一成展示的大部分录音来自具有语音交互功能的产品,如汽车语音和智能扬声器,包括百度小杜和天猫用户的录音、携程的客服录音和滴滴的出租车录音。但是,大多数任务不是按客户名称命名的,而是按音频长度来区分的。

在经历了财经之后,发现互动类型的音频大多在2-5秒之间,通常夹杂着噪音,其中大部分是用户和语音产品之间的对话,其中有几个可以明显判断为意外触发的录音,没有暴露用户身份信息和位置信息的情况。

语音呼叫者需要的后台系统和显示界面

其中,小说话者的笔记表明:如果整个句子对与其他人聊天无效,只有那些与小说话者交谈的人才有效。

然而,在CNFE经历的车载语音中,大部分是带口音的普通话使用者,点播的歌曲类型大多是东北社会的流行歌曲和快歌。

张一成说这是一份完全没有技能的累人工作。一个小时的有效录音可以带来100元的报酬,但需要30个小时才能听完,平均每小时工资只有3元多。即使工作了五年的唐顿,平均月薪也只有3000英镑。

人工智能急需发展。张一成和唐顿的数量只会增加。他们大部分分散在河南、山东和河北四五线沿线的小城市,昼夜服务于世界领先的人工智能产品。

美国ai研究机构cognilytica预测,到2018年,全球数据标注相关行业的产值将增长66%,达到5亿美元,2023年产值将翻一番。然而,由于大部分工作是“水下”的,因此仍然很难准确估计具体的输出值。

不同于分散在第四条和第五条线上的小城镇的农民工,转录的数据包通常由人工智能公司或具有一定规模的数据服务提供商发布。

在《老板直接雇佣》中,CNFE用“数据注释器”这个关键词搜索了100多条相关的工作信息。发布这类工作的公司通常在第二轮或第三轮,并且有一定的财务实力。有些直接在工作说明中注明:“对智能语音和图片等相关数据的语义理解和注释”、“清理标注数据以确保标注数据的准确性”。

关于CNFB“什么是数据清理”的问题,一位负责招聘的人力资源回答说:用软件操作数据并不困难。

当CNFE继续询问是否“将录制的内容转换成文字”时,对方回答“是”,并透露客户是小米,但当被问及将是什么语音包时,对方没有回答。

然而,在张一成加入的四个小组背后,大部分被释放的任务来自一家名为海地盛瑞的公司。

根据公共信息,该公司成立于2005年,专注于人工智能上游的数据资源服务。服务场景包括人机交互、智能家居、智能城市等。

根据招股说明书,海地盛瑞有三大业务,即数据资源定制服务、数据库产品和与数据资源相关的应用服务。排名前五的客户是阿里巴巴、三星、腾讯、微软和百度,2018年贡献了59.6%的营业收入,总计1.1亿元,其中阿里巴巴以5179万元位列第一。

2016年至2018年,海地盛瑞实现营业收入分别为8422.86万元、1.19亿元和1.93亿元,净利润分别为1082.93万元、3414.9万元和6714.16万元。

2016年至2018年,数据资源定制服务和数据库产品的总收入占营业收入的近99%,两者的总毛利均占95%以上。在海地盛瑞的招股说明书中,数据资源定制服务和数据库产品的定义如下图所示:

资料来源/海地盛瑞招股说明书

无论是来自数据资源定制服务还是数据库产品的销售,智能语音数据资源的销售都是主要的收入来源。

资料来源/海地盛瑞招股说明书

2019年,海地盛瑞还上演了一场科学委员会“逃离计划”。7月26日,变更董事会审计状况,终止审计,中远软件上市结束。公众舆论认为,原因是其核心技术不足。

从公布的软件版权和专利申请来看,海天声音的大部分技术都用于语音数据的采集和处理。可见,公司的核心技术主要体现在语音数据的记录和标注上。

资料来源/海地盛瑞招股说明书

由于录制和标注语音数据需要大量廉价劳动力,这也是公司经常大规模雇佣兼职员工的原因。

在电影《她》中,斯嘉丽·约翰逊配音的语音智能系统萨曼莎拥有极高的情商。为了取悦用户继续订阅,萨曼莎不仅需要让男性主持人西奥多(Theodor)完全相信她和人类没有什么不同,而且还要努力让对方爱上自己。因此,她永远不应该误解或理解西奥多说的任何话。

这是一部2013年的电影。时间到了2019年,这与电影中的愿景相去甚远。

北邮人工智能研究所研究员周舟告诉CNFE,一个好模型中的数据量基本上在几百万左右,用户自发生成的数据是最适合实际业务的数据。

“机器学习,你教他什么,他就能学到什么。以目前的技术来看,它仍然离强大的人工智能模型大数据学习相去甚远。”周舟说。

他解释了人工智能的训练过程:“首先,人工智能训练需要一个模型。该模型需要通过一定量的基本标注数据进行训练,以获得预期的训练结果,例如,天气预报的句子识别率达到60%以上。此时投入使用时会产生大量的用户数据。甲方将对这些数据不敏感——姓名、地址和其他可能透露用户身份的信息将被删除,然后再次手动标记。

这就把我们带到了用大量廉价标签贴标签的阶段。通过一些标准,高质量的音频被屏蔽掉,因为引入一些不受欢迎的数据会降低模型的性能。通过这些数据,可以进一步调整模型,使其更适合自己的业务场景,从而形成迭代,然后不断循环。"

关于语音交互产品,周舟补充说,如果一个说话者在南部地区销售良好,他们可以调整数据,以便对南部口音有更好的识别率。

从事语音互动产品的企业家告诉fuel finance,目前对智能语音产品的需求是,它能理解我说的话,反馈我想要的东西,而中国文化博大精深,不同地区有不同的表达方式,生活和书面语言也不一样。所有这些都需要在系统中解释。

人工智能的发展需要高质量的数据来支撑,而另一方面,毫无戒心的用户也开始反击。

“2019年4月,亚马逊爆炸了,在世界各地雇佣了数千名员工来转录和注释回声扬声器捕捉到的录音。

7月份,苹果爆炸式用户和siri之间的对话可能会被记录并上传到苹果,苹果将把这些对话分发给siri的外包公司进行分析。迫于舆论压力,苹果公司表示将暂停其语音分析业务。

同月,谷歌承包商从谷歌家庭智能扬声器和语音助手处泄露了1000多份用户与谷歌助手对话的录音。

对此,亚马逊、苹果和谷歌基本上同意,“窃听”是为了提高他们语音助理的智能。"

尽管大多数公司在发布数据包之前会降低数据的敏感度,但这在用户不知情的情况下违反法律吗?

对此,拥有多年司法工作经验的仲景田萍副主任王锴告诉CNFB,无论是为了盈利还是为了提高服务和产品质量,收集和捕获用户数据的首要原则是拥有用户授权。即使是不涉及用户身份信息的强制性录制,如“播放音乐”,在未经授权的情况下获取这些数据也是非法的

市场上的大多数产品都使用是否同意隐私协议的内容作为用户授权的方式,但是对于用户来说,虽然选择权在手中,大部分情况仍然处于被动状态,因为大多数产品只有在同意授权后才能使用。

对此,王锴说,从法律上讲,还有另一个问题。即使用户被授权,也应该考虑用户是否完全理解授权的内容,授权后是否有明确的提示和显示,以及操作是否由他自己执行等。

“但回到问题的实质,它是否合法取决于最终如何使用数据。将它转售给第三方或在用户不知道的地方使用仍然是非法的。

如果协议没有具体说明如何使用数据,则处于通知不完整的状态,这也有一些法律风险。然而,目前没有明确的法律条款对其进行规范。只能说,如果用户能够找到明确的侵权证据,这是非法的。"

燃气财经咨询了小发言人的用户协议和隐私协议。协议显示:“当您激活杜罗斯程序或唤醒杜罗斯设备时,我们将自动接收并记录您与设备终端交互过程中产生的音频、视频和其他相关信息。”

值得注意的是,该协议还规定:“如果您拒绝我们收集上述信息...您将无法获得相关服务。”

小型扬声器的用户协议

燃气财经咨询了百度和阿里的用户协议。截至发布之时,尚未收到任何回复。

一方面,人工智能需要更多的用户数据来变得更加智能。另一方面,用户数据属于隐私,应该受到保护。法律的改进不是一蹴而就的,这似乎形成了一个尚未解决的难题。

你能想出一个大胆的想法吗:人工智能培训在不久的将来将不再依赖大数据?

对此,周舟说,“已经有了一种强化学习的方式,即机器可以通过简单学习的一部分产生用于自主学习的数据。阿尔法戈就是这样。”

“但目前,强化学习只能在规则建立、奖惩分明的情况下使用,如下棋和游戏。如果犯了错误,机器人可以通过奖惩来学习。然而,现实更加复杂,很难制定明确的奖惩规则。”

他补充说,未来的确是可能的,但不清楚未来会走多远。至少在可预见的未来,我们仍然必须为人工智能工作。

“在你的iphone上发生了什么,留在你的iphone上(在iphone上发生了什么,让它留在iphone上)”这是苹果今年早些时候在ces展会会场外发布的一个巨大的广告口号,目前,这可能只是一个美丽的幻想。

资料来源:燃气财经作者:周晶晶

秒速牛牛 江苏11选5投注 湖北快三投注 快乐10分 贵州十一选五开奖结果

© Copyright 2018-2019 tiger3amc.com 宋百新闻 Inc. All Rights Reserved.