猜测一下google翻译出错的原因,抛砖引玉 -- 纯学术讨论

e
ecko
楼主 (北美华人网)
从回复里复制粘贴过来,抛砖引玉请各位ml同行指正
不太可能人为,不是人为因素的话猜测几个原因的combination:
1.训练数据有bias,也可以解释为什么只有Joe Biden这个entity会出错。训练数据的bias是很常见的,训练语库都是几十个million以上的examples,通常从wiki、news这些公开的网站拿 2.现在的machine translation是sequence to sequence,所以多一个字少一个字attention mechanism抓到的都会不一样,不是传统翻译那样一个字对应另一个字。所有的单词都会被拆成wordpiece或者character,不是很清楚google translate 现在用的是哪种。如果character level的话更容易出这种错,如果是wordpiece的话这个句子里的just/lost 应该都不会再拆了,是中文那边的拆分问题 3.中英翻译和英法这种同样是latin rooted languages翻译难度是很不一样的,早几年的时候机器翻译还全是错,前两年google translate就是用seq2seq才取得重大突破,但还是不够robust
u
understandu
mm一看就是专业的。 但这个错误太低级,还是不太理解。当然我也不相信阴谋论。
p
pig0019
这都要洗地?作弊被人抓包,像白等那样躲起来吧。
h
heighly
哪有那么复杂,就是有人改了后台,然后自己在Po出来,否则一般人哪知道刚好要怎么名字大小写,加不加点等等。让他们去自导自演自嗨吧,这论坛以前我没留意,从今年疫情起,这种编造然后有组织扩散的内容太多了,认真你就傻了。
b
badgerbadger


是低级错误,我一直觉得Google Translate很不靠谱。这些翻译太inconsistent了。
Q
QLXF
哪有那么复杂,就是有人改了后台,然后自己在Po出来,否则一般人哪知道刚好要怎么名字大小写,加不加点等等。让他们去自导自演自嗨吧,这论坛以前我没留意,从今年疫情起,这种编造然后有组织扩散的内容太多了,认真你就傻了。
heighly 发表于 2020-10-23 12:14

你的意思是说,改的人根本没有code review,直接放到亿万人可以访问的网站? 你是觉得google的code review是空气,还是觉得是团伙作案?
v
vvdd
今天是NATIONAL MOLE DAY. ENJOY。
我是马甲
N
Namama
无非就是有人故意利用谷歌翻译的suggest an edit 功能,在刷结果
由于翻译中人工选择的权重远远高于自动翻译。 只要多找几个人稍微多刷几下,应该蛮容易影响结果的
这就像谷歌初期有人故意刷搜索来影响搜索结果排名一样


咯吱咯吱哦
好像别的国家语言没有出现这个错误。有问题。
S
Syecho
正解。。。。。。
j
java
我在另外一个帖子里说了,粘过来:
进到google translate,翻译完以后右边那个框的右下角有三个图标,中间那个是suggest an edit。这个功能让用户可以纠错,纠错以后的内容会影响未来的翻译。这么搞出来的东西非常specific,就能影响exactly这个输入。generalize的能力很差,所以搞成了现在这样的混乱。
这次显然是有人利用这个功能在认为制造假消息。这种事情以前就发生过好几次,专门针对中文翻译,每次搞完了就到处论坛发帖子。大家想想就知道是谁干的了!
另外,这个捣乱的还把biden翻译成比登了,华语区哪里人说比登?
s
squirrel40
好奇怪。我刚输入"joe biden lost the election" 翻译就是 "乔·比登(Joe biden)败选" 但是输入 "joe biden just lost the election" 翻译就是 "乔·比登(Joe biden)刚刚赢得大选"
你们可以试一下
c
capehope


是低级错误,我一直觉得Google Translate很不靠谱。这些翻译太inconsistent了。
badgerbadger 发表于 2020-10-23 12:16

Donald lost the election 就翻对的。
c
capehope
我在另外一个帖子里说了,粘过来:
进到google translate,翻译完以后右边那个框的右下角有三个图标,中间那个是suggest an edit。这个功能让用户可以纠错,纠错以后的内容会影响未来的翻译。这么搞出来的东西非常specific,就能影响exactly这个输入。generalize的能力很差,所以搞成了现在这样的混乱。
这次显然是有人利用这个功能在认为制造假消息。这种事情以前就发生过好几次,专门针对中文翻译,每次搞完了就到处论坛发帖子。大家想想就知道是谁干的了!
另外,这个捣乱的还把biden翻译成比登了,华语区哪里人说比登?
java 发表于 2020-10-23 13:06

这个有道理。影响的只是缺冠词的句子。
R
ReesWitherspoon
从回复里复制粘贴过来,抛砖引玉请各位ml同行指正
不太可能人为,不是人为因素的话猜测几个原因的combination:
1.训练数据有bias,也可以解释为什么只有Joe Biden这个entity会出错。训练数据的bias是很常见的,训练语库都是几十个million以上的examples,通常从wiki、news这些公开的网站拿 2.现在的machine translation是sequence to sequence,所以多一个字少一个字attention mechanism抓到的都会不一样,不是传统翻译那样一个字对应另一个字。所有的单词都会被拆成wordpiece或者character,不是很清楚google translate 现在用的是哪种。如果character level的话更容易出这种错,如果是wordpiece的话这个句子里的just/lost 应该都不会再拆了,是中文那边的拆分问题 3.中英翻译和英法这种同样是latin rooted languages翻译难度是很不一样的,早几年的时候机器翻译还全是错,前两年google translate就是用seq2seq才取得重大突破,但还是不够robust
ecko 发表于 2020-10-23 12:00

猜测是training data造成的。也确实说明了Google的machine learning用的dataset已经倾向性很严重。sigh.
c
changan5
回复 1楼ecko的帖子
就是有人滥用edit建议修改功能了。
搞这些的老中真是无聊透顶!
R
ReesWitherspoon
哪有那么复杂,就是有人改了后台,然后自己在Po出来,否则一般人哪知道刚好要怎么名字大小写,加不加点等等。让他们去自导自演自嗨吧,这论坛以前我没留意,从今年疫情起,这种编造然后有组织扩散的内容太多了,认真你就傻了。
heighly 发表于 2020-10-23 12:14

你以为员工改code不需要peer review就能提交? 还是提交完了系统没有记录?
d
dandan2012
我在另外一个帖子里说了,粘过来:
进到google translate,翻译完以后右边那个框的右下角有三个图标,中间那个是suggest an edit。这个功能让用户可以纠错,纠错以后的内容会影响未来的翻译。这么搞出来的东西非常specific,就能影响exactly这个输入。generalize的能力很差,所以搞成了现在这样的混乱。
这次显然是有人利用这个功能在认为制造假消息。这种事情以前就发生过好几次,专门针对中文翻译,每次搞完了就到处论坛发帖子。大家想想就知道是谁干的了!
另外,这个捣乱的还把biden翻译成比登了,华语区哪里人说比登?
java 发表于 2020-10-23 13:06

这个回复靠谱点
h
habibi
我在另外一个帖子里说了,粘过来:
进到google translate,翻译完以后右边那个框的右下角有三个图标,中间那个是suggest an edit。这个功能让用户可以纠错,纠错以后的内容会影响未来的翻译。这么搞出来的东西非常specific,就能影响exactly这个输入。generalize的能力很差,所以搞成了现在这样的混乱。
这次显然是有人利用这个功能在认为制造假消息。这种事情以前就发生过好几次,专门针对中文翻译,每次搞完了就到处论坛发帖子。大家想想就知道是谁干的了!
另外,这个捣乱的还把biden翻译成比登了,华语区哪里人说比登?
java 发表于 2020-10-23 13:06

不专门中文,其它语言也一样出错,已经测试过了。
j
java
学术上说,这就是adversarial machine learning里面的training data poisoning。没啥稀奇的!
如果要说阴谋论的话,最好想想谁有动机来搞这些阴谋?谁最迫不及待出来“揭露”阴谋。
e
ecko
赞各个有信息量的回复 看起来确实是overly memorized, not enough generalization 也说明了adversarial training的重要性哈哈

f
fino819
为什么华川粉让人恶心,就是因为老干这种事。
L
LunaMaria
原来如此。刚刚试了各种组合,真是哭笑不得😂
d
destiny2008
我在另外一个帖子里说了,粘过来:
进到google translate,翻译完以后右边那个框的右下角有三个图标,中间那个是suggest an edit。这个功能让用户可以纠错,纠错以后的内容会影响未来的翻译。这么搞出来的东西非常specific,就能影响exactly这个输入。generalize的能力很差,所以搞成了现在这样的混乱。
这次显然是有人利用这个功能在认为制造假消息。这种事情以前就发生过好几次,专门针对中文翻译,每次搞完了就到处论坛发帖子。大家想想就知道是谁干的了!
另外,这个捣乱的还把biden翻译成比登了,华语区哪里人说比登?
java 发表于 2020-10-23 13:06

黄鼬真是最下作的生物
l
lulu1
中文简体和中文繁体都被train了,其他的语言就是正常翻译的。加不加period也会影响翻译结果,可见确实是有人做的。。。
麻辣肚丝
原来是骗子自导自演!阿扁的同乡吧
湫湫
前几天新闻造舆论,今天就送证据,华人是有多傻坑自己不亦乐乎。
不寒而栗!Tucker对于脸书雇佣华人程序员,进行了五分钟的猛烈抨击。纽约邮报:脸书有审查制度就是因为雇佣太多中国程序员 今天上午看到这个新闻的时候就觉得非常的恶心。
纽约邮报的最新专文,Meet your (Chinese) Facebook censors。
就是讲之前脸书下架各个极右翼包括纽约邮报对拜登的假新闻,还有QANON等阴谋论,是因为他们雇佣了大量的华人程序员。
最恶心的是这个记者,找这些脸书程序员的Linkedin主页,发现了些华人程序员,像中科院硕士毕业的,吉林大学毕业的,还有之前华为工作过的,用来暗示他们其实是为中共工作的。
这篇文章最后问了这样一个问题:What’s to stop Facebook’s Chinese engineers from delivering their Facebook expertise to Xi Jinping?
最让人不寒而栗的是
今天晚上,Fox台草Tucker跟进了这个事情,对于FACEBOOK雇佣华人程序员,进行了五分钟的激烈抨击,抨击这些在硅谷工作的华人程序员,就是审查美国人的间谍: https://twitter.com/stillgray/status/1318806443764576256
倾覆之下,安有完卵。
华人在脸书工作,可能会把审查机制透漏给中国
华人在谷歌工作,可能会把搜索大数据透露给中国
华人在投行工作,可能会把投资机密泄漏给中国
华人在大学工作,可能会把研究成果泄漏给中国
当你还在关心孩子的性教育问题的时候,可能没想到,此时此刻,很可能已经是未来一段时间对华人最好的年华了。。。
我之前发过那个贴子,今年的选举结果,对于其他族裔,可能是不是还有捏着鼻子过四年的问题
对于华人,很可能是生存,还是死亡的问题
还有12天,拭目以待
新闻来源:
Meet your (Chinese) Facebook censors https://nypost.com/2020/10/20/meet-your-chinese-facebook-censors/?fbclid=IwAR3gT8d9eOHdXJqHywUEzyQIF3cx76QyWuWrG7CU53b1eVJYLzEuzNm4ND8
The Hate-Speech Engineering team’s staff includes a research scientist based at the Seattle office who earned his master’s degree in computer engineering from the Chinese Academy of Sciences in Beijing, according to his LinkedIn profile. Another member of the team, a software engineer for machine learning based in Seattle, earned his bachelor’s and master’s degrees in computer science from Jilin University in northeast China. Still another, an engineering manager, earned his bachelor’s in computer science at Nanjing University in eastern China. Another software engineer previously worked for the Communist-backed conglomerate Huawei, as well as the Beijing National Railway & Design Institute of Signal and Communication. I reached out to all six employees; two replied to confirm that they are Chinese nationals but refused to comment further; the rest didn’t reply. jiaru0099 最后编辑于 2020/10/22 13:08:16 收藏
N
Namama
为什么华川粉让人恶心,就是因为老干这种事。
fino819 发表于 2020-10-23 13:33

川粉这次的fake news力度真是让人叹为观止。。。。。恶心到不行。。
w
wa8445
我觉得可能还有一个目的,这个恶作剧就钓鱼,让大家多输入biden会输的句子,这都会进入Google的数据库的。不少民调和model都是根据Google的搜索数据做估测。所以大家都好奇去试一试,数据就变得是大家都认为biden会输。
为什么华川粉让人恶心,就是因为老干这种事。
fino819 发表于 10/23/2020 1:33:19 PM
N
Namama
我觉得可能还有一个目的,这个恶作剧就钓鱼,让大家多输入biden会输的句子,这都会进入Google的数据库的。不少民调和model都是根据Google的搜索数据做估测。所以大家都好奇去试一试,数据就变得是大家都认为biden会输。
为什么华川粉让人恶心,就是因为老干这种事。
fino819 发表于 10/23/2020 1:33:19 PM


wa8445 发表于 2020-10-23 13:53

没有证据显示 google translate 里的关键字输入频率会和google search频率挂钩吧? 而且英文 google search joe biden的量太大了,根本不是一点中文翻译的量能影响的。。
也正因为正常情况下用google translate翻译这词条的人极少,人工修改翻译结果的人更少,所以才那么容易被造假的人利用,影响结果。。
p
perfectpan
洗地说就是算法出问题的,眼瞎吗?
大选这么焦灼还有十几天的时候google翻译出这么一个匪夷所思的问题,叫做”只是算法出了问题”??怎么这么好巧不巧?!!怎么trump的能正确翻译?!说出来有人信吗??
别总说阴谋阴谋的,证据太多了,总拿阴谋论说话未免是一叶障目!

然后就是事事都拿川粉说话的,好像不管什么事情,只要带上川粉,就好像你有理了别人说的不管是什么都是阴谋论了!你怎么不说你自己拿川粉说话是阴谋论呢??就算是用户改的,你又有什么证据说是川粉做的?为什么不能是左派做的?为什么不能是google自己员工做的?一边google/twitter/fb删所谓biden阴谋论的时候你举手叫好,一边自己成天拿川粉说话制造阴谋论,怎么不把你自己封了呢!!
N
Namama
回复 32楼perfectpan的帖子
没接触过高科技?对各种algorithm没任何概念?
没文化真可怕。。。 不过倒也符合川粉人设。。。
j
jiaru0099
洗地说就是算法出问题的,眼瞎吗?
大选这么焦灼还有十几天的时候google翻译出这么一个匪夷所思的问题,叫做”只是算法出了问题”??怎么这么好巧不巧?!!怎么trump的能正确翻译?!说出来有人信吗??
别总说阴谋阴谋的,证据太多了,总拿阴谋论说话未免是一叶障目!

然后就是事事都拿川粉说话的,好像不管什么事情,只要带上川粉,就好像你有理了别人说的不管是什么都是阴谋论了!你怎么不说你自己拿川粉说话是阴谋论呢??就算是用户改的,你又有什么证据说是川粉做的?为什么不能是左派做的?为什么不能是google自己员工做的?一边google/twitter/fb删所谓biden阴谋论的时候你举手叫好,一边自己成天拿川粉说话制造阴谋论,怎么不把你自己封了呢!!
perfectpan 发表于 2020-10-23 14:05

川粉就是产阴谋论啊
Qanon哪来的?
红豆沙黑咖啡
川粉就是产阴谋论啊
Qanon哪来的?
jiaru0099 发表于 2020-10-23 14:08

川粉认为QANON是真理,science是阴谋
r
rosesavels
洗地说就是算法出问题的,眼瞎吗?
大选这么焦灼还有十几天的时候google翻译出这么一个匪夷所思的问题,叫做”只是算法出了问题”??怎么这么好巧不巧?!!怎么trump的能正确翻译?!说出来有人信吗??
别总说阴谋阴谋的,证据太多了,总拿阴谋论说话未免是一叶障目!

然后就是事事都拿川粉说话的,好像不管什么事情,只要带上川粉,就好像你有理了别人说的不管是什么都是阴谋论了!你怎么不说你自己拿川粉说话是阴谋论呢??就算是用户改的,你又有什么证据说是川粉做的?为什么不能是左派做的?为什么不能是google自己员工做的?一边google/twitter/fb删所谓biden阴谋论的时候你举手叫好,一边自己成天拿川粉说话制造阴谋论,怎么不把你自己封了呢!!
perfectpan 发表于 2020-10-23 14:05

那你解释一下为啥只有中文这样吧。高赞答案应该是正解,川粉利用系统漏洞自编自导自演的。
p
perfectpan
川粉就是产阴谋论啊
Qanon哪来的?
jiaru0099 发表于 2020-10-23 14:08

qanon跟cnn的可信度说实话相差不大。。。
你的回复再次prove我的point,你自认为任何事情只要扯上川粉就等同于阴谋论了,呵呵,那种无知和盲目自信让人可怜
p
perfectpan
那你解释一下为啥只有中文这样吧。高赞答案应该是正解,川粉利用系统漏洞自编自导自演的。
rosesavels 发表于 2020-10-23 14:14

那你解释一下,为什么任何涉及到民主党,涉及到biden的丑闻,你们口口声声要证据,不然就要封杀新闻封杀账号不能转发
为什么任何涉及到川普,涉及到共和党,涉及到右派的谣言,你们口口声声说是真的,口口声声喊着川粉,没有一点证据就敢这么肯定是川粉做的?
双标的这么赤裸裸也是够了
m
mitbbsembassy
谷歌这个破翻译能有什么实际意义和影响?大惊小怪
n
nn2000
translate是给人学习和工作用的功能,能对政治有什么影响? 也就川粉,人力更改了结果权重,然后到处散播谣言。 为什么他们做的事恶心?拿钱了,所以和五毛一样,被人不齿。
R
Riverss
这件事情肯定是人为啊,除了故意泼脏水给拜登,还能有别的解释?
r
rabbitu
顶一下高票回复。造谣一张嘴辟谣跑断腿
a
arizaq
那你解释一下为啥只有中文这样吧。高赞答案应该是正解,川粉利用系统漏洞自编自导自演的。
rosesavels 发表于 2020-10-23 14:14

法语是对的。


r
rosesavels
楼上的,所以只有中文嘛。你一开始以为法语也错了是不。
a
arizaq
楼上的,所以只有中文嘛。你一开始以为法语也错了是不。
rosesavels 发表于 2020-10-23 14:47

不太懂,所以闹笑话了。
吕涵紫
明显就是人工干预了训练集 数据科学的特点就是garbage in garbage out哈哈哈哈 算法有什么好坏烂的是人心
a
arizaq
我在另外一个帖子里说了,粘过来:
进到google translate,翻译完以后右边那个框的右下角有三个图标,中间那个是suggest an edit。这个功能让用户可以纠错,纠错以后的内容会影响未来的翻译。这么搞出来的东西非常specific,就能影响exactly这个输入。generalize的能力很差,所以搞成了现在这样的混乱。
这次显然是有人利用这个功能在认为制造假消息。这种事情以前就发生过好几次,专门针对中文翻译,每次搞完了就到处论坛发帖子。大家想想就知道是谁干的了!
另外,这个捣乱的还把biden翻译成比登了,华语区哪里人说比登?
java 发表于 2020-10-23 13:06

我的google translate 右下框只有两个图标,没有suggest an edit啊。 发现了,是https://translate.google.com/ 的网站有三个图标。 原来google translate这么依赖用户输入啊,感觉不太好。
r
rabbitu
我的google translate 右下框只有两个图标,没有suggest an edit啊。 发现了,是https://translate.google.com/ 的网站有三个图标。 原来google translate这么依赖用户输入啊,感觉不太好。
arizaq 发表于 2020-10-23 14:53

免费的工具,本来就是认为大多数人都是善意的,众人拾柴火焰高。算法哪里玩的过人心的邪恶
F
Fanfuliao
顶一下高票回复。造谣一张嘴辟谣跑断腿
rabbitu 发表于 2020-10-23 14:36

哈哈。还有造谣要趁早。大家现在都免疫了,百毒不侵!我连Biden儿子的瓜都懒得吃。
t
twincity
洗地说就是算法出问题的,眼瞎吗?
大选这么焦灼还有十几天的时候google翻译出这么一个匪夷所思的问题,叫做”只是算法出了问题”??怎么这么好巧不巧?!!怎么trump的能正确翻译?!说出来有人信吗??
别总说阴谋阴谋的,证据太多了,总拿阴谋论说话未免是一叶障目!

然后就是事事都拿川粉说话的,好像不管什么事情,只要带上川粉,就好像你有理了别人说的不管是什么都是阴谋论了!你怎么不说你自己拿川粉说话是阴谋论呢??就算是用户改的,你又有什么证据说是川粉做的?为什么不能是左派做的?为什么不能是google自己员工做的?一边google/twitter/fb删所谓biden阴谋论的时候你举手叫好,一边自己成天拿川粉说话制造阴谋论,怎么不把你自己封了呢!!
perfectpan 发表于 2020-10-23 14:05

很明显你不仅对CS一窍不通,你对IT公司乃至美国的大公司都是一窍不通。就算GOOGLE想影响大选,会选择这么烂又明显还没有任何实际效果的手段?人家员工也不是白白拿着贫困线的大包裹好嘛。。。智商秒杀你真的没问题。
m
mu
免费的工具,本来就是认为大多数人都是善意的,众人拾柴火焰高。算法哪里玩的过人心的邪恶
rabbitu 发表于 2020-10-23 15:02


Twitter 上发的早一些。
Ng Og @NgOg84183497 · 11h Forget about FB and Twitter. Google translate will tell you Joe Biden won the election when you try to translate "Joe Biden just lost election" into Chinese. (You can reverse the translate and see that English version also

j
java
我们想想谁会来改这么specific的一个东西,然后又迫不及待的“发现”这个问题,然后又特意把脏水泼到Google的华人马工身上。
想想平时哪些人喜欢一个谣言贴反复顶,想想平时哪些人做事low到毫无底线,再联想昨天nyp和狐狸台怎么针对Facebook的华人马工,今天就有人造证据呼应。
这些加起来,真相已经呼之欲出了吧!
N
Namama
我们想想谁会来改这么specific的一个东西,然后又迫不及待的“发现”这个问题,然后又特意把脏水泼到Google的华人马工身上。
想想平时哪些人喜欢一个谣言贴反复顶,想想平时哪些人做事low到毫无底线,再联想昨天nyp和狐狸台怎么针对Facebook的华人马工,今天就有人造证据呼应。
这些加起来,真相已经呼之欲出了吧!
java 发表于 2020-10-23 15:46

除了那票整天炮制fake news的川粉不会有其他人,所以说恶心至极
r
rosesavels
顶上去,那个楼还在继续盖,散播谣言
N
Namama
顶上去,那个楼还在继续盖,散播谣言
rosesavels 发表于 2020-10-23 16:24

是的,其实可以建议版主高亮,来辟谣。。
j
java
顶上去,那个楼还在继续盖,散播谣言
rosesavels 发表于 2020-10-23 16:24

去看看那个帖子就知道,他们一直用一些毫无营养的回复来顶贴。
n
nn2000
去看看那个帖子就知道,他们一直用一些毫无营养的回复来顶贴。
java 发表于 2020-10-23 17:18

他们这种怀着任务来发帖的做法太恶心
j
java
他们这种怀着任务来发帖的做法太恶心
nn2000 发表于 2020-10-23 17:19

临近大选了,天天造谣带任务的,真是疯狂!
很多很多年以前,轮子也是自己改Wikipedia然后拿来当证据,这帮人搞来搞去就是这一套!
c
coconutjuice
就算是sequence to sequence 如果上了attention,失败或者输掉肯定会学到lost这个输入上去啊 我觉得可能是sequence to sequence之后 来了一个后处理 一般这种后处理是利用语言模型纠正不通顺语句的 需要用到统计信息。 但是如果统计信息就是biased比如只要biden就是当选 那就可能会出错
纯属猜测 nlp 外行
r
rabbitu
他们这种怀着任务来发帖的做法太恶心
nn2000 发表于 2020-10-23 17:19

对啊,故意搞一些阴谋论。可笑的是还那么多人信。真要作假去一个没任何影响力的translate tool里面作假吗?简直搞笑。。。
j
java
就算是sequence to sequence 如果上了attention,失败或者输掉肯定会学到lost这个输入上去啊 我觉得可能是sequence to sequence之后 来了一个后处理 一般这种后处理是利用语言模型纠正不通顺语句的 需要用到统计信息。 但是如果统计信息就是biased比如只要biden就是当选 那就可能会出错
纯属猜测 nlp 外行

coconutjuice 发表于 2020-10-23 17:43

这是挺典型的training data poisoning,得到的结果非常specific,不generalize。
打个比方,有一个模型区分苹果和橘子,很准。然后有人拿了个啃一口的苹果,打个标签是橘子。模型大概率会把啃一口的苹果当成橘子,而别的苹果还是苹果。
如果再有人拿了一堆啃一口的苹果并且都标记成苹果,那怎么办呢?模型很可能会把啃得和之前那个假橘子一模一样的给当成橘子,别的苹果,包括啃得不一样的苹果,都还是认成苹果。
就是说模型从这个sample里面学到了一些很specific的东西,把它和那个label给关联起来了。
j
java
我的google translate 右下框只有两个图标,没有suggest an edit啊。 发现了,是https://translate.google.com/ 的网站有三个图标。 原来google translate这么依赖用户输入啊,感觉不太好。
arizaq 发表于 2020-10-23 14:53

这就是crowdsourcing。Google假设用户都是好人,大家一起提高翻译质量。
当然Google肯定有办法对抗恶意输入,估计正在fix这个问题呢。
s
shoon_yee
这件事情肯定是人为啊,除了故意泼脏水给拜登,还能有别的解释?
Riverss 发表于 2020-10-23 14:30

太想当然了,brad Pitt呢? 我的是后面加个句号和不加就不一样的结果。
s
shoon_yee
很明显你不仅对CS一窍不通,你对IT公司乃至美国的大公司都是一窍不通。就算GOOGLE想影响大选,会选择这么烂又明显还没有任何实际效果的手段?人家员工也不是白白拿着贫困线的大包裹好嘛。。。智商秒杀你真的没问题。
twincity 发表于 2020-10-23 15:04

translate应该是data的问题。 但是说不干扰肯定不是。看看social dilemma,Google search输入的时候给的suggestion跟你的location都有关系。
f
flyingforce
从回复里复制粘贴过来,抛砖引玉请各位ml同行指正
不太可能人为,不是人为因素的话猜测几个原因的combination:
1.训练数据有bias,也可以解释为什么只有Joe Biden这个entity会出错。训练数据的bias是很常见的,训练语库都是几十个million以上的examples,通常从wiki、news这些公开的网站拿 2.现在的machine translation是sequence to sequence,所以多一个字少一个字attention mechanism抓到的都会不一样,不是传统翻译那样一个字对应另一个字。所有的单词都会被拆成wordpiece或者character,不是很清楚google translate 现在用的是哪种。如果character level的话更容易出这种错,如果是wordpiece的话这个句子里的just/lost 应该都不会再拆了,是中文那边的拆分问题 3.中英翻译和英法这种同样是latin rooted languages翻译难度是很不一样的,早几年的时候机器翻译还全是错,前两年google translate就是用seq2seq才取得重大突破,但还是不够robust
ecko 发表于 2020-10-23 12:00

我是觉得这就是个错误了,毕竟这种翻译错看不出能影响谁,无论是选川普的还是选拜登的,都不应该会因为这个翻译错误而改变自己的选举。只是证明了google translate有些不靠谱
C
CleverBeaver
赞各个有信息量的回复 看起来确实是overly memorized, not enough generalization 也说明了adversarial training的重要性哈哈


ecko 发表于 2020-10-23 13:29

哈哈 还是需要goodfellow的gan呀
C
CleverBeaver
这是挺典型的training data poisoning,得到的结果非常specific,不generalize。
打个比方,有一个模型区分苹果和橘子,很准。然后有人拿了个啃一口的苹果,打个标签是橘子。模型大概率会把啃一口的苹果当成橘子,而别的苹果还是苹果。
如果再有人拿了一堆啃一口的苹果并且都标记成苹果,那怎么办呢?模型很可能会把啃得和之前那个假橘子一模一样的给当成橘子,别的苹果,包括啃得不一样的苹果,都还是认成苹果。
就是说模型从这个sample里面学到了一些很specific的东西,把它和那个label给关联起来了。
java 发表于 2020-10-23 18:01

是的 以后还要federated learning
training data poisoning就更难detect了
C
CleverBeaver
我是觉得这就是个错误了,毕竟这种翻译错看不出能影响谁,无论是选川普的还是选拜登的,都不应该会因为这个翻译错误而改变自己的选举。只是证明了google translate有些不靠谱
flyingforce 发表于 2020-10-23 19:04

正解
以后同学们可以试试iOS自带的Translate
数据完全在手机上 不去网路 不会那么容易被poison
j
java
是的 以后还要federated learning
training data poisoning就更难detect了
CleverBeaver 发表于 2020-10-23 19:06

云端想要做还是挺容易的,少量攻击很难影响效果,大量攻击很容易被检测。
r
rabbitu
辟谣贴网上顶一下
宫迷
根据贼喊做贼的原则,谁做的一目了然。是谁在媒体上第一时间爆料的?
n
nn2000
我在另外一个帖子里说了,粘过来:
进到google translate,翻译完以后右边那个框的右下角有三个图标,中间那个是suggest an edit。这个功能让用户可以纠错,纠错以后的内容会影响未来的翻译。这么搞出来的东西非常specific,就能影响exactly这个输入。generalize的能力很差,所以搞成了现在这样的混乱。
这次显然是有人利用这个功能在认为制造假消息。这种事情以前就发生过好几次,专门针对中文翻译,每次搞完了就到处论坛发帖子。大家想想就知道是谁干的了!
另外,这个捣乱的还把biden翻译成比登了,华语区哪里人说比登?
java 发表于 2020-10-23 13:06

‘suggest an edit’的用戶資料都是保留的,不知道拿髒錢辦事的川粉們有沒有一點點慌
不必客气
我在另外一个帖子里说了,粘过来:
进到google translate,翻译完以后右边那个框的右下角有三个图标,中间那个是suggest an edit。这个功能让用户可以纠错,纠错以后的内容会影响未来的翻译。这么搞出来的东西非常specific,就能影响exactly这个输入。generalize的能力很差,所以搞成了现在这样的混乱。
这次显然是有人利用这个功能在认为制造假消息。这种事情以前就发生过好几次,专门针对中文翻译,每次搞完了就到处论坛发帖子。大家想想就知道是谁干的了!
另外,这个捣乱的还把biden翻译成比登了,华语区哪里人说比登?
java 发表于 2020-10-23 13:06

我试了没有修改任何东西,好像结果也是一样的。我好几个朋友试了都是一样结果啊
不必客气
现在已经改回来了吧,上午试的时候,日语是对的
j
java
‘suggest an edit’的用戶資料都是保留的,不知道拿髒錢辦事的川粉們有沒有一點點慌
nn2000 发表于 2020-10-23 21:24

说起来这种攻击行为是违犯CFAA的,如果google能够justify造成了大于5000美元的损失,那攻击者真的可能被告上法庭。当然FBI和司法部都是川粉家开的,所以人家肆无忌惮嘛