为什么小中学成绩好的优势一从学校毕业就消失了?

锦衣卫
楼主 (文学城)

今天NPR上说亚裔学生在读书期间都很优秀,成绩领先。但一旦毕业开始工作,这些优势就“自动”没有了。面临的都是“Bamboo ceiling”。(老美专门为亚裔发明的)

老美对亚裔的普遍共识就是“Yes Sir” type of person。就是老中家长最喜欢乖乖宝,妈宝娃,听话不捣乱。但没有创造力没有新奇感。在公司里多一个不多,少一个也不少。开会安静听的时候远大于积极参与和讨论的时间。工作按照领导交代按时完成,很少抱怨也很少有积极建议。

无论是T3大藤出来的还是州大和CC出来的,基本都是一个套路。就连人生也是按照爹妈的希望,按步就按,没有激情也没有什么大的波折。连找对象也要爹妈操心动手。

相反,那些成绩和考试远远不如小中(包括别的亚姨娃)的小美娃工作以后,很多都是后来居上。领导船不用怎么推就自动上去了。而T3大藤毕业的经常变成州大小白领导下的一个小兵。

这就是我们从小花大力气和无限投资培养出来的下一代吗?

怎么推娃才能改变这个现实?

 

🔥 最新回帖

b
bessone
108 楼
垃圾观点,黑亚裔的
i
ily
107 楼
人口太少。
Q
Quarx
106 楼
其实这个是社会问题,学习是单一标准,社会是复杂的,各种人都有。
S
SYU2009
105 楼
多生、少管

咱老中学老墨,生多了,想管也管不了,孩子们就练出來了。问题是谁肯呢?

枫蕤甦
104 楼
这个比较难,因为家长不擅长,推不了也做不了role model

 

🛋️ 沙发板凳

Z
ZhenNiu
俺觉得啊, 父母要先以自己是中国人而自豪, 才行!
Z
ZhenNiu
俺觉得啊, 父母要先以自己是中国人而自豪, 才行!

怎么融洽同子女的关系?

·不要监控孩子的电话,尊重其隐私权。

·对孩子的朋友要和蔼可亲,但不要同他们过于亲近。不要侵入他(她)的天地。

·不要在他人面前夸奖孩子,这样会使其尴尬。

·不要在他人面前批评或斥责孩子。如果必须要这样做的话,应该在无人的时候。

·母亲在他人面前要注意服饰。母亲的形象不整洁,孩子会感到羞耻。

·如果你的孩子参加学校的演出,他(她)在舞台上时你不要打手势,这样会令他(她)紧张,甚至出错。

·孩子和你一起坐自己家的车出门时,不要把汽车收音机调到你所喜爱的频道。让孩子挑选电台,但可要求他调低音量。

·在子女需要帮助时要给予帮助,但要注意方法。

·子女在一定的阶段就像需要食品一样需要爱抚,但是爱抚要适可而止,不要在公开场合这样做,更不要在朋友面前这样做。

·不要让你的孩子在外人面前表现他的“本事”,如朗诵、唱歌、跳舞或弹钢琴。如果你为他的本领自豪并希望让人家看到,那就对他提出请求。如果父母坚持让他们在外人面前表现本领,有的孩子会感觉自己像马戏团的猴子。

·不要向他的朋友和亲属讲他的怪癖,尤其不要当他的面前。任何孩子都不愿意别人知道自己的隐私。

·不要让他失去对你的信赖。他向你透露的秘密,你不要告诉别人。你一定要完全尊重他的意愿。

·在他面前不要说谎。他看到自己的父母说谎或弄虚作假,就会感觉不好。例如,父母在某人背后说坏话,而当面又装出热情的样子,孩子就会反感。

下页:父母教育是家庭教育成败的关键

猫老板
你说的都对,可是如果这些孩子是在中国呢?大环境的压力是改变不了的。
锦衣卫
和民族大义毫无关系,不用那么敏感。NPR说的是实情

在美国亚裔在职场上普遍升职比老美困难多了。

成功的熊
因为the nation is on the wrong track。
Z
ZhenNiu
不是敏感。看不起自己的人, 咋也干不好, 不借酒消愁就不错了。。。
锦衣卫
不是我说的,是NPR的报道。里面就有名校毕业生自己说的例子
l
louke
需要换个思路培养孩子独立性,抗压性,社交等,学习成绩的重要性也就是一半吧。
锦衣卫
那我们该朝那个方向推娃(用紫檀的特色说法)?

才能改变对亚裔的普遍印象

Z
ZhenNiu
包子那民族自信, 文化自信, 很好, 很重要。。。
Z
ZhenNiu
包子那民族自信, 文化自信, 很好, 很重要。。。
锦衣卫
然后回家推娃爬藤

把梦想寄托在下一代身上?

Z
ZhenNiu
不互相排斥啊?
猫老板
我怎么突然想起了一个比喻,一群人很守纪律的排队,又来了一伙人插队,不排队,然后又指责别人太守规矩了。当第一伙人开始也不排队时,那

伙人又得该规矩了。儒家文化和强盗文化很难融合。

b
borisg
这个从子潭每日的话题就可以看出。做家长的从小鼓励孩子以听话做好孩子为第一以及唯一的要务。

要让他们去自己经历,犯些错误也无所谓。

l
louke
这一举动剥夺了孩子成长的机会
和畅
压抑在美国永远是少数民族,不承认也得承认。要想站住脚,先从经济基础开始,在自己的长项上做到极致
锦衣卫
先点赞一个“培养”二字,而不是“推”。怎么培养?

才能把下一代小中娃培养的象小美娃一样自信和乐观与开发?

这是关键

和畅
现在不是狠批吗?其实小孩如果自觉听话,从一方面说,说明家长厉害,小孩服气。
锦衣卫
这个就是紫檀大方向错误的地方,可藤妈藤爸不承认

说你们怎么看紫檀就怎么想紫檀。并没有意识到他们内心深处已经走火入魔了。

和畅
小美娃都自信乐观?你们没有在白区吧。
吹着吹着就牛了
认真做人,努力做事。
l
louke
与孩子做朋友, 鼓励独立思考,参与体育活动,多尝试新东西,允许犯错误。。。。。
锦衣卫
日本在这方面做的已经算是出类拔萃了

可日裔娃在美国和其他亚姨娃比也没有优势。

做到极致也很难,而且不如创新给人的印象更深。

比如推娃做行业的开拓者

n
newcomerST
是的,输赢心少点。一步一步,one game a time.

孩子的能力,自信心,都不能少。再加一句,老中家长要support出色的中国娃。多点欣赏和距离感。

锦衣卫
这样说等于是要培养娃老老实实,做个听话的宝宝一样

这就是NPR说的亚裔娃最普遍的现象。

我倒希望下一代能敢于挑战,敢于质疑,敢于争取。

你们藤妈藤爸都喜欢妈宝娃。

看客2010
老祖宗是讲究顺其自然的。不顺其自然的,可以过得不错,但一般走不出来自己所在的圈子
L
LVHawaii
各个民族都有各个民族的文化和性格,扭转也不见得行。孔孟之道多少年了?
和畅
紫檀里向来认为听话的小孩没出息。但是我觉得没那么绝对。
锦衣卫
如果万一的错误是没能爬上T3藤,藤父母是不是会特别失望?

州大娃无所谓,但对藤妈藤爸来说这等于是致命的打击。

吹着吹着就牛了
说你啥心态,就看世界啥样,一点儿没错。

好好再回去领会这八个字。

和畅
如果家长某些方面让小孩佩服,敬佩,那么他至少会考虑家长说的话的,而不是逆反,你说的我就是不听

另外也看小孩的成熟度

锦衣卫
孔孟之道祸害了中华民族上千年,如果没有儒家和孔孟之道中国早强大了

也许早灭国后又多次凤凰涅磐了。

看客2010
孙正义,韩裔日本人,转学到Cal ,学经济和计算机。不是这里的常规路子,是被这里一些人瞧不上的呢。
锦衣卫
你这种心态就是逆来顺受,永远不会有挑战和创新能力

只有跳出传统思维的圈子才能看的以前看不到的世界。

n
newcomerST
少数民族先天劣势无法避免,所以我们的孩子就真要比别人tough

没办法。

白色非色
你咋受人蛊惑,开口闭口T3?紫檀说的是T5,别一开口就有口音的 ^_^

那个说T3的人,啥都不懂。

看客2010
有孔孟之道的中国在世界上领先了上千年,现在的中国没有孔孟,只有赤色的孔方兄。
P
Porcelana
但这种娃最适合当医生啊。既然大多数小中爸妈希望孩子当医生,培养出这种娃很正常,除非突然

大多数小中爸妈不再希望孩子当医生。所以归根到底还是小中爸妈的期望决定了培养出这种小中。

 

s
soccerlover
靠,那为啥亚裔在自己国家都能做高?对黑人,他们这是歧视,对亚裔就是亚裔责任了?
吹着吹着就牛了
认真做人怎么会是逆来顺受,努力做事怎会不接受挑战和勇于创新

哪天你真正知道什么是认真,什么是努力,再来挖这样的坑。

吹着吹着就牛了
和锦衣卫一样回去学学什么是认真,什么是努力。
R
Rockeymountain
根本的办法就是真正放手,让孩子的天性推动他们explore和进入自己喜爱擅长的领域。

根本的issue就是家长能不能让孩子承受失败的结果。。

亚裔孩子确实从小就被教育听话,家长喜欢承揽一切,喜欢一窝蜂地做同样的事情。这样小中们就被塑造成cookie cutter出来的相似度极大。

说实话我也曾试图去form儿子,要求他做这做那,无奈遇到了一个反抗力极强的teenager,伤痕累累败下阵来之后只好任其自然发展。当家长的也要做好承受其失败的结果,不过美国这个系统只要你有动力,任何时候都不晚都可以做自己喜欢的事并获得成功。

P
Porcelana
NPR描述的这种娃最适合当医生。大部分小中的爸妈希望孩子当医生,所以当然培养出这种娃,

所以归根到底是小中的爸妈的期望造成的。

 

l
louke
说明那些父母脑子有病:)
s
soccerlover
为啥亚裔在自己国家就不是小绵羊了?亚洲国家没有大企业?
s
soccerlover
为啥亚裔在自己国家就不是小绵羊了?亚洲国家没有大企业?
凊荷
NPR在造谣吧
晓曦
因为人少

领导都是很多自己人里推选出来的,拥护出来的。

假设,自信乐观的白人娃移民中国的话,一样吃瘪,一样有ceiling,cheese ceiling maybe

印度人在IT领域的成就,有我们值得学习的地方,但不可否认跟乌央乌央的H1B群众基础有关。中国人想出头,需要多移民,多生孩子,集中到一个行业,一个地区。人多了,势力必然大。

锦衣卫
紫檀的变化一日千里,去年初40万,年底60万,现在春天来了就到了80万

以前是T50,T20,后来T10也看不上了,就T5,然后T3。

我算是服了,哪个是真哪个是假也不知道了。

P
Porcelana
因为大绵羊出国了,没出国的是大山羊。大绵羊生小绵羊,大山羊生小山羊。
黄玫瑰888
他们知道谁是孙正义吗?就瞧不上,

无知的瞧得上谁啊。呵呵。

n
newcomerST
其实这也是他们宣传stereotype

其实还是有很多不错的年轻人,没什么特大的腕。这个需要土壤和气候。少数民族是劣势。

P
Porcelana
因为大绵羊出国了,没出国的是大山羊。大绵羊生小绵羊,大山羊生小山羊。
R
Rockeymountain
这是一个因素,但不是主要因素。看坛子里对小刘的态度,我们比起印度一代和劳模的境界差太远了。
锦衣卫
LOL,虎狼之辈不善于刷题考试都留在了国内

结果反而创出来一片天地

雾里看花123
孩子连在自己的父母面前都不敢叫劲,还指望他/她敢在外面叫劲?
锦衣卫
这个问题提出来的好,亚裔娃在听话上普遍超出其他族裔的娃。

为什么亚裔娃就容易听话呢?换句话说听话是好,还是不好?

这个值得单独提出来讨论一下。

P
Porcelana
大绵羊即使不出国也是被虎狼吃掉的绵羊。认命吧!自己是大绵羊却想自己的娃是虎狼?这岂不是幻想?
s
soccerlover
不用担心,华为中兴在改变 对亚裔的守规矩,没有领导力的印象。Be careful what you wish for
小团圆
这的确是个问题。
看客2010
有人可能知道孙是何许人也,但不清楚他是从Cal毕业出来的,更不会想到他是转学生。
吹着吹着就牛了
你忽略了一批自律自强的亚裔娃,你把他们归于听话娃里了。到了高中,有几个家长敢说自己的娃听话?
w
wlwt123
認識一個華女,樣樣比白男好,結果中管後就碰竹頂。維一解釋是大老板看不慣黃面孔。
锦衣卫
有道理,可印度人少的时候升职的机会也比亚裔多,包括这里超过土生土长的亚裔

这个就很难说是人口基数的问题

s
soccerlover
白人就不敢这样stereotype地说黑人。黑人一句话,是种族歧视造成的,老白就马上哑巴了。
蓝山飞狐
楼主的观察很好。那些没意识到问题的人,夜郎自大的人不要忘了美国是白人娃的父母创建的。而且西方文化在近代史一直都是领先的事实。
和畅
我觉得你们在学校和白孩子以及家长接触太少了,白人家长管得严的不要太多。以为亚裔都是小绵羊,全是误解

小孩成长阶段有各种各样的mentors非常重要,可以是高年级学生,自己父母,同学家长,学校老师。。。

小孩会受益匪浅,太多了,没时间写。。。

w
wlwt123
他來美的原因是日本也不當他是日本人。種族歧視是活生生的。
锦衣卫
这个说法很关键,如何能培养孩子的挑战能力和接受失败的挫折能力才是培养出有领导能力和创新能力的关键

可这样的过程和推娃当个听话,按照爹妈的安排一步一步爬藤的妈宝娃可能会相距甚远。很可能爬不上藤。

n
newcomerST
是的,老白给亚裔的地位:饭可吃,钱也挣点。Other than that many cannot take it.
锦衣卫
这里的娃不都很听话吗,爹妈安排什么活动就参加什么活动。爹妈也很自豪的上来BSO

如何推娃爬藤的,各种成绩样样超人。反抗的娃能接受爹妈安排的一切?

陈默
大环境上说,少数族裔的弱势(包括心理层面的);小环境说,亚裔父母过份注重学业,

很多课外活动也是围绕爬藤上好学校加分什么的,不见得是真正孩子的兴趣和特长。多年的惯性就是让孩子在学业上很拔尖,等这个拔尖没有用处了,孩子就无所适从,不知道如何创造下一个优势了。

社会是什么?人生是什么?是不断地克服困难,是挣扎和挑战,是展现自己的长处并得以胜出。在年轻时候得有这么一段拼的过程。这本领是书本上学不到的。

作为少数群体,这个地盘不是你的,尤其对男人来说,生理上的雄性的本能就是这样。别说你是这里生的就是美国人,国籍上是不等于心理层面上和土生土长的没差别。人家就觉得你是亚裔,是移民后代,这种标签是不会去除的,如果不是这样,也不会有NPR的这种讨论了。隐隐地对男生心理会有影响,也许他自己并没有很明确地察觉或者不想/不愿很明确地表述出来。

这也许是小中男=小中难,小中女比较顺利的原因之一。

 

P
Porcelana
中国一切看分数的考试制度容易选出绵羊,美国的精英大学入学方式尽管有缺点和弊端但容易挑出虎狼。现在

这些大绵羊老留又希望美国的入学制度改成重分数的选绵羊的制度还让自己的小绵羊能够上去。但绵羊终归是绵羊,藤校出来的绵羊还是绵羊。藤校无法把你的小绵羊变成虎狼的。虎狼之性是天生的。那就是所谓的 raw talent。

 

 

 

锦衣卫
孙也是CalTech出来的,当然不是T3的大藤

虎妈狼爸可能也的确看不上

t
tangyuancong
很大一部分小中都不参与集体活动。

集体活动很多对爬藤没有立竿见影的帮助,很多小中都不参与。小中热衷的都是USAMO,单项体育。工作以后不可能去领导别人。一般而言,90%进过3次以上USAMO的,都要从小牺牲很多,在家埋头苦读,看过很多这种小中,没见过有领导能力的。特别是小中男。

吹着吹着就牛了
等你娃到了高中,你就清楚了。做梦吧,让一个高中生听你的话。LOL
I
ICMbian
根本是在于是自推还是强推,白人基数大,自推的都比你强推的人数多,自然做老板的就多,何况还有各种潜规则暗助。至于小中

多数是被推出来的,缺乏“侵略性”,加上先天弱势,当然就难于出头。就是少数自推娃也缺乏群众基础,想领导多数群体是难上加难,即使有个别的成功者也会是凤毛麟角,压力之大可以想象。

白色非色
Getting too sexy for the shirt LOL
锦衣卫
也没说是亚裔的责任,就是提出这个问题讨论

报道还是比较积极和正面的。参加采访的亚裔娃(几个大亚裔娃)都有,回答也是各种各样的。

P
Porcelana
小中的爸妈当年就是靠分数刷题考试挑出来的。小中就是这种基因。
n
newcomerST
是的,要让孩子发现他们自己和他们自己的人生
I
ICMbian
如果不推而完全放羊,那么成功的机率就更小,原因就在于华人基数太小,而且短期内也没有改变的可能。
看客2010
是Berkeley 出来的转学生,是这里一些人挤兑的对象lol
I
ICMbian
这当然是价值观及文化的影响不容忽视。
n
newcomerST
我也看到这些

连集体作业都推出去,自己准备自己的考试

锦衣卫
没错,这种大环境下看最适合亚裔娃的还是加州和纽约这种对外包容性强移民多的地方比较好

小中女还好,小中男受到的“压制”更为明显。

锦衣卫
和老中一代一样,单个拉出来都是龙,但在一起都是虫

缺乏合作和协同能力

白色非色
这里太多没见过世面的人了,都懒得说了
翩翩~~
请问在哪里看NPR?
桂花
就像你说的,家长从小就管太多了。

你没看见这里的家长经常问孩子应该选什么课,什么时候上什么AP,什么时候去什么camp。这些难道不是孩子自己应该去研究决定的事情?我认识的很多家长不管孩子有没有兴趣愿不愿意把各项活动都安排好了,每天带着孩子像陀螺一样转。孩子习惯了被别人控制没了自己的想法一辈子只能听话了。

我们养孩子不太一样,只要孩子想做的在经济条件允许的范围内都由着孩子做。孩子不愿意做的也不逼着他们做。两个孩子申请学校我连parent portal 一次都没进去过。孩子从上小学起一直自己做决定,我们只control他们怎么做人。女儿从七年级开始每年暑假的intern都是自己找的。七年级时想去Laws Firm做,她就自己找到local 黄页,一个一个Law Firm 打电话,最后有个Lawyer被她感动,让她去做了intern。

女儿大三实习进了IB。IB的大头分别和intern吃Lunch。他认识了女儿·后就非常喜欢女儿,后来连HR都非常喜欢女儿。女儿大四时公司有事HR就会联系女儿,有时候HR让女儿做的事还要请示大头特批。现在女儿工作了,他们firm最近要到各个大学recruit。这是人人想去的差使,HR特指女儿必须去。女儿特别不好意思,因为她去了有人就去不成了。

女儿不是个特别爱学习的孩子,也没能上成特别好的学校。但我觉得老天特别顾及她,不少看上去她得不到的机会她都拿到了。我把这一切归结于从小自主的原因。女儿的Roomate的爸爸,NY大Law Firm的partner和我说,他特别高兴他女儿有我女儿这样一个朋友,因为我女儿做事果断利落和他女儿优柔寡断正好相反。

我们一直有感觉,美国人好像从来没把我女儿当做Chinese来看待过,她比她周围不少的白孩子得到的机会还多。我认为少推可能孩子上不了特别好的学校,但少推一定也有少推的好处。

V
Vaillan
机器学习原来这么有趣!第五章:Google 翻译背后的黑科技:神经网络和序列到序列学习

机器学习原来这么有趣!第五章:Google 翻译背后的黑科技:神经网络和序列到序列学习 九五要当学霸 数学/计算机/足球裁判 138 人赞同了该文章

作者:Adam Geitgey

原文:https://medium.com/@ageitgey/machine-learning-is-fun-part-5-language-translation-with-deep-learning-and-the-magic-of-sequences-2ace0acca0aa#.223irmdz0

译者:巡洋舰科技——赵 95

校对:离线Offline——林沁

转载请联系译者。

我们都知道 Google 翻译,也都喜欢用它。这个网站可以魔术般瞬时翻译 100 种不同的人类语言。它甚至存在于我们的手机和智能手表上(如图)。

Google 翻译背后的技术被称为机器翻译。它改变了世界,让本来根本不可能相互交流的人能彼此沟通。

但我们都知道,在过去的 15 年里,高中生们也开始用 Google 翻译……呃 ……协助他们完成西班牙语作业。这已经不是新闻了……?

 

事实证明,在过去两年,深度学习已经完全改写了我们的机器翻译方法。那些对语言翻译一无所知的深度学习研究人员正在利用一个个相对简单的机器学习解决方案,来打败世界上最好的专家建造的语言翻译系统。

 

这一突破背后的技术被称为序列到序列学习(sequence to sequence learning)。这是一项非常强大的技术,能解决许多种类的问题。在我们看到它如何被用于翻译之后,我们还将学习这个算法是怎样用来编写 AI 聊天机器人和描述图片的。

我们开始吧!

让计算机翻译

那么我们该如何编写代码,才能让计算机翻译人类的语言呢?

最简单的方法,就是把句子中的每个单词,都替换成翻译后的目标语言单词。这里有一个简单的例子,把西班牙语逐字翻译成英语:

 

我们只是用匹配的英语单词替换每个西班牙单词。

 

这很容易实现,因为你所需要是一本字典来查找每个单词的翻译。但结果并不好,因为它忽略了语法和上下文的联系。

因此,下一件你可能要做的事,就是开始添加特定语言规则以改进结果。例如,你可能将两个常用词翻译为词组。你可能互换名词和形容词的顺序,因为他们在西班牙语中以相反的顺序出现:

 

这真的有效!如果我们继续添加更多的规则,直到我们可以应对每一部分语法,我们的程序应该就能够翻译任何句子了,对吧?

 

这就是最早的机器翻译系统的工作原理。语言学家提出了许多复杂的规则,并逐一编程实现。一些世界上最聪明的语言学家在冷战期间辛勤努力了多年,才创建出了一些翻译系统来理解俄罗斯人之间的交流。

不幸的是,这种套路只对简单问题适用,比如说像天气预报这样结构简单的文档。它对于真实世界的文字来说并不可靠。

问题是,人类语言并不总是遵循固定的规则。人类语言充满了各种特殊情况,区域之间表达也有差异,或者有人干脆就不按套路出牌。我们今天的英语语法,更多是受数百年前侵略者的影响形成的,而不是由某个人坐下来制定的。

利用统计数据使计算机更好地翻译

在基于规则的系统失效之后,研究者基于概率和统计的模型而不是语法规则,开发出了一些新的翻译方法。

建造一个基于统计数据的翻译系统需要大量的训练数据,其中完全相同的文本被翻译成至少两种语言。这种双重翻译的文本称为平行语料库(parallel corpora)。18 世纪的科学家以同样的方式在罗塞塔石碑上面从希腊语中解读出埃及象形文字的意义[1]。以同样的方式,计算机可以使用平行语料库猜测如何将文本从一种语言转换为另一种语言。

幸运的是,已经有许多文本被同时翻译为两种语言。例如,欧洲议会将其诉讼程序翻译成了 21 种语言。因此,研究人员经常使用这些数据来帮助建造翻译系统。

 

训练数据通常令人兴奋!但这只是无数条干巴巴的政府文件而已……

 

用概率的思维思考

统计翻译系统的根本不同,在于它们试图生成的翻译不止一种。相反,它们会生成成千上万种可能的翻译,然后按照正确率给这些翻译排序。它的正确程度是由与训练数据的相似程度决定的。以下是它的工作原理:

第一步:将原始句子分成块

首先,我们将我们的句子分成简单的块,每一块都可以轻松翻译:

 

第二步:找到每一块的所有可能的翻译

 

接下来,通过寻找数据库中所有人类翻译过的相同词块,我们把每个词块可能的译法都列出来。

要着重注意的是,我们不只是在一本简简单单的翻译字典中查找这些词块。相反,我们看到的是真实的人如何在真实的句子中把这些词块翻译出来。这有助于我们捕获到词块在不同语境中所有不同的表达方式:

 

即使最常见的短语也有很多种可能的译法。

 

这些可能的翻译中,有些译法出现的频率可能会远高于其他译法。根据每种译法出现的频率,我们可以给它们设定一个分数。

例如,「Quiero」更多的时候是指「我想要」(I want)而不是「我试着」(I try)。所以,根据 「Quiero」在训练数据中被翻成「我想要」的频率,我们可以给「我想要」这个译法更多的权重。

第三步:生成所有可能的句子,找到最有可能的那句

接下来,把这些词块每种可能的译法组合起来,我们可以生成一堆可能的句子。

仅仅把第二步中我们列出的词块译法组合起来,我们就可以生成将近 2500 句不同的句子。下面是一些例子:

 
I love | to leave | at | the seaside | more tidy.
I mean | to be on | to | the open space | most lovely.
I like | to be |on | per the seaside | more lovely.
I mean | to go | to | the open space | most tidy.
 

但在真实世界的系统中,因为有不同的语序和词块分解方法,所以实际上有更多可能的词块组合:

 

I try | to run | at | the prettiest | open space.

I want | to run | per | the more tidy | open space.

I mean | to forget | at | the tidiest | beach.

I try | to go | per | the more tidy | seaside.

 

现在我们需要扫描所有这些生成的句子,找到那句听起来「最像人话」的句子。

为此,我们将每个生成的句子与来自英语书籍和新闻故事的数百万个真实句子进行比较。我们拥有的英语文本越多越好。

我们可能会得到这种翻译:

 
I try | to leave | per | the most lovely | open space.
 

很可能没有人用英语写过这样的句子,所以我们的数据库中,应该没有和它非常相似的句子。我们会给这个可能的译法设定一个低概率的得分。

但看看下面这个可能的翻译:

 
I want | to go | to | the prettiest | beach.
 

这个句子和我们的训练集中的句子很类似,所以它将获得一个高概率的得分。

在尝试过所有可能的句子之后,我们会选择那个既包含了最有可能的词块译法,又与真实英语表达最相似的句子。

我们最后的翻译将是「I want | to go | to | the prettiest | beach.」不错!

有里程碑意义的统计机器翻译

当有足够多的训练数据的时候,统计机器翻译系统的性能要优于基于语言规则的系统。弗伦茨·约瑟夫·奥赫(Franz Josef Och)基于这些想法并做出了改进,并在 21 世纪初使用它们构建了 Google 翻译。机器翻译终于可以被全世界使用。

早期的时候,基于概率翻译的「愚蠢」方法居然比语言学家设计规则系统做得更好,这让每个人都感到惊讶。这导致了八十年代的时候,研究人员会(有点刻薄地)说:

 
「每当我炒了一个语言学家鱿鱼的时候,我的翻译准确度就会上升。」——弗雷德里克·耶里内克(Frederick Jelinek)
 

统计机器翻译的局限性

虽然统计机器翻译系统效果还不错,但是它们难于构建和维护。每一对需要翻译的新语言,都需要专业人士对一个全新的多步骤翻译流水线进行调试和修整。

因为构建这些不同的流水线需要做太多工作,所以我们必须进行权衡。如果你要用 Google 翻译把格鲁吉亚语翻译成泰卢固语(印度东部德拉维拉语言),那么作为一个中间步骤,它必须先翻译成英语。因为没有太多格鲁吉亚到泰卢固语的翻译需求,所以在这一对语言上投入太多并没有太大意义。相比于英语翻译到法语,它可能会使用一个更低级的翻译流水线。

如果我们能让计算机为我们做所有令人讨厌的开发工作,这不更好么?

让电脑翻译得更好——无需昂贵的专家们

机器翻译的核心是一个黑盒系统,它通过查看训练数据,自己就可以学习如何翻译。使用统计机器翻译,人们仍然需要建立和调整多步骤的统计模型。

2014 年,KyungHyun Cho 的团队取得了突破。他们发现了一种应用深度学习来构建这种黑盒系统的方法。他们的深度学习模型采用了平行语料库,并使用这个语料库让机器在无任何人为干预的情况下来学习如何在这两种语言之间进行翻译。

两个宏伟的方法使这成为可能——循环神经网络和编码。通过巧妙地结合这两个想法,我们可以建立一个能够自学的翻译系统。

循环神经网络

我们已经在第二章讨论过了循环神经网络,让我们快速回顾一下。

一个常规(非循环)神经网络是一个泛型机器学习算法——接收一序列数字,并(基于先前的训练)计算出结果。神经网络可以被看作一个能解决很多问题的黑盒子。例如,我们可以基于房子的属性,使用神经网络来计算房屋的近似价格:

 

但是像大多数机器学习算法一样,神经网络是无状态的(stateless)。你输入一序列数字,神经网络计算并输出结果。如果再次输入相同的数字,它总是计算出相同的结果。它没有进行过的计算的记忆。换句话说,2 + 2 总是等于4。

 

一个循环神经网络(Recurrent Neural Network 或简称 RNN)是一个稍微改进过的神经网络的版本,区别是 RNN 先前的状态是可以被当做输入,再次带入到下一次计算中去。这意味着之前的计算结果会更改未来计算的结果!

 

人类痛恨他:一个黑科技就让机器变得更聪明!

 

我们为什么要这样做?无论我们上次计算结果是什么,2 + 2 不应该总是等于 4 么?

这个技巧允许神经网络学习一系列数据中的规律。例如,基于句子的前几个词,你可以使用它来预测句子中下一个最有可能的单词是什么:

 

实现智能手机输入法的「自动更正」的方法之一

 

当你想要学习数据中的规律时,RNN 将会非常有用。因为人类语言其实只是一个大而复杂的「规律」,在自然语言处理的许多领域中,RNN 正在被更广泛地使用。

如果你想了解更多关于 RNN 的事情,你可以阅读第二章。我们使用了 RNN 生成了一本海明威写作风格的假书,然后使用同一个 RNN 生成了超级马里奥兄弟的游戏关卡。

编码

我们需要回顾的另一个想法是编码(Encoding)。在第四章中作为脸部识别的一部分,我们谈到了编码。为了解释编码,让我们稍作调整,了解一下如何用电脑区分两个人。

当你试图用电脑区分两张脸时,你先从每张脸收集不同的测量值,然后与其他面孔的测量值比较。例如,我们可以测量耳朵的大小或两眼间的间距,比较两个图片的测量值以确定他们是否是同一个人。

通过热门影视剧《犯罪现场调查》,你可能已经对这个想法耳熟能详了

把面部特征转换为一系列测量值的想法就是编码的例子之一。我们获取到原始数据(面部图片),并将其转换为了代表这张脸的一系列测量值(编码)。

但是像我们在第四章中看到的,我们不必自己提出一个具体的面部特征列表来一项一项测量。相反,我们可以使用神经网络,让它自动从面部生成测量值。找出哪些测量值能够区分两个相似的人,计算机在这方面比我们做得更好:

 

这些是由神经网络产生的面部特征测量值,训练后的该神经网络可以保证不同的数字代表了不同人的面部。

 

这是我们的编码。它让我们用简单的东西(128 个数字)代表非常复杂的东西(一张脸的图片)。现在比较两张脸更加容易了,因为我们只需要比较这 128 个数字而不是比较整张脸的图像。

你猜怎么着?我们可以用句子做同样的事情!我们可以把任何一个句子表达成一系列独特的编码:

 

这一序列数字代表的是英语句子「有趣的机器学习!」。不同的句子将由不同的数字集表示。

 

为了生成这个编码,我们将句子输入到 RNN 中,一次一个词。最后一个词处理之后的最终结果,就将是表示整个句子的数值:

 

因为 RNN 具有记忆功能,能够记住处理过的每个词,所以它计算的最终编码表示句子中的所有词。

棒极了,所以现在我们有一种方法来把一个整个句子表示成一组独特的数字!虽然我们不知道编码中的每个数字是什么意思,但这并不重要。只要每一句话都能由一组独特的数字标识出来,那么我们就不需要准确地知道这些数字是如何生成的。

让我们开始翻译吧!

好的,所以我们知道怎样使用 RNN 去给一句话编码,并生成一组独特的数字了。它有什么用呢?事情从这儿开始变得酷炫了!

如果我们使用两个 RNN 并将它们首尾相连呢?第一个 RNN 可以给句子生成编码。然后,第二 RNN 遵循相反的逻辑,解码得到原始句子:

当然,编码然后再解码并得到原始语句并没有太大用处。但是如果(这里是问题的关键),我们训练第二个 RNN,使它解码成西班牙语而不是英语,这会怎样?我们可以使用平行语料库训练数据来训练它:

 

就像这样,我们有一个通用的方法,将一序列英语单词转换成同样的西班牙语单词序列!

 

这是一个强有力的想法:

· 这种方法主要受限于你拥有的训练数据量和你可以投入的计算机生产力。机器学习研究人员仅仅在两年前发明了这个方法,但它已经表现得和统计机器翻译系统一样好了,而后者花了 20 年时间才开发完善。

· 这不依赖于任何关于人类语言规则的了解。算法自己计算出这些规则。这意味着你不需要专业人士来调整翻译流水线的各个步骤,计算机为你把这个做好了。

· 这种方法适用于几乎任何种类的序列到序列(sequence-to-sequence)问题!而且事实证明,许多有趣的问题实际上都是序列到序列的问题。继续阅读,了解其他你可以做的酷炫的事!

注意,我们忽略了一些处理真实数据时会碰到的问题。例如,如何处理不同长度的输入和输出?这还需要一些额外的工作(请参见 bucketing 和 padding)。非常用词翻译也是一个问题。

构建你自己的序列到序列翻译系统

如果你想建立自己的语言翻译系统,这儿有一个包括可以在英语和法语之间翻译的 TensorFlow demo。然而,这并不是给怕麻烦或预算有限的人准备的。这仍然是一项新技术,并且很吃资源。即使你有一台带有高级显卡的高级电脑,可能也需要连续一个月的时间来训练你自己的语言翻译系统。

此外,序列到序列语言翻译技术正在及快速地改进,以至于我们难以跟上最新技术。许多最近的改进(如添加注意机制语境追踪)显著改善了翻译结果,但这些发展太过前沿,以至于它们甚至还没有维基百科页面。如果你想认真研究序列到序列学习,你必须随时跟进最新的技术发展。

序列到序列模型的无穷力量

那么,我们还能用序列到序列模型做什么呢?

大约一年前,Google 的研究人员表示,你可以使用序列到序列模型来建造 AI 机器人。这个想法是如此简单,并且令人震惊的是,它真的有效。

首先,他们获取了一些 Google 员工和 Google 技术支持小组之间的聊天记录。然后他们训练了序列到序列模型,其中输入的句子就是员工的问题,而技术支持团队的回复是该句子的「翻译」。

 

当用户与机器人进行交互时,他们将使用该系统「翻译」每个用户的消息以获得机器人的响应。

 

他们最终得到的是一个半智能机器人,(有时)可以回答真正的技术支持问题。下面是一部分用户和机器人之间的对话示例,截取自他们的论文

 

人:连接被拒绝或类似的东西

机器:我可以知道你连接的网络连接的版本吗?

人:我不确定我知不知道

机器:是网络连接提示任何用户证书?

人类:是的

机器:你现在在家还是在工作?办公室?

人:我在家

机器:试试这个。 去这个页面 <URL已省略>,然后输入您的姓名和密码

人类:完成

机器:尝试使用<用户名已省略>登录,然后检查其是否正常工作

人类:是的,现在正常了!

机器:棒极了。还有什么我可以帮助你的?

 

他们还试图建立一个基于数百万部电影字幕的聊天机器人。他们的想法是,使用电影角色之间的对话作为一种训练机器人像人一样说话的方式。输入句子是一名角色的一句话,「翻译」是另一名角色的回复:

 

他们得到了很有意思的结果。机器人不仅仅像一个人,更是显示出了一点点智能化:

 

 

人类:我的名字是大卫。我的名字是什么?

机器:大卫。

人:我的名字是约翰。我的名字是什么?

机器:约翰。

人类:你是领导者还是追随者?

机器:我是领导者。

人类:你是追随者还是领导者?

机器:我是领导者。

 

这只是可能性的开始。我们不局限于句子之间的转换。同样,我们制作一个图像到序列的模型,它可以将图像转换为文本!

Google 的另一个团队通过将第一个 RNN 替换为卷积神经网络(如我们在第三章中所了解的那样)。这允许输入是图片而不是句子,其余的工作基本相同:

 

就像这样,(只要我们有很多很多的训练数据)我们就可以把图片变成单词!

 

安德烈·卡帕西把这个想法进行了拓展,构建了一个通过分别处理图像的多个区域,来详细描述图像的系统:

图片来自安德烈·卡帕西这篇论文

这个想法使得我们可以构建一个,能够按照奇怪的要求找到特定图片的图片搜索引擎

 

例子来自 image sentence ranking visualize

甚至有研究人员正在研究相反的问题,仅仅基于文本描述生成一个完整的图片!

从这些例子,你可以开始想象各种可能性。 到目前为止,序列到序列已经应用在从语音识别到计算机视觉各个领域。 我猜,明年会有更多的应用。

如果您想更深入地了解序列到序列模型和翻译,以下是一些推荐的资源:

Richard Socher’s CS224D Lecture— Fancy Recurrent Neural Networks for Machine Translation(视频) Thang Luong’s CS224D Lecture — Neural Machine Transation (PDF) TensorFlow’s description of Seq2Seq modeling The Deep Learning Book’s chapter on Sequence to Sequence Learning(PDF)  

1. 译者注:罗塞塔石碑,高 1.14 米,宽 0.73 米,制作于公元前 196年,刻有古埃及国王托勒密五世登基的诏书。石碑上用希腊文字古埃及文字和当时的通俗体文字刻了同样的内容,这使得近代的考古学家得以有机会对照各语言版本的内容后,解读出已经失传千余年的埃及象形文之意义与结构,而成为今日研究古埃及历史的重要里程碑。

编辑于 2017-02-03
淡泊远志
一看也是个乖孩子,还在听和相信这个 :D

以为自己有限的经历放之四海而皆准 

n
newcomerST
女儿性格一定很好,祝福她越走越好!

可以讲讲你觉得为什么美国人没把她当Chinese看吗?

善民
无论华人如何聪明勤奋,但欧美白人社会对华人的偏见歧视顽固不化的刻板形象,导致华人出人头地的机会极微,除非自己创业开公司,否则英雄
h
haoren3
印度裔已经突破了bamboo ceiling。 所以小中是有希望的,应该多学学烙印好的地方,适者生存,不要老是贬低烙印。

印度裔已经突破了bamboo ceiling。 所以小中是有希望的,应该多学学烙印好的地方,适者生存,不要老是贬低烙印。

桂花
就像楼主讲的,

 

外国人看ABC总是觉得ABC只会读书,而他们的实际的工作能力和领导能力并不受青睐。而我女儿得到很多机会的原因是因为她会做实事。需要应变能力的事情交到她手里让人放心。我觉得如果别人把她只当成stereotypical 只会读书没有initiative的小中女的话,她应该不会拿到这么多的机会。