回复 1楼microsat的帖子 可以。。。autoencoder,但这种embedding的结果最好在最终train的过程中也做一些fine tune,否则pre-trained autoencoder会有implicit bias。。。 我再补充一下,省得楼里某位高人nitpick。你可以直接接一个embedding layer和downstream task一起train,但如果data比较少的话,用autoencoder做一个warm up然后再和downstream task一起train可以有些帮助。当然,ML的training是个“黑盒”,有很多不确定因素,因此具体的帮助是多少,试过才知道。 另外,如果只是针对zipcode这个具体的feature,那我个人觉得用位置坐标和其他feature(income,etc。)可能会比把zipcode当作categorical data来处理更好。 补充2: autoencoder是一个unsupervised的方法,能够做embedding。关于利用unsupervised的方法进行pre-training embedding来提升downstream task性能的论文非常多,例如这片著名的paper: “Why Does Unsupervised Pre-training Help Deep Learning? ” https://www.jmlr.org/papers/volume11/erhan10a/erhan10a.pdf “The best results obtained on supervised learning tasks involve an unsupervised learning component, usually in an unsupervised pre-training phase.” “This unsupervised pre-training sets the stage for a final training phase where the deep architecture is fine-tuned with respect to a supervised training criterion with gradient-based optimization.” 奉劝某位高人,不要以为自己用的方法就是天下第一golden standard。同时欢迎那位高人来进行学术探讨,而不是人身攻击。如果高人能够用严肃的态度来批判这些论文,我同样洗耳恭听。
回复 11楼coconutjuice的帖子 你可以直面回答问题吗?10k的zipcode,你要直接做一个embedding layer,你告诉我input dimension是多大的。embedding layer当然可以直接和task一起train,但对于10k zipcode这种场景,我认为可以pretrain一个 embedding,然后和task一起fine tune,有什么问题吗?(另外,你的回帖恰恰描述了你自己“不懂embedding和encoding”,虽然我不想给你扣帽子,但我觉得你真的就是bootcamp出来的。。。) “A hidden layer of an autoencoder is obviously a vector, so it’s an embedding. In addition, it contains information about reproducing the original object, but stored in a compact way.” https://www.quora.com/What-is-the-difference-between-an-embedding-and-the-hidden-layer-of-an-autoencoder
回复 11楼coconutjuice的帖子 你可以直面回答问题吗?10k的zipcode,你要直接做一个embedding layer,你告诉我input dimension是多大的。embedding layer当然可以直接和task一起train,但对于10k zipcode这种场景,我认为可以pretrain一个 embedding,然后和task一起fine tune,有什么问题吗?(另外,你的回帖恰恰描述了你自己“不懂embedding和encoding”,虽然我不想给你扣帽子,但我觉得你真的就是bootcamp出来的。。。) “A hidden layer of an autoencoder is obviously a vector, so it’s an embedding. In addition, it contains information about reproducing the original object, but stored in a compact way.” https://www.quora.com/What-is-the-difference-between-an-embedding-and-the-hidden-layer-of-an-autoencoder maifangzi2017 发表于 2022-11-11 13:32
回复 21楼coconutjuice的帖子 另外,你要非纠结于“embedding”和“encoding”的关系,我随便给你发一个链接,你去学习一下下次别出来丢人现眼: https://ai.stackexchange.com/questions/31632/can-i-always-use-encoding-and-embedding-interchangeably#:~:text=Encoding%20is%20related%20to%20decoding,category%2C%20e.g.%20differential%20manifolds). “Embeddings are encodings where the intention is to preserve semantics. ” 声明:这不是我的个人观点,省着你这个杠精有开始nitpick
回复 25楼coconutjuice的帖子 呵呵,你一会攻击我不懂这个,不懂那个,反正你就是不说你懂的。。。板上做ML的大牛大有人在,你说说你怎么做10k个categorical variable的embedding好了。你要是不说的话,也没什么可讨论的了,技术问题不说技术,跟这七扯八扯。。。真够无聊的。 另外,我正面回应你的问题“只是一个embedding需要autoencoder?”。in general,当然不是“必须”的,可以直接加一个layer来和task一起train,尤其在categorical data种类不多的时候;当categorical data种类很多的时候,用autoencoder没问题,autoencoder里面的前一部分hidden layer本身就是embedding,用autoencoder对embedding做一下pre-train,之后再和task一起fine tune to suit the need of the downstream task,完全没有问题,也很常规,尤其在training data不足的情况下。如果再具体到zipcode这个问题,如果让我做,我都不会对zipcode做embedding,而是会换其他的feature。 呵呵,敢请bootcamper大牛来讲讲您的高见。
回复 21楼coconutjuice的帖子 另外,你要非纠结于“embedding”和“encoding”的关系,我随便给你发一个链接,你去学习一下下次别出来丢人现眼: https://ai.stackexchange.com/questions/31632/can-i-always-use-encoding-and-embedding-interchangeably#:~:text=Encoding%20is%20related%20to%20decoding,category%2C%20e.g.%20differential%20manifolds). “Embeddings are encodings where the intention is to preserve semantics. ” 声明:这不是我的个人观点,省着你这个杠精有开始nitpick maifangzi2017 发表于 2022-11-11 13:57
你别贴这些了 越贴我越觉得我是在对牛弹琴 你贴的的Embeddings are encodings where the intention is to preserve semantics. 你这里的embedding 和encoding对应的不是模型中operations 我问你的embedding和encoding的区别 , 我指的embedding 和encoding 是对应的operations, 是有特定的含义的 简单的说 embedding 可以被训练 缺点来一个新的vocab 新的就是没学过的 encoding 是无需被训练的, 好处是 新的vocab也能马上就有encoding 以上是transformer 中文字输入的最basic的概念 transformer对文字用的是encoding 而不是embedding
回复 25楼coconutjuice的帖子 呵呵,你一会攻击我不懂这个,不懂那个,反正你就是不说你懂的。。。板上做ML的大牛大有人在,你说说你怎么做10k个categorical variable的embedding好了。你要是不说的话,也没什么可讨论的了,技术问题不说技术,跟这七扯八扯。。。真够无聊的。 另外,我正面回应你的问题“只是一个embedding需要autoencoder?”。in general,当然不是“必须”的,可以直接加一个layer来和task一起train,尤其在categorical data种类不多的时候;当categorical data种类很多的时候,用autoencoder没问题,autoencoder里面的前一部分hidden layer本身就是embedding,用autoencoder对embedding做一下pre-train,之后再和task一起fine tune to suit the need of the downstream task,完全没有问题,也很常规,尤其在training data不足的情况下。如果再具体到zipcode这个问题,如果让我做,我都不会对zipcode做embedding,而是会换其他的feature。 呵呵,敢请bootcamper大牛来讲讲您的高见。 maifangzi2017 发表于 2022-11-11 14:07
10k个怎么做我不是一开始就说了 你去翻一下 你是没看见吗 还是没看懂? 我一开始回答楼主了 用一个look up table , 可以训练
回复 21楼coconutjuice的帖子 查了一下 autoencoder is a special case of the encoder-decoder model, in which the input and output are the same. 抱歉打断你们 请继续 kats 发表于 2022-11-11 13:55
回复 61楼bubikeqi的帖子 我觉得读过phd的人应该都清楚,可以被人指出technical错误,但如果被人攻击说“你根本不懂xxx”(尤其是自己工作的相关领域),应该是很大的侮辱。。。如果楼里某位高人真是NeurIPS best paper 10连冠,外加图灵诺贝尔麦克阿瑟之类的,那被说”你根本不懂xxx”我也认了。。。
回复 61楼bubikeqi的帖子 我觉得读过phd的人应该都清楚,可以被人指出technical错误,但如果被人攻击说“你根本不懂xxx”(尤其是自己工作的相关领域),应该是很大的侮辱。。。如果楼里某位高人真是NeurIPS best paper 10连冠,外加图灵诺贝尔麦克阿瑟之类的,那被说”你根本不懂xxx”我也认了。。。 maifangzi2017 发表于 2022-11-11 15:53
回复 61楼bubikeqi的帖子 我觉得读过phd的人应该都清楚,可以被人指出technical错误,但如果被人攻击说“你根本不懂xxx”(尤其是自己工作的相关领域),应该是很大的侮辱。。。如果楼里某位高人真是NeurIPS best paper 10连冠,外加图灵诺贝尔麦克阿瑟之类的,那被说”你根本不懂xxx”我也认了。。。 maifangzi2017 发表于 2022-11-11 15:53
回复 65楼shanggj的帖子 呵呵,好吧。。因为现实中,没人说“你根本不懂xxx(=你就是xyz)”。。。指出technical 问题有什么问题吗?和导师讨论经常会被指出里面的问题,但也没被说“你根本不懂xxx”;写完的paper draft被指出很多问题,但导师也没说“你根本不会写英文”啊。 DL领域,一些之前的分析现在都被否定了。。所有的论文都会在related works里讨论别人paper的不足(甚至有时候一些错误),但我从来没读过一片paper的related works说“the authors of xxx paper don‘t under xyz (the problem)"来评价别人的工作的。 某位高人不指出不足也不指出错误,直接来说你根本不懂。。。
有人建议用embedding。
请问在测试集中,房价未知的情况下,这种embedding的转换还可以进行吗?
embedding 要pre-train的, 要用到邮编对应的坐标, 坐标附近房价历史数据吗
可以。。。autoencoder,但这种embedding的结果最好在最终train的过程中也做一些fine tune,否则pre-trained autoencoder会有implicit bias。。。
我再补充一下,省得楼里某位高人nitpick。你可以直接接一个embedding layer和downstream task一起train,但如果data比较少的话,用autoencoder做一个warm up然后再和downstream task一起train可以有些帮助。当然,ML的training是个“黑盒”,有很多不确定因素,因此具体的帮助是多少,试过才知道。
另外,如果只是针对zipcode这个具体的feature,那我个人觉得用位置坐标和其他feature(income,etc。)可能会比把zipcode当作categorical data来处理更好。
补充2: autoencoder是一个unsupervised的方法,能够做embedding。关于利用unsupervised的方法进行pre-training embedding来提升downstream task性能的论文非常多,例如这片著名的paper: “Why Does Unsupervised Pre-training Help Deep Learning? ” https://www.jmlr.org/papers/volume11/erhan10a/erhan10a.pdf
“The best results obtained on supervised learning tasks involve an unsupervised learning component, usually in an unsupervised pre-training phase.” “This unsupervised pre-training sets the stage for a final training phase where the deep architecture is fine-tuned with respect to a supervised training criterion with gradient-based optimization.”
奉劝某位高人,不要以为自己用的方法就是天下第一golden standard。同时欢迎那位高人来进行学术探讨,而不是人身攻击。如果高人能够用严肃的态度来批判这些论文,我同样洗耳恭听。
只是一个embedding 要autoencoder?...........
那你跟我说怎么embedding。。。?你不会跟我说是 one-hot encoding吧。。。
额 你可能不懂基本的embedding的定义
或者说 你也不懂encoding和embedding 的区别
embedding的look up table是trainable的
呵呵,随你便。
假设我们有10k个不同的zipcode,你加一个embedding layer,那你跟我说说这个“embedding layer”的input dimension是多大的,然后你怎么去train这个embedding layer的weights?直接和其他layer一起train吗?你知道这个embedding layer会有多大吗?
我当然没说直接就用autoencoder的结果,我建议lz用autoencoder先pretrain一个embedding layer,然后在training中根据数据集去fine tune。。
你不要随便扣帽子。去看我后面的帖子,再来严肃讨论。
你问的这几个问题恰好说明你完全不懂embedding, embedding layer 的weights当然是可以训练的 并且 input dimension 多大都已经有不少论文了. 至于你这些都不懂 硬要说auto encoder做embedding 那就随你便
那你说说embedding和encoding的区别?? 你是怎么想到把one hot encoding跟embedding扯到一起的呢
你可以直面回答问题吗?10k的zipcode,你要直接做一个embedding layer,你告诉我input dimension是多大的。embedding layer当然可以直接和task一起train,但对于10k zipcode这种场景,我认为可以pretrain一个 embedding,然后和task一起fine tune,有什么问题吗?(另外,你的回帖恰恰描述了你自己“不懂embedding和encoding”,虽然我不想给你扣帽子,但我觉得你真的就是bootcamp出来的。。。)
“A hidden layer of an autoencoder is obviously a vector, so it’s an embedding. In addition, it contains information about reproducing the original object, but stored in a compact way.” https://www.quora.com/What-is-the-difference-between-an-embedding-and-the-hidden-layer-of-an-autoencoder
你不懂怎么做一个embedding layer 多大embedding size 怎么训练 是不是和其他layer一起训练 那是你的问题啊 我有义务回答你吗
你随便找一个做nlp的 或者做推荐/搜索/广告的算法工程师, bootcamp出来的也行 工作多年的也行 哦 没毕业的学生我觉得也行 你问问他们一个zip code 的encoding是不是要用的auto encoder
好吧,我有闲给你讲一下,就不收你学费了。
我们有10k个categorical variable。假设我们用one-hot encoding,那么input dimension需要10k,连接 "embedding layer(s)",输出m-by-1 vector就是“embedding”的结果,这个m-by-1 vector是后面layer的input来做training。这个embedding layer可以用autoencoder先做一个pretraining,之后做fine tune,会比直接和task一起train好一些,尤其是在数据量有限的情况下。
不知道,你的资质是否能理解这些最basic的概念。
你讲的牛头不对马嘴 都没弄清楚encoding 和embedding的区别 建议直接删除 要不然丢人
呵呵,你是不是认为只有加一个“layer”和其他的layer一起train,才叫“embedding layer”?autoencoder里面的layer显然是embedding layer,这个还需要解释吗?你自己不懂就不要乱来好吗。。。你自己对embedding layer的理解太狭隘了。
呵呵,你从来没有正面回答过任何technical 问题,总是在扣帽子。。。你说我混淆视听,你来讲讲你怎么做吧。。。10k个xxx的cateogrical variable是原始input (我们不限于zipcode,就假设某个categorical data),接下来你讲讲吧,你不是给我讲,而是给lz和其他人讲,好吧。
我没说autoencoder 出来的不是embedding啊 我说的是一个邮编的embedding不需要auto encoder, 句号 你好像中文也不行
呵呵,你又开始胡搅蛮缠了,你开始可是说说我不懂encoding, embedding什么的。。。
zipcode当然不需要这么复杂的embedding,我只是按照lz描述的要把“categorical data”进行“embedding”来说而已。。。如果真让我做的话,zipcode直接按照地理坐标中心点再加一些其他feature(例如income什么的)完全比用zipcode的embedding要好。。。
行了,你可以给大家讲讲你的高见,如何处理10k个cateogrical data(不限于zipcode),然后用你的“embedding”吗?我很好奇bootcamp教出来是什么水平。
你不要讲了 你基础定义都不懂 我没给你扣帽子吧 你把embedding 和encoding混为一谈的是fact 白纸黑字啊 还要说啥呢
不要再拉着我讲什么embedding 怎么训练了, 你不懂是你的事 我没义务跟你讲
谁混为一谈了?你不会看到autoencoder+embedding就认为encoding就是embedding吧?呃,对了,你一开始还否认autoencoder里的hidden layer是embedding呢。。。我拿出一些链接,你才改口,呵呵。
还是那句话,你自己有高见可以说啊,反正这是technical 问题。。。你自己毛也不懂跟这胡搅蛮缠,一会说什么什么paper,一会说什么自己当时说的只限于zipcode。。。反正就是不回答技术问题。其他人都在看,高下立现。
查了一下 autoencoder is a special case of the encoder-decoder model, in which the input and output are the same.
抱歉打断你们 请继续
另外,你要非纠结于“embedding”和“encoding”的关系,我随便给你发一个链接,你去学习一下下次别出来丢人现眼: https://ai.stackexchange.com/questions/31632/can-i-always-use-encoding-and-embedding-interchangeably#:~:text=Encoding%20is%20related%20to%20decoding,category%2C%20e.g.%20differential%20manifolds).
“Embeddings are encodings where the intention is to preserve semantics. ”
声明:这不是我的个人观点,省着你这个杠精有开始nitpick
我改口???我需要改什么? 我第一句话 说的是 只是一个embedding 要autoencoder?........... 这句话有否认auto encoder出来的不是embedding 吗. auto encoder 一边用来做图像的embedding 在无label的情况下是比较合理的 但是邮箱的embedding不需要auto encoder
小声个外行感想: zip 这东西临近的有关联,一个2D to 1D mapping 肯定失去些全局信息, 但locally就当整数数字应该也没差。还是学习下神仙的解法吧。
呵呵,你一会攻击我不懂这个,不懂那个,反正你就是不说你懂的。。。板上做ML的大牛大有人在,你说说你怎么做10k个categorical variable的embedding好了。你要是不说的话,也没什么可讨论的了,技术问题不说技术,跟这七扯八扯。。。真够无聊的。
另外,我正面回应你的问题“只是一个embedding需要autoencoder?”。in general,当然不是“必须”的,可以直接加一个layer来和task一起train,尤其在categorical data种类不多的时候;当categorical data种类很多的时候,用autoencoder没问题,autoencoder里面的前一部分hidden layer本身就是embedding,用autoencoder对embedding做一下pre-train,之后再和task一起fine tune to suit the need of the downstream task,完全没有问题,也很常规,尤其在training data不足的情况下。如果再具体到zipcode这个问题,如果让我做,我都不会对zipcode做embedding,而是会换其他的feature。
呵呵,敢请bootcamper大牛来讲讲您的高见。
zipcode是categorical的,不是2d。你说的地理坐标是2D,但地理坐标可以直接作为numeric feature作为输入了。
你别贴这些了 越贴我越觉得我是在对牛弹琴
你贴的的Embeddings are encodings where the intention is to preserve semantics. 你这里的embedding 和encoding对应的不是模型中operations
我问你的embedding和encoding的区别 , 我指的embedding 和encoding 是对应的operations, 是有特定的含义的 简单的说 embedding 可以被训练 缺点来一个新的vocab 新的就是没学过的 encoding 是无需被训练的, 好处是 新的vocab也能马上就有encoding 以上是transformer 中文字输入的最basic的概念 transformer对文字用的是encoding 而不是embedding
10k个怎么做我不是一开始就说了 你去翻一下 你是没看见吗 还是没看懂? 我一开始回答楼主了 用一个look up table , 可以训练
呵呵,你现在又开始加什么operation之类的了。。。你要是非要这么较真,那别说,embedding和encoding,哪怕embedding和embedddings都是不一样的,后者多了一个“s“呢。。。
你还是发表一下你对处理10k个categorical data的高见吧,让我们学习学习,也醍醐灌顶一下。
不要什么高见 并且我已经早在第八楼就说了 你可以回去翻 你是完全没看见呢还是完全没看懂呢 还要再怎么说你才明白呢 或者你去问一个做nlp 或者推荐/搜索 的学生 可能只要硕士第一年就知道 都不要到你嘲讽的bootcamp
这个定义没问题 所以适用于没有人工标注的情况下 依然需要学习的时候 一开始也是在cv中先用的
另外不要再胡搅蛮缠了 我已经很耐心的在跟你说embeding和encoding的区别了
所以我的理解autoencoder目的是降维压缩数据, encoder 为的是实现downstream tasks 可能CV 和NLP 领域理解不同, 请你们指教
有人认为embedding和encoding是“完全一样”的吗???in general,这两个当然不是完全一样的。。。我之前表达无非是:autoencoder里虽然learn了一个encoder(你认为的encoding),但它的前一部分trained hidden layer本身就是embedding。。。这有什么错误吗???你自己在胡搅蛮缠,认为只有和downstream task一起train才叫embedding,这要多么狭隘无知自负啊!!
你的理解没问题 auto encoder之前在cv里面确实是一个还可以的用来做图像embedding的模型 但是后来这么多few shot / zero shot learning的方法出来了, 在没有人工标注的情况下 图像的embedding其实有很多方法可以去学了 最近比较火的contrastive learning 和 meta learning 都是最近几年出来的, 发展很快 学的图像的embedding 好坏也是由下游任务的精度来验证的 应该是比auto encoder好不少
回到楼主的问题, 邮编怎么输入到房价预测模型 用auto encoder做邮编的embedding 硬要去做也不是不可以, 但是带来的问题是 1) 最终的下游任务 还是深度学习预测房价, 在这个预测房价的模型里面除了邮编肯定还有其他的categorical的输入, 每个输入的embedding都用一个专门auto encoder来学吗. 岂不是笑话 2)万一 邮编的vocab有变化, 增加几个新邮编的数据点了, 整个auto encoder 需要重新训练吗? 以上两个问题决定了auto encoder 不可以用来做邮编的embedding
所以我跟楼主说的是用一个look up table , weights trainable 即可 这nlp最最基本的做法 也是最容易实现 并且对vocab size scalable的, 也就是说以后多几个邮编 只要学多出来的邮编即可
请你找出来 我说只有和downstream一起train才叫embedding的 原话
如果找不出来 就是你胡搅蛮缠
“autoencoder里虽然learn了一个encoder,但它的前一部分trained hidden layer本身就是embedding”。。。
你指出一下我表达的哪里错误了??一会攻击别人不懂这个不懂那个。。。
你没看到那是个反问的句子吗?我是按照对bootcamper的认知来推测“你在直接用one-hot encoding”来做输入和downstream task直接一起train。。。你要是能够跳出这个认知,那恭喜你,已经进阶到高段位了。你从哪看出来我认为“embedding=encoding”的???
我有说的是你关于auto encoder的表达错误吗?? 你关于auto encoder的所以的表述都没错 但是auto encoder不是楼主的最优解决方案. 楼主在问的是怎么吧邮编输入到房价预测模型 你告诉他auto encoder 可以做邮编embedding? 你这不是坑人吗? 原因我已经说了 你看得懂就看一下吧 我也已经告诉楼主怎么做embedding最合适 你自己看不懂就一直追着我胡搅蛮缠
第五楼 你自己的回复 你问怎么做embedding 不会是one hot encoding吧 如果你觉得这俩不是一回事 你为啥要扯一起?
你用你自己的“推测” 来反问别人 你不懂讨论最重要是实事求是吗?
呵呵,楼主说要做对categorical data进行embedding,我只是提供一个中autoencoder+fine tuning的embedding方案,我没有说它是最优的。相反,我之前也说了,如果只是针对zipcode这个问题,我完全不会把它当作categorical data,而是用其他坐标和其他feature来代表。
你要是觉得你的方案更好,你可以完全进行正常讨论,而不是阴阳怪气跟没吃饱饭似的跟那唧唧歪歪,之后还攻击别人不懂这个不懂那个。
同样的话送给你,你不懂实事求是吗??你从哪看出来我认为“encoding=embedding”了??
encoding和embedding不是一回事,但显然两者是相关的。。。embedding的输入也需要对input进行encoding啊!!!你这个关系都看不出来吗????天啊,我刚才在跟一个什么样的人讨论!!!
真奇怪 我第一句话 只是说了 “一个embedding 需要用auto encoder吗“,
你马上“推测” 我是bootcamp出来的 并且反问句,到底谁先阴阳怪气的呢?
你反问的时候把embedding和encoding混为一谈 我要是不指出来吧 你说我bootcamp出来的 我指出来吧 你又说我给你扣帽子
啧啧啧 我也很奇怪我到底在跟一个什么样的人在讨论
请问,你看出来embedding和encoding的关系了吗?解决了你心头的疑惑“为什么把encoding和embedding关联起来”了吗??在你逻辑里,关联就是等价,这逻辑也没谁了。下次我们不需要ML model了,input output都是关联的,所以input=output,太牛了。。。
从你恶意反问我的话里面啊
最后一次回复 again不要用你的脑补去讨论 讨论要基于事实
呵呵,反正你攻击别人不懂这个不懂那个是留下了。真不知道你的背景是什么,比人都不懂,就你懂,感觉不连续10年拿NeurIPS的best paper都屈才了。。。
事实就是你攻击别人什么都不懂。。。
另外,你既然这么较真的话,我也跟你较真这个技术问题,one-hot encoding和embedding的关联是,one-hot encoding“可以”(也可以是其他encoding)作为embedding的输入,因此他们之间显然是相关的。另外,更广义的讲,如果我们的embedding就是一个identity matrix,那么这种“embedding”的结果就是input的encoding(e.g.,one-hot encoding),因此one-hot encoding在这种特殊情况下也可以认为是“embedding”的结果(当然,实际中很少很少这么做。。。)。
回到你的回答: “用auto encoder做邮编的embedding 硬要去做也不是不可以, 但是带来的问题是 1) 最终的下游任务 还是深度学习预测房价, 在这个预测房价的模型里面除了邮编肯定还有其他的categorical的输入, 每个输入的embedding都用一个专门auto encoder来学吗. 岂不是笑话 2)万一 邮编的vocab有变化, 增加几个新邮编的数据点了, 整个auto encoder 需要重新训练吗? 以上两个问题决定了auto encoder 不可以用来做邮编的embedding”
1)并不是说所有categorical data每一个都用autoencoder。一共就几个data的categorical variable显然不需要autoencoder。。autoencoder自身不需要labeled data,因此在downstream task training data比较少的时候是可以warm up embedding来更好适应downstream task的。你要是不理解这个,认为不能用autoencoder来做warm up那你随便。 2)again,autoencoder不需要labeled data,它在pretrain过程中可以使用很多很多数据,如果你已经用了很多很多数据来train autoencoder,并不需要后续retrain。
具体到zipcode这个feature的问题,我都不会把它当作categorical feature,而是会用地理坐标和其他信息来替代。
本身ML training很大就是经验尝试,我建议你不要狭隘的认为autoencoder做embedding就是多此一举。如果你是这个行业的从业者,你可以找到很多论文讨论用autoencoder来做pre-training embedding+fine tune for downstream task的,更广义上的讲,现在的一些pre-train的embedding(例如nlp里的),也是需要fine tune才能work的,但这些pre-trained embedding显然并不是从头开始和downstream task一起train的。标注一下,我讲的“embedding”广义的概念,并不是某些人所说的必须和downstream task一起从头train出来的layer才叫embedding;如果再延伸一下,一个“layer”都不一定是一个matrix,而可以是很复杂的操作,我就不再讨论了。
没人稀罕你的回复。不过从你的回复我也看出来,现在ML/DS从业者素质堪忧,确实需要massive layoff一下。。。
我觉得读过phd的人应该都清楚,可以被人指出technical错误,但如果被人攻击说“你根本不懂xxx”(尤其是自己工作的相关领域),应该是很大的侮辱。。。如果楼里某位高人真是NeurIPS best paper 10连冠,外加图灵诺贝尔麦克阿瑟之类的,那被说”你根本不懂xxx”我也认了。。。
哈哈哈 nips哪有十连管
某位高人啊。。。现在没有,但没准从今年开始霸榜。。看那个口气绝对能霸榜10年,20年。。
我倒觉得 读过phd的人 尤其理工的。 如果你懂 XXX, 但被人攻击说“你根本不懂XXX” 这是没什么杀伤力的。 倒是被人指出 technical错误 侮辱性比较大。
呵呵,好吧。。因为现实中,没人说“你根本不懂xxx(=你就是xyz)”。。。指出technical 问题有什么问题吗?和导师讨论经常会被指出里面的问题,但也没被说“你根本不懂xxx”;写完的paper draft被指出很多问题,但导师也没说“你根本不会写英文”啊。
DL领域,一些之前的分析现在都被否定了。。所有的论文都会在related works里讨论别人paper的不足(甚至有时候一些错误),但我从来没读过一片paper的related works说“the authors of xxx paper don‘t under xyz (the problem)"来评价别人的工作的。 某位高人不指出不足也不指出错误,直接来说你根本不懂。。。