深度学习预测房价：怎么转化邮政编码

microsat

2 年多

楼主 (北美华人网)

深度学习预测房价有很多category变量, 比如邮政编码，怎么转换呢？
有人建议用embedding。
请问在测试集中，房价未知的情况下，这种embedding的转换还可以进行吗？

kats

2 年多

回复 1楼microsat的帖子
embedding 要pre-train的，要用到邮编对应的坐标，坐标附近房价历史数据吗

maifangzi2017

2 年多

回复 1楼microsat的帖子
可以。。。autoencoder，但这种embedding的结果最好在最终train的过程中也做一些fine tune，否则pre-trained autoencoder会有implicit bias。。。
我再补充一下，省得楼里某位高人nitpick。你可以直接接一个embedding layer和downstream task一起train，但如果data比较少的话，用autoencoder做一个warm up然后再和downstream task一起train可以有些帮助。当然，ML的training是个“黑盒”，有很多不确定因素，因此具体的帮助是多少，试过才知道。
另外，如果只是针对zipcode这个具体的feature，那我个人觉得用位置坐标和其他feature（income，etc。）可能会比把zipcode当作categorical data来处理更好。
补充2: autoencoder是一个unsupervised的方法，能够做embedding。关于利用unsupervised的方法进行pre-training embedding来提升downstream task性能的论文非常多，例如这片著名的paper： “Why Does Unsupervised Pre-training Help Deep Learning? ” https://www.jmlr.org/papers/volume11/erhan10a/erhan10a.pdf
“The best results obtained on supervised learning tasks involve an unsupervised learning component, usually in an unsupervised pre-training phase.” “This unsupervised pre-training sets the stage for a final training phase where the deep architecture is fine-tuned with respect to a supervised training criterion with gradient-based optimization.”
奉劝某位高人，不要以为自己用的方法就是天下第一golden standard。同时欢迎那位高人来进行学术探讨，而不是人身攻击。如果高人能够用严肃的态度来批判这些论文，我同样洗耳恭听。

coconutjuice

2 年多

回复 1楼microsat的帖子
可以。。。autoencoder，但这种embedding的结果最好在最终train的过程中也做一些fine tune，否则pre-trained autoencoder会有implicit bias。。。

maifangzi2017 发表于 2022-11-11 13:05

只是一个embedding 要autoencoder?...........

maifangzi2017

2 年多

回复 4楼coconutjuice的帖子
那你跟我说怎么embedding。。。？你不会跟我说是 one-hot encoding吧。。。

coconutjuice

2 年多

回复 4楼coconutjuice的帖子
那你跟我说怎么embedding。。。？你不会跟我说是 one-hot encoding吧。。。
maifangzi2017 发表于 2022-11-11 13:09

额你可能不懂基本的embedding的定义

coconutjuice

2 年多

回复 4楼coconutjuice的帖子
那你跟我说怎么embedding。。。？你不会跟我说是 one-hot encoding吧。。。
maifangzi2017 发表于 2022-11-11 13:09

或者说你也不懂encoding和embedding 的区别

coconutjuice

2 年多

深度学习预测房价有很多category变量, 比如邮政编码，怎么转换呢？
有人建议用embedding。
请问在测试集中，房价未知的情况下，这种embedding的转换还可以进行吗？
microsat 发表于 2022-11-11 11:47

embedding的look up table是trainable的

maifangzi2017

2 年多

回复 7楼coconutjuice的帖子
呵呵，随你便。
假设我们有10k个不同的zipcode，你加一个embedding layer，那你跟我说说这个“embedding layer”的input dimension是多大的，然后你怎么去train这个embedding layer的weights？直接和其他layer一起train吗？你知道这个embedding layer会有多大吗？
我当然没说直接就用autoencoder的结果，我建议lz用autoencoder先pretrain一个embedding layer，然后在training中根据数据集去fine tune。。

maifangzi2017

2 年多

回复 6楼coconutjuice的帖子
你不要随便扣帽子。去看我后面的帖子，再来严肃讨论。

coconutjuice

2 年多

回复 7楼coconutjuice的帖子
呵呵，随你便。
假设我们有10k个不同的zipcode，你加一个embedding layer，那你跟我说说这个“embedding layer”的input dimension是多大的，然后你怎么去train这个embedding layer的weights？直接和其他layer一起train吗？你知道这个embedding layer会有多大吗？
我当然没说直接就用autoencoder的结果，我建议lz用autoencoder先pretrain一个embedding layer，然后在training中根据数据集去fine tune。。
maifangzi2017 发表于 2022-11-11 13:18

你问的这几个问题恰好说明你完全不懂embedding, embedding layer 的weights当然是可以训练的并且 input dimension 多大都已经有不少论文了. 至于你这些都不懂硬要说auto encoder做embedding 那就随你便

coconutjuice

2 年多

回复 6楼coconutjuice的帖子
你不要随便扣帽子。去看我后面的帖子，再来严肃讨论。
maifangzi2017 发表于 2022-11-11 13:22

那你说说embedding和encoding的区别?? 你是怎么想到把one hot encoding跟embedding扯到一起的呢

maifangzi2017

2 年多

回复 11楼coconutjuice的帖子
你可以直面回答问题吗？10k的zipcode，你要直接做一个embedding layer，你告诉我input dimension是多大的。embedding layer当然可以直接和task一起train，但对于10k zipcode这种场景，我认为可以pretrain一个 embedding，然后和task一起fine tune，有什么问题吗？（另外，你的回帖恰恰描述了你自己“不懂embedding和encoding”，虽然我不想给你扣帽子，但我觉得你真的就是bootcamp出来的。。。）
“A hidden layer of an autoencoder is obviously a vector, so it’s an embedding. In addition, it contains information about reproducing the original object, but stored in a compact way.” https://www.quora.com/What-is-the-difference-between-an-embedding-and-the-hidden-layer-of-an-autoencoder

coconutjuice

2 年多

回复 11楼coconutjuice的帖子
你可以直面回答问题吗？10k的zipcode，你要直接做一个embedding layer，你告诉我input dimension是多大的。embedding layer当然可以直接和task一起train，但对于10k zipcode这种场景，我认为可以pretrain一个 embedding，然后和task一起fine tune，有什么问题吗？（另外，你的回帖恰恰描述了你自己“不懂embedding和encoding”，虽然我不想给你扣帽子，但我觉得你真的就是bootcamp出来的。。。）
“A hidden layer of an autoencoder is obviously a vector, so it’s an embedding. In addition, it contains information about reproducing the original object, but stored in a compact way.” https://www.quora.com/What-is-the-difference-between-an-embedding-and-the-hidden-layer-of-an-autoencoder
maifangzi2017 发表于 2022-11-11 13:32

你不懂怎么做一个embedding layer 多大embedding size 怎么训练是不是和其他layer一起训练那是你的问题啊我有义务回答你吗
你随便找一个做nlp的或者做推荐/搜索/广告的算法工程师, bootcamp出来的也行工作多年的也行哦没毕业的学生我觉得也行你问问他们一个zip code 的encoding是不是要用的auto encoder

maifangzi2017

2 年多

回复 12楼coconutjuice的帖子
好吧，我有闲给你讲一下，就不收你学费了。
我们有10k个categorical variable。假设我们用one-hot encoding，那么input dimension需要10k，连接 "embedding layer(s)"，输出m-by-1 vector就是“embedding”的结果，这个m-by-1 vector是后面layer的input来做training。这个embedding layer可以用autoencoder先做一个pretraining，之后做fine tune，会比直接和task一起train好一些，尤其是在数据量有限的情况下。
不知道，你的资质是否能理解这些最basic的概念。

coconutjuice

2 年多

回复 12楼coconutjuice的帖子
好吧，我有闲给你讲一下，就不收你学费了。
我们有10k个categorical variable。假设我们用one-hot encoding，那么input dimension需要10k，连接 "embedding layer(s)"，输出m-by-1 vector就是“embedding”的结果，这个m-by-1 vector是后面layer的input来做training。这个embedding layer可以用autoencoder先做一个pretraining，之后做fine tune，会比直接和task一起train好一些，尤其是在数据量有限的情况下。
不知道，你的资质是否能理解这些最basic的概念。
maifangzi2017 发表于 2022-11-11 13:37

你讲的牛头不对马嘴都没弄清楚encoding 和embedding的区别建议直接删除要不然丢人

maifangzi2017

2 年多

回复 14楼coconutjuice的帖子
呵呵，你是不是认为只有加一个“layer”和其他的layer一起train，才叫“embedding layer”？autoencoder里面的layer显然是embedding layer，这个还需要解释吗？你自己不懂就不要乱来好吗。。。你自己对embedding layer的理解太狭隘了。

maifangzi2017

2 年多

回复 16楼coconutjuice的帖子
呵呵，你从来没有正面回答过任何technical 问题，总是在扣帽子。。。你说我混淆视听，你来讲讲你怎么做吧。。。10k个xxx的cateogrical variable是原始input （我们不限于zipcode，就假设某个categorical data），接下来你讲讲吧，你不是给我讲，而是给lz和其他人讲，好吧。

coconutjuice

2 年多

回复 14楼coconutjuice的帖子
呵呵，你是不是认为只有加一个“layer”和其他的layer一起train，才叫“embedding layer”？autoencoder里面的layer显然是embedding layer，这个还需要解释吗？你自己不懂就不要乱来好吗。。。你自己对embedding layer的理解太狭隘了。
maifangzi2017 发表于 2022-11-11 13:40

我没说autoencoder 出来的不是embedding啊我说的是一个邮编的embedding不需要auto encoder, 句号你好像中文也不行

maifangzi2017

2 年多

回复 19楼coconutjuice的帖子
呵呵，你又开始胡搅蛮缠了，你开始可是说说我不懂encoding， embedding什么的。。。
zipcode当然不需要这么复杂的embedding，我只是按照lz描述的要把“categorical data”进行“embedding”来说而已。。。如果真让我做的话，zipcode直接按照地理坐标中心点再加一些其他feature（例如income什么的）完全比用zipcode的embedding要好。。。
行了，你可以给大家讲讲你的高见，如何处理10k个cateogrical data（不限于zipcode），然后用你的“embedding”吗？我很好奇bootcamp教出来是什么水平。

coconutjuice

2 年多

回复 16楼coconutjuice的帖子
呵呵，你从来没有正面回答过任何technical 问题，总是在扣帽子。。。你说我混淆视听，你来讲讲你怎么做吧。。。10k个xxx的cateogrical variable是原始input （我们不限于zipcode，就假设某个categorical data），接下来你讲讲吧，你不是给我讲，而是给lz和其他人讲，好吧。
maifangzi2017 发表于 2022-11-11 13:42

你不要讲了你基础定义都不懂我没给你扣帽子吧你把embedding 和encoding混为一谈的是fact 白纸黑字啊还要说啥呢
不要再拉着我讲什么embedding 怎么训练了, 你不懂是你的事我没义务跟你讲

maifangzi2017

2 年多

回复 21楼coconutjuice的帖子
谁混为一谈了？你不会看到autoencoder+embedding就认为encoding就是embedding吧？呃，对了，你一开始还否认autoencoder里的hidden layer是embedding呢。。。我拿出一些链接，你才改口，呵呵。
还是那句话，你自己有高见可以说啊，反正这是technical 问题。。。你自己毛也不懂跟这胡搅蛮缠，一会说什么什么paper，一会说什么自己当时说的只限于zipcode。。。反正就是不回答技术问题。其他人都在看，高下立现。

kats

2 年多

回复 21楼coconutjuice的帖子
查了一下 autoencoder is a special case of the encoder-decoder model, in which the input and output are the same.
抱歉打断你们请继续

maifangzi2017

2 年多

回复 21楼coconutjuice的帖子
另外，你要非纠结于“embedding”和“encoding”的关系，我随便给你发一个链接，你去学习一下下次别出来丢人现眼： https://ai.stackexchange.com/questions/31632/can-i-always-use-encoding-and-embedding-interchangeably#:~:text=Encoding%20is%20related%20to%20decoding,category%2C%20e.g.%20differential%20manifolds).
“Embeddings are encodings where the intention is to preserve semantics. ”
声明：这不是我的个人观点，省着你这个杠精有开始nitpick

coconutjuice

2 年多

回复 21楼coconutjuice的帖子
谁混为一谈了？你不会看到autoencoder+embedding就认为encoding就是embedding吧？呃，对了，你一开始还否认autoencoder里的hidden layer是embedding呢。。。我拿出一些链接，你才改口，呵呵。
还是那句话，你自己有高见可以说啊，反正这是technical 问题。。。你自己毛也不懂跟这胡搅蛮缠，一会说什么什么paper，一会说什么自己当时说的只限于zipcode。。。反正就是不回答技术问题。其他人都在看，高下立现。
maifangzi2017 发表于 2022-11-11 13:54

我改口???我需要改什么? 我第一句话说的是只是一个embedding 要autoencoder?........... 这句话有否认auto encoder出来的不是embedding 吗. auto encoder 一边用来做图像的embedding 在无label的情况下是比较合理的但是邮箱的embedding不需要auto encoder

stones

2 年多

神仙打架，我小板凳坐好了。
小声个外行感想: zip 这东西临近的有关联，一个2D to 1D mapping 肯定失去些全局信息，但locally就当整数数字应该也没差。还是学习下神仙的解法吧。

maifangzi2017

2 年多

回复 25楼coconutjuice的帖子
呵呵，你一会攻击我不懂这个，不懂那个，反正你就是不说你懂的。。。板上做ML的大牛大有人在，你说说你怎么做10k个categorical variable的embedding好了。你要是不说的话，也没什么可讨论的了，技术问题不说技术，跟这七扯八扯。。。真够无聊的。
另外，我正面回应你的问题“只是一个embedding需要autoencoder？”。in general，当然不是“必须”的，可以直接加一个layer来和task一起train，尤其在categorical data种类不多的时候；当categorical data种类很多的时候，用autoencoder没问题，autoencoder里面的前一部分hidden layer本身就是embedding，用autoencoder对embedding做一下pre-train，之后再和task一起fine tune to suit the need of the downstream task，完全没有问题，也很常规，尤其在training data不足的情况下。如果再具体到zipcode这个问题，如果让我做，我都不会对zipcode做embedding，而是会换其他的feature。
呵呵，敢请bootcamper大牛来讲讲您的高见。

maifangzi2017

2 年多

回复 26楼stones的帖子
zipcode是categorical的，不是2d。你说的地理坐标是2D，但地理坐标可以直接作为numeric feature作为输入了。

coconutjuice

2 年多

回复 21楼coconutjuice的帖子
另外，你要非纠结于“embedding”和“encoding”的关系，我随便给你发一个链接，你去学习一下下次别出来丢人现眼： https://ai.stackexchange.com/questions/31632/can-i-always-use-encoding-and-embedding-interchangeably#:~:text=Encoding%20is%20related%20to%20decoding,category%2C%20e.g.%20differential%20manifolds).
“Embeddings are encodings where the intention is to preserve semantics. ”
声明：这不是我的个人观点，省着你这个杠精有开始nitpick
maifangzi2017 发表于 2022-11-11 13:57

你别贴这些了越贴我越觉得我是在对牛弹琴
你贴的的Embeddings are encodings where the intention is to preserve semantics. 你这里的embedding 和encoding对应的不是模型中operations
我问你的embedding和encoding的区别 , 我指的embedding 和encoding 是对应的operations, 是有特定的含义的简单的说 embedding 可以被训练缺点来一个新的vocab 新的就是没学过的 encoding 是无需被训练的, 好处是新的vocab也能马上就有encoding 以上是transformer 中文字输入的最basic的概念 transformer对文字用的是encoding 而不是embedding

coconutjuice

2 年多

回复 25楼coconutjuice的帖子
呵呵，你一会攻击我不懂这个，不懂那个，反正你就是不说你懂的。。。板上做ML的大牛大有人在，你说说你怎么做10k个categorical variable的embedding好了。你要是不说的话，也没什么可讨论的了，技术问题不说技术，跟这七扯八扯。。。真够无聊的。
另外，我正面回应你的问题“只是一个embedding需要autoencoder？”。in general，当然不是“必须”的，可以直接加一个layer来和task一起train，尤其在categorical data种类不多的时候；当categorical data种类很多的时候，用autoencoder没问题，autoencoder里面的前一部分hidden layer本身就是embedding，用autoencoder对embedding做一下pre-train，之后再和task一起fine tune to suit the need of the downstream task，完全没有问题，也很常规，尤其在training data不足的情况下。如果再具体到zipcode这个问题，如果让我做，我都不会对zipcode做embedding，而是会换其他的feature。
呵呵，敢请bootcamper大牛来讲讲您的高见。
maifangzi2017 发表于 2022-11-11 14:07

10k个怎么做我不是一开始就说了你去翻一下你是没看见吗还是没看懂? 我一开始回答楼主了用一个look up table , 可以训练

maifangzi2017

2 年多

回复 29楼coconutjuice的帖子
呵呵，你现在又开始加什么operation之类的了。。。你要是非要这么较真，那别说，embedding和encoding，哪怕embedding和embedddings都是不一样的，后者多了一个“s“呢。。。
你还是发表一下你对处理10k个categorical data的高见吧，让我们学习学习，也醍醐灌顶一下。

coconutjuice

2 年多

回复 29楼coconutjuice的帖子
呵呵，你现在又开始加什么operation之类的了。。。你要是非要这么较真，那别说，embedding和encoding，哪怕embedding和embedddings都是不一样的，后者多了一个“s“呢。。。
你还是发表一下你对处理10k个categorical data的高见吧，让我们学习学习，也醍醐灌顶一下。
maifangzi2017 发表于 2022-11-11 14:12

不要什么高见并且我已经早在第八楼就说了你可以回去翻你是完全没看见呢还是完全没看懂呢还要再怎么说你才明白呢或者你去问一个做nlp 或者推荐/搜索的学生可能只要硕士第一年就知道都不要到你嘲讽的bootcamp

coconutjuice

2 年多

回复 21楼coconutjuice的帖子
查了一下 autoencoder is a special case of the encoder-decoder model, in which the input and output are the same.
抱歉打断你们请继续
kats 发表于 2022-11-11 13:55

这个定义没问题所以适用于没有人工标注的情况下依然需要学习的时候一开始也是在cv中先用的

coconutjuice

2 年多

回复 29楼coconutjuice的帖子
呵呵，你现在又开始加什么operation之类的了。。。你要是非要这么较真，那别说，embedding和encoding，哪怕embedding和embedddings都是不一样的，后者多了一个“s“呢。。。
你还是发表一下你对处理10k个categorical data的高见吧，让我们学习学习，也醍醐灌顶一下。
maifangzi2017 发表于 2022-11-11 14:12

另外不要再胡搅蛮缠了我已经很耐心的在跟你说embeding和encoding的区别了

kats

2 年多

这个定义没问题所以适用于没有人工标注的情况下依然需要学习的时候一开始也是在cv中先用的
coconutjuice 发表于 2022-11-11 14:17

所以我的理解autoencoder目的是降维压缩数据， encoder 为的是实现downstream tasks 可能CV 和NLP 领域理解不同, 请你们指教

maifangzi2017

2 年多

回复 34楼coconutjuice的帖子
有人认为embedding和encoding是“完全一样”的吗？？？in general，这两个当然不是完全一样的。。。我之前表达无非是：autoencoder里虽然learn了一个encoder（你认为的encoding），但它的前一部分trained hidden layer本身就是embedding。。。这有什么错误吗？？？你自己在胡搅蛮缠，认为只有和downstream task一起train才叫embedding，这要多么狭隘无知自负啊！！

Long2018

2 年多

建议先尝试预测power ball, 再研究预测房价。 power ball 在一定范围内是可以预测的。

coconutjuice

2 年多

所以我的理解autoencoder目的是降维压缩数据， encoder 为的是实现downstream tasks 可能CV 和NLP 领域理解不同, 请你们指教
kats 发表于 2022-11-11 14:22

你的理解没问题 auto encoder之前在cv里面确实是一个还可以的用来做图像embedding的模型但是后来这么多few shot / zero shot learning的方法出来了, 在没有人工标注的情况下图像的embedding其实有很多方法可以去学了最近比较火的contrastive learning 和 meta learning 都是最近几年出来的, 发展很快学的图像的embedding 好坏也是由下游任务的精度来验证的应该是比auto encoder好不少
回到楼主的问题, 邮编怎么输入到房价预测模型用auto encoder做邮编的embedding 硬要去做也不是不可以, 但是带来的问题是 1) 最终的下游任务还是深度学习预测房价, 在这个预测房价的模型里面除了邮编肯定还有其他的categorical的输入, 每个输入的embedding都用一个专门auto encoder来学吗. 岂不是笑话 2)万一邮编的vocab有变化, 增加几个新邮编的数据点了, 整个auto encoder 需要重新训练吗? 以上两个问题决定了auto encoder 不可以用来做邮编的embedding
所以我跟楼主说的是用一个look up table , weights trainable 即可这nlp最最基本的做法也是最容易实现并且对vocab size scalable的, 也就是说以后多几个邮编只要学多出来的邮编即可

coconutjuice

2 年多

回复 34楼coconutjuice的帖子
有人认为embedding和encoding是“完全一样”的吗？？？in general，这两个当然不是完全一样的。。。我之前表达无非是：autoencoder里虽然learn了一个encoder（你认为的encoding），但它的前一部分trained hidden layer本身就是embedding。。。这有什么错误吗？？？你自己在胡搅蛮缠，认为只有和downstream task一起train才叫embedding，这要多么狭隘无知自负啊！！
maifangzi2017 发表于 2022-11-11 14:28

请你找出来我说只有和downstream一起train才叫embedding的原话
如果找不出来就是你胡搅蛮缠

maifangzi2017

2 年多

回复 39楼coconutjuice的帖子
“autoencoder里虽然learn了一个encoder，但它的前一部分trained hidden layer本身就是embedding”。。。
你指出一下我表达的哪里错误了？？一会攻击别人不懂这个不懂那个。。。

coconutjuice

2 年多

回复 34楼coconutjuice的帖子
有人认为embedding和encoding是“完全一样”的吗？？？in general，这两个当然不是完全一样的。。。我之前表达无非是：autoencoder里虽然learn了一个encoder（你认为的encoding），但它的前一部分trained hidden layer本身就是embedding。。。这有什么错误吗？？？你自己在胡搅蛮缠，认为只有和downstream task一起train才叫embedding，这要多么狭隘无知自负啊！！
maifangzi2017 发表于 2022-11-11 14:28

请问既然不一样你想知道怎么做embedding 你又为什么在这里扯到one hot encoding?

maifangzi2017

2 年多

回复 41楼coconutjuice的帖子
你没看到那是个反问的句子吗？我是按照对bootcamper的认知来推测“你在直接用one-hot encoding”来做输入和downstream task直接一起train。。。你要是能够跳出这个认知，那恭喜你，已经进阶到高段位了。你从哪看出来我认为“embedding=encoding”的？？？

coconutjuice

2 年多

回复 39楼coconutjuice的帖子
“autoencoder里虽然learn了一个encoder，但它的前一部分trained hidden layer本身就是embedding”。。。
你指出一下我表达的哪里错误了？？一会攻击别人不懂这个不懂那个。。。
maifangzi2017 发表于 2022-11-11 14:33

我有说的是你关于auto encoder的表达错误吗?? 你关于auto encoder的所以的表述都没错但是auto encoder不是楼主的最优解决方案. 楼主在问的是怎么吧邮编输入到房价预测模型你告诉他auto encoder 可以做邮编embedding? 你这不是坑人吗? 原因我已经说了你看得懂就看一下吧我也已经告诉楼主怎么做embedding最合适你自己看不懂就一直追着我胡搅蛮缠

coconutjuice

2 年多

回复 41楼coconutjuice的帖子
你没看到那是个反问的句子吗？我是按照对bootcamper的认知来推测“你在直接用one-hot encoding”来做输入和downstream task直接一起train。。。你要是能够跳出这个认知，那恭喜你，已经进阶到高段位了。你从哪看出来我认为“embedding=encoding”的？？？
maifangzi2017 发表于 2022-11-11 14:37

第五楼你自己的回复你问怎么做embedding 不会是one hot encoding吧如果你觉得这俩不是一回事你为啥要扯一起?

coconutjuice

2 年多

回复 41楼coconutjuice的帖子
你没看到那是个反问的句子吗？我是按照对bootcamper的认知来推测“你在直接用one-hot encoding”来做输入和downstream task直接一起train。。。你要是能够跳出这个认知，那恭喜你，已经进阶到高段位了。你从哪看出来我认为“embedding=encoding”的？？？
maifangzi2017 发表于 2022-11-11 14:37

你用你自己的“推测” 来反问别人你不懂讨论最重要是实事求是吗?

maifangzi2017

2 年多

回复 43楼coconutjuice的帖子
呵呵，楼主说要做对categorical data进行embedding，我只是提供一个中autoencoder+fine tuning的embedding方案，我没有说它是最优的。相反，我之前也说了，如果只是针对zipcode这个问题，我完全不会把它当作categorical data，而是用其他坐标和其他feature来代表。
你要是觉得你的方案更好，你可以完全进行正常讨论，而不是阴阳怪气跟没吃饱饭似的跟那唧唧歪歪，之后还攻击别人不懂这个不懂那个。

maifangzi2017

2 年多

回复 45楼coconutjuice的帖子
同样的话送给你，你不懂实事求是吗？？你从哪看出来我认为“encoding=embedding”了？？

maifangzi2017

2 年多

回复 44楼coconutjuice的帖子
encoding和embedding不是一回事，但显然两者是相关的。。。embedding的输入也需要对input进行encoding啊！！！你这个关系都看不出来吗？？？？天啊，我刚才在跟一个什么样的人讨论！！！

coconutjuice

2 年多

回复 43楼coconutjuice的帖子
呵呵，楼主说要做对categorical data进行embedding，我只是提供一个中autoencoder+fine tuning的embedding方案，我没有说它是最优的。相反，我之前也说了，如果只是针对zipcode这个问题，我完全不会把它当作categorical data，而是用其他坐标和其他feature来代表。
你要是觉得你的方案更好，你可以完全进行正常讨论，而不是阴阳怪气跟没吃饱饭似的跟那唧唧歪歪，之后还攻击别人不懂这个不懂那个。

maifangzi2017 发表于 2022-11-11 14:43

真奇怪我第一句话只是说了 “一个embedding 需要用auto encoder吗“,
你马上“推测” 我是bootcamp出来的并且反问句,到底谁先阴阳怪气的呢?
你反问的时候把embedding和encoding混为一谈我要是不指出来吧你说我bootcamp出来的我指出来吧你又说我给你扣帽子

coconutjuice

2 年多

回复 44楼coconutjuice的帖子
encoding和embedding不是一回事，但显然两者是相关的。。。embedding的输入也需要对input进行encoding啊！！！你这个关系都看不出来吗？？？？天啊，我刚才在跟一个什么样的人讨论！！！
maifangzi2017 发表于 2022-11-11 14:46

啧啧啧我也很奇怪我到底在跟一个什么样的人在讨论

coconutjuice

2 年多

我觉得不要讨论了到此为止吧浪费我时间我已经回答到楼主的问题了楼主如果认为我说的方案比较合理的话可以私信我进一步细节

maifangzi2017

2 年多

回复 50楼coconutjuice的帖子
请问，你看出来embedding和encoding的关系了吗？解决了你心头的疑惑“为什么把encoding和embedding关联起来”了吗？？在你逻辑里，关联就是等价，这逻辑也没谁了。下次我们不需要ML model了，input output都是关联的，所以input=output，太牛了。。。

coconutjuice

2 年多

回复 45楼coconutjuice的帖子
同样的话送给你，你不懂实事求是吗？？你从哪看出来我认为“encoding=embedding”了？？
maifangzi2017 发表于 2022-11-11 14:45

从你恶意反问我的话里面啊

coconutjuice

2 年多

回复 50楼coconutjuice的帖子
请问，你看出来embedding和encoding的关系了吗？解决了你心头的疑惑“为什么把encoding和embedding关联起来”了吗？？在你逻辑里，关联就是等价，这逻辑也没谁了。下次我们不需要ML model了，input output都是关联的，所以input=output，太牛了。。。
maifangzi2017 发表于 2022-11-11 14:52

最后一次回复 again不要用你的脑补去讨论讨论要基于事实

maifangzi2017

2 年多

回复 51楼coconutjuice的帖子
呵呵，反正你攻击别人不懂这个不懂那个是留下了。真不知道你的背景是什么，比人都不懂，就你懂，感觉不连续10年拿NeurIPS的best paper都屈才了。。。

maifangzi2017

2 年多

回复 54楼coconutjuice的帖子
事实就是你攻击别人什么都不懂。。。

maifangzi2017

2 年多

回复 6楼coconutjuice的帖子
另外，你既然这么较真的话，我也跟你较真这个技术问题，one-hot encoding和embedding的关联是，one-hot encoding“可以”（也可以是其他encoding）作为embedding的输入，因此他们之间显然是相关的。另外，更广义的讲，如果我们的embedding就是一个identity matrix，那么这种“embedding”的结果就是input的encoding（e.g.，one-hot encoding），因此one-hot encoding在这种特殊情况下也可以认为是“embedding”的结果（当然，实际中很少很少这么做。。。）。

ldbphilly

2 年多

你先用one hot encoding 建一个model 看看结果怎么样不行的话在用autoencoder做dimensionality reduction 这个需要finetune一下 encoder和decoder

maifangzi2017

2 年多

回复 38楼coconutjuice的帖子
回到你的回答： “用auto encoder做邮编的embedding 硬要去做也不是不可以, 但是带来的问题是 1) 最终的下游任务还是深度学习预测房价, 在这个预测房价的模型里面除了邮编肯定还有其他的categorical的输入, 每个输入的embedding都用一个专门auto encoder来学吗. 岂不是笑话 2)万一邮编的vocab有变化, 增加几个新邮编的数据点了, 整个auto encoder 需要重新训练吗? 以上两个问题决定了auto encoder 不可以用来做邮编的embedding”
1）并不是说所有categorical data每一个都用autoencoder。一共就几个data的categorical variable显然不需要autoencoder。。autoencoder自身不需要labeled data，因此在downstream task training data比较少的时候是可以warm up embedding来更好适应downstream task的。你要是不理解这个，认为不能用autoencoder来做warm up那你随便。 2）again，autoencoder不需要labeled data，它在pretrain过程中可以使用很多很多数据，如果你已经用了很多很多数据来train autoencoder，并不需要后续retrain。
具体到zipcode这个feature的问题，我都不会把它当作categorical feature，而是会用地理坐标和其他信息来替代。
本身ML training很大就是经验尝试，我建议你不要狭隘的认为autoencoder做embedding就是多此一举。如果你是这个行业的从业者，你可以找到很多论文讨论用autoencoder来做pre-training embedding+fine tune for downstream task的，更广义上的讲，现在的一些pre-train的embedding（例如nlp里的），也是需要fine tune才能work的，但这些pre-trained embedding显然并不是从头开始和downstream task一起train的。标注一下，我讲的“embedding”广义的概念，并不是某些人所说的必须和downstream task一起从头train出来的layer才叫embedding；如果再延伸一下，一个“layer”都不一定是一个matrix，而可以是很复杂的操作，我就不再讨论了。

maifangzi2017

2 年多

回复 54楼coconutjuice的帖子
没人稀罕你的回复。不过从你的回复我也看出来，现在ML/DS从业者素质堪忧，确实需要massive layoff一下。。。

bubikeqi

2 年多

来看讨论

maifangzi2017

2 年多

回复 61楼bubikeqi的帖子
我觉得读过phd的人应该都清楚，可以被人指出technical错误，但如果被人攻击说“你根本不懂xxx”（尤其是自己工作的相关领域），应该是很大的侮辱。。。如果楼里某位高人真是NeurIPS best paper 10连冠，外加图灵诺贝尔麦克阿瑟之类的，那被说”你根本不懂xxx”我也认了。。。

Lamajia

2 年多

回复 61楼bubikeqi的帖子
我觉得读过phd的人应该都清楚，可以被人指出technical错误，但如果被人攻击说“你根本不懂xxx”（尤其是自己工作的相关领域），应该是很大的侮辱。。。如果楼里某位高人真是NeurIPS best paper 10连冠，外加图灵诺贝尔麦克阿瑟之类的，那被说”你根本不懂xxx”我也认了。。。
maifangzi2017 发表于 2022-11-11 15:53

哈哈哈 nips哪有十连管

maifangzi2017

2 年多

回复 63楼Lamajia的帖子
某位高人啊。。。现在没有，但没准从今年开始霸榜。。看那个口气绝对能霸榜10年，20年。。

shanggj

2 年多

回复 61楼bubikeqi的帖子
我觉得读过phd的人应该都清楚，可以被人指出technical错误，但如果被人攻击说“你根本不懂xxx”（尤其是自己工作的相关领域），应该是很大的侮辱。。。如果楼里某位高人真是NeurIPS best paper 10连冠，外加图灵诺贝尔麦克阿瑟之类的，那被说”你根本不懂xxx”我也认了。。。
maifangzi2017 发表于 2022-11-11 15:53

我倒觉得读过phd的人尤其理工的。如果你懂 XXX，但被人攻击说“你根本不懂XXX” 这是没什么杀伤力的。倒是被人指出 technical错误侮辱性比较大。

maifangzi2017

2 年多

回复 65楼shanggj的帖子
呵呵，好吧。。因为现实中，没人说“你根本不懂xxx(=你就是xyz）”。。。指出technical 问题有什么问题吗？和导师讨论经常会被指出里面的问题，但也没被说“你根本不懂xxx”；写完的paper draft被指出很多问题，但导师也没说“你根本不会写英文”啊。
DL领域，一些之前的分析现在都被否定了。。所有的论文都会在related works里讨论别人paper的不足（甚至有时候一些错误），但我从来没读过一片paper的related works说“the authors of xxx paper don‘t under xyz (the problem)"来评价别人的工作的。某位高人不指出不足也不指出错误，直接来说你根本不懂。。。

suixin111

2 年多

变成学术版了？