大家不要吵了,请教一个深度学习的问题

f
fangtuo2
楼主 (未名空间)

其实也是一个很虚的问题:如果我把wikipidia爬下来,理论上讲有一个比较完备的知
识库的。那我能不能做一个chatbot回答这个知识库里涉及到的问题呢?

其实这个问题就是想问各位NLP怎么解决知识库的前端交互。

借人气问问,谢谢各位深学前辈了。
T
TeacherWei

你要这样想,如何定义能不能呢?经典的答案是图灵测试(Turing Test)。
咱们先不管无意义的争论,先设想一下结果:

首先,目前看,还是不能,差的不是一般的多。。。我介绍给你的那个NLP的群,你也
经常看吧。

其次,就算能力到达了某个程度,也不会去做wikipedia那种无聊的应用,首先应该用
来干掉码工们才对,然后就是深学自己深学自己了。。。

很虚的问题,答案很实的,逻辑很清晰,大家都不要精神分裂。

c
chebyshev

你把他去人化了。

他問的是:
“我”能不能做一个chatbot回答这个知识库里涉及到的问题呢

我的看法是,"他"不能。
對"他"尊重的回答,反而往往是讓人生氣。
【 在 TeacherWei (TW) 的大作中提到: 】
: 你要这样想,如何定义能不能呢?经典的答案是图灵测试(Turing Test)。
: 咱们先不管无意义的争论,先设想一下结果:
: 首先,目前看,还是不能,差的不是一般的多。。。我介绍给你的那个NLP的群,你也
: 经常看吧。
: 其次,就算能力到达了某个程度,也不会去做wikipedia那种无聊的应用,首先应该用
: 来干掉码工们才对,然后就是深学自己深学自己了。。。
: 很虚的问题,答案很实的,逻辑很清晰,大家都不要精神分裂。

r
repast

这个已经有人做过了啊,phd都读完了,文章发过,github也随便用了。
问答系统就是解决前端交互的一个shortcut, 抄近路快变现,也能开辟
一个领域,养很多人。我一个民科看这个方向就是这个套路,能解决的是
考前抱佛脚的那种学习,或者gre阅读题的水平。

关键是知识库能不能玩出花,我内心在计划一个有关的项目,不一定能开始,不是用
wikipedia

【 在 fangtuo2 (方鸵) 的大作中提到: 】
: 其实也是一个很虚的问题:如果我把wikipidia爬下来,理论上讲有一个比较完备的知
: 识库的。那我能不能做一个chatbot回答这个知识库里涉及到的问题呢?
: 其实这个问题就是想问各位NLP怎么解决知识库的前端交互。
: 借人气问问,谢谢各位深学前辈了。

r
repast

哪个NLP群,可以介绍一下吗?

【 在 TeacherWei (TW) 的大作中提到: 】
: 你要这样想,如何定义能不能呢?经典的答案是图灵测试(Turing Test)。
: 咱们先不管无意义的争论,先设想一下结果:
: 首先,目前看,还是不能,差的不是一般的多。。。我介绍给你的那个NLP的群,你也
: 经常看吧。
: 其次,就算能力到达了某个程度,也不会去做wikipedia那种无聊的应用,首先应该用
: 来干掉码工们才对,然后就是深学自己深学自己了。。。
: 很虚的问题,答案很实的,逻辑很清晰,大家都不要精神分裂。

T
TeacherWei

都是我一个老朋友李维介绍的。你搜一下李维NLP就知道了。
现在我的微信被封了,同时我也在去微信化。

【 在 repast (xebec) 的大作中提到: 】
: 哪个NLP群,可以介绍一下吗?

n
netghost

你把wikipedia爬下來是一個比做個chatbot前端麻煩很多的事情,所以我覺得這麼搞沒什麼意義。

【 在 fangtuo2 (方鸵) 的大作中提到: 】
: 其实也是一个很虚的问题:如果我把wikipidia爬下来,理论上讲有一个比较完备的知
: 识库的。那我能不能做一个chatbot回答这个知识库里涉及到的问题呢?
: 其实这个问题就是想问各位NLP怎么解决知识库的前端交互。
: 借人气问问,谢谢各位深学前辈了。

h
helpme

你这朋友三年前跑出来赚钱,好像都干不久,survive不了?

【 在 TeacherWei (TW) 的大作中提到: 】
: 都是我一个老朋友李维介绍的。你搜一下李维NLP就知道了。
: 现在我的微信被封了,同时我也在去微信化。

f
fangtuo2

对,我是干不了,所以才来问。

我是问能不能找一个对nlp有一定训练的phd指导我这个老年马工找找开源项目,写写胶水代码,搭一个类似的系统出来。

所以请后面的人不要被切比雪夫同学的回答把讨论带偏了。

【 在 chebyshev(......) 的大作中提到: 】

: 你把他去人化了。

: 他問的是:

: “我”能不能做一个chatbot回答这个知识库里涉及到的问题呢

: 我的看法是,"他"不能。

: 對"他"尊重的回答,反而往往是讓人生氣。

f
fangtuo2

其实这个问题并不需。

只是我的水平低,没有把问题分解成executable的工程问题而已。有水平的nlp的专家
,能吧这个问题分解到老年工程是写python code的粒度的。

所以我觉得深度学习的phd,如果语言好,应该走产品经理的路。

【 在 TeacherWei(TW) 的大作中提到: 】

: 你要这样想,如何定义能不能呢?经典的答案是图灵测试(Turing Test)。

: 咱们先不管无意义的争论,先设想一下结果:

: 首先,目前看,还是不能,差的不是一般的多。。。我介绍给你的那个NLP的群
,你也

: 经常看吧。

: 其次,就算能力到达了某个程度,也不会去做wikipedia那种无聊的应用,首先
应该用

: 来干掉码工们才对,然后就是深学自己深学自己了。。。

: 很虚的问题,答案很实的,逻辑很清晰,大家都不要精神分裂。

T
TeacherWei

都爬下来也就是几行代码的事情。
况且wikipedia本身就开放全数据库下载。
https://en.m.wikipedia.org/wiki/Wikipedia:Database_download#XOWA

有一说一。。。

【 在 netghost(Up to Isomorphism) 的大作中提到: 】

: 你把wikipedia爬下來是一個比做個chatbot前端麻煩很多的事情,所以我覺得這麼搞沒

: 什麼意義。

T
TeacherWei

这是一个图灵奖炸药奖一个都不少的项目。
人类目前看还暂时没戏。
没准是好事。

【 在 fangtuo2(方鸵) 的大作中提到: 】

: 其实这个问题并不需。

: 只是我的水平低,没有把问题分解成executable的工程问题而已。有水平的nlp
的专家

: ,能吧这个问题分解到老年工程是写python code的粒度的。

: 所以我觉得深度学习的phd,如果语言好,应该走产品经理的路。

: ,你也

: 应该用

f
fangtuo2

没你想象的那么神,有人能做,所以才上来问 — 又不是做图灵测试系统。

就是一个工程项目而已。现在很多AI其实就是变魔术,就看有没有人把魔术方法教给你了。

本帖不讨论什么革命性的东西啊,也不讨论什么未来科技,谢谢。

就是请教有没有人思考过变这个魔术的方法而已(我看别人变过一个简单的,当然人家不会分享里面的细节)

【 在 TeacherWei(TW) 的大作中提到: 】

: 这是一个图灵奖炸药奖一个都不少的项目。

: 人类目前看还暂时没戏。

: 没准是好事。

: 的专家

C
Caravel
https://www.wolframalpha.com/

这就是你想做的东西把,stephen wolfram花了很大人力物力做的,离理解整个wiki也
差的很远

【 在 fangtuo2 (方鸵) 的大作中提到: 】
: 没你想象的那么神,有人能做,所以才上来问 — 又不是做图灵测试系统。
: 就是一个工程项目而已。现在很多AI其实就是变魔术,就看有没有人把魔术方法教给你
: 了。
: 本帖不讨论什么革命性的东西啊,也不讨论什么未来科技,谢谢。
: 就是请教有没有人思考过变这个魔术的方法而已(我看别人变过一个简单的,当然人家
: 不会分享里面的细节)
:
: 这是一个图灵奖炸药奖一个都不少的项目。
:
: 人类目前看还暂时没戏。
:
: 没准是好事。
:
: 的专家
: ...................

T
TeacherWei

那就简单多了,苹果亚马逊谷歌微软的语音助手都能回答问题,很多答案都是
Wikipedia直接抓的。
你找老李帮忙,先说好,做个扯蛋的就可以,对他来讲不是问题。

【 在 fangtuo2(方鸵) 的大作中提到: 】

: 没你想象的那么神,有人能做,所以才上来问 — 又不是做图灵测试系统。

: 就是一个工程项目而已。现在很多AI其实就是变魔术,就看有没有人把魔术方法教给你

: 了。

: 本帖不讨论什么革命性的东西啊,也不讨论什么未来科技,谢谢。

: 就是请教有没有人思考过变这个魔术的方法而已(我看别人变过一个简单的,当然人家

: 不会分享里面的细节)

f
fangtuo2

“苹果亚马逊谷歌微软的语音助手都能回答问题,很多答案都是
Wikipedia直接抓的。”

大约是这么个东西... text based

【 在 TeacherWei(TW) 的大作中提到: 】

: 那就简单多了,苹果亚马逊谷歌微软的语音助手都能回答问题,很多答案都是

: Wikipedia直接抓的。

: 你找老李帮忙,先说好,做个扯蛋的就可以,对他来讲不是问题。

: 教给你

: 然人家

r
repast

github 一克隆就出来了,可能你都不需要写啥。

【 在 fangtuo2 (方鸵) 的大作中提到: 】
: 对,我是干不了,所以才来问。
: 我是问能不能找一个对nlp有一定训练的phd指导我这个老年马工找找开源项目,写写胶
: 水代码,搭一个类似的系统出来。
: 所以请后面的人不要被切比雪夫同学的回答把讨论带偏了。
:
: 你把他去人化了。
:
: 他問的是:
:
: “我”能不能做一个chatbot回答这个知识库里涉及到的问题呢
:
: 我的看法是,"他"不能。
:
: 對"他"尊重的回答,反而往往是讓人生氣。
:

g
guvest

过五年,看看这个贴谁的答案对。
我之前提供的這幾句話,乃是語言分析科班知識。
不是要帶歪你。
【 在 fangtuo2 (方鸵) 的大作中提到: 】
: 对,我是干不了,所以才来问。
: 我是问能不能找一个对nlp有一定训练的phd指导我这个老年马工找找开源项目,写写胶
: 水代码,搭一个类似的系统出来。
: 所以请后面的人不要被切比雪夫同学的回答把讨论带偏了。
:
: 你把他去人化了。
:
: 他問的是:
:
: “我”能不能做一个chatbot回答这个知识库里涉及到的问题呢
:
: 我的看法是,"他"不能。
:
: 對"他"尊重的回答,反而往往是讓人生氣。
:

T
TeacherWei

看你想咋干呗?
往大里说,这玩意儿叫知识图谱Knowledge Graph。目前谁都搞不动。
再简单点,就是一个language parser,和语义抽提,厉害国叫舆情分析。。。
最简单的,直接偷谷歌搜索结果,几行代码就完事了。

【 在 fangtuo2 (方鸵) 的大作中提到: 】
: “苹果亚马逊谷歌微软的语音助手都能回答问题,很多答案都是
: Wikipedia直接抓的。”
: 大约是这么个东西... text based
:
: 那就简单多了,苹果亚马逊谷歌微软的语音助手都能回答问题,很多答案都是:
: Wikipedia直接抓的。
:
: 你找老李帮忙,先说好,做个扯蛋的就可以,对他来讲不是问题。
:
: 教给你
:
: 然人家
:

C
Caravel

需要提供结构化的知识,目前唯一的办法就是人力coding

【 在 TeacherWei (TW) 的大作中提到: 】
: 看你想咋干呗?
: 往大里说,这玩意儿叫知识图谱Knowledge Graph。目前谁都搞不动。
: 再简单点,就是一个language parser,和语义抽提,厉害国叫舆情分析。。。
: 最简单的,直接偷谷歌搜索结果,几行代码就完事了。

x
xiaoju

这玩意早就有了,俗称google。

把谷歌使用方法仔细研究一下,人家已经上线多少年了

【 在 fangtuo2 (方鸵) 的大作中提到: 】
: 其实也是一个很虚的问题:如果我把wikipidia爬下来,理论上讲有一个比较完备的知
: 识库的。那我能不能做一个chatbot回答这个知识库里涉及到的问题呢?
: 其实这个问题就是想问各位NLP怎么解决知识库的前端交互。
: 借人气问问,谢谢各位深学前辈了。

x
xiaoju

你纸上谈兵要有个限度,谷歌早就不搞pagerank了,现在的搜索实际上都是知识库问答

【 在 chebyshev (......) 的大作中提到: 】
: 你把他去人化了。
: 他問的是:
: “我”能不能做一个chatbot回答这个知识库里涉及到的问题呢
: 我的看法是,"他"不能。
: 對"他"尊重的回答,反而往往是讓人生氣。

x
xiaoju

wiki早就被人做成nlp标准数据集了,还爬wiki。。。你就是天天上网骂街太多才这么
不接地气

【 在 netghost (Up to Isomorphism) 的大作中提到: 】
: 标 题: Re: 大家不要吵了,请教一个深度学习的问题
: 发信站: BBS 未名空间站 (Tue May 5 16:01:35 2020, 美东)
:
: 你把wikipedia爬下來是一個比做個chatbot前端麻煩很多的事情,所以我覺得這麼搞沒
: 什麼意義。
:
:
: 【 在 fangtuo2 (方鸵) 的大作中提到: 】
: : 其实也是一个很虚的问题:如果我把wikipidia爬下来,理论上讲有一个比较完备
的知
: : 识库的。那我能不能做一个chatbot回答这个知识库里涉及到的问题呢?
: : 其实这个问题就是想问各位NLP怎么解决知识库的前端交互。
: : 借人气问问,谢谢各位深学前辈了。
:
:
:
: --
:
x
xiaoju

netghost的所有知识还停留在十几年前

【 在 TeacherWei (TW) 的大作中提到: 】
: 标 题: Re: 大家不要吵了,请教一个深度学习的问题
: 发信站: BBS 未名空间站 (Tue May 5 16:36:17 2020, 美东)
:
: 都爬下来也就是几行代码的事情。
: 况且wikipedia本身就开放全数据库下载。
:
: https://en.m.wikipedia.org/wiki/Wikipedia:Database_download#XOWA
:
: 有一说一。。。
:
:
: 【 在 netghost(Up to Isomorphism) 的大作中提到: 】
:
: 你把wikipedia爬下來是一個比做個chatbot前端麻煩很多的事情,所以我覺得這
: 麼搞沒
:
: 什麼意義。
:

: --
x
xiaoju

wiki数据集是无监督训练nlp模型的标配

【 在 fangtuo2 (方鸵) 的大作中提到: 】
: “苹果亚马逊谷歌微软的语音助手都能回答问题,很多答案都是
: Wikipedia直接抓的。”
: 大约是这么个东西... text based
:
: 那就简单多了,苹果亚马逊谷歌微软的语音助手都能回答问题,很多答案都是:
: Wikipedia直接抓的。
:
: 你找老李帮忙,先说好,做个扯蛋的就可以,对他来讲不是问题。
:
: 教给你
:
: 然人家
:

x
xiaoju

知识图谱有个屁搞不动的,国内是个电商公司就有

搞这个的人年薪甚至上不了80万rmb。

【 在 TeacherWei (TW) 的大作中提到: 】
: 看你想咋干呗?
: 往大里说,这玩意儿叫知识图谱Knowledge Graph。目前谁都搞不动。
: 再简单点,就是一个language parser,和语义抽提,厉害国叫舆情分析。。。
: 最简单的,直接偷谷歌搜索结果,几行代码就完事了。

T
TeacherWei

强人工智能,可控核聚变,时间旅行,都有人在搞。也是年薪80万都不到。

【 在 xiaoju(可爱的龙猫) 的大作中提到: 】

: 知识图谱有个屁搞不动的,国内是个电商公司就有

: 搞这个的人年薪甚至上不了80万rmb。

n
netghost

软件项目都是几行代码的事情,这么讲除了纯装比,没什么point.

你给的这个是database dump, 并不是crawl,而且crawl主要不是技术问题,而是别人
让不让你crawl.

【 在 TeacherWei (TW) 的大作中提到: 】
: 都爬下来也就是几行代码的事情。
: 况且wikipedia本身就开放全数据库下载。
: https://en.m.wikipedia.org/wiki/Wikipedia:Database_download#XOWA
: 有一说一。。。
:
: 你把wikipedia爬下來是一個比做個chatbot前端麻煩很多的事情,所以我覺得這
: 麼搞沒
:
: 什麼意義。
:

x
xiaoju

这么大岁数从没用过google?

Wiki是开放下载的,而且下载的方式也被搜索引擎的内部知识图谱收录了,直接把此问题贴网上搜搜吧。对了,人家知道你不懂英文,还做了几十种语言的页面介绍怎么下载,

【 在 netghost (Up to Isomorphism) 的大作中提到: 】
: 软件项目都是几行代码的事情,这么讲除了纯装比,没什么point.
: 你给的这个是database dump, 并不是crawl,而且crawl主要不是技术问题,而是别人
: 让不让你crawl.

x
xiaoju

这些科幻话题的东西,主要看文学家的努力了

国内搞知识图谱比熟练java码农的招聘工资稍高点,但高不了太多,打不过资深金融口这种。

【 在 TeacherWei (TW) 的大作中提到: 】
: 标 题: Re: 大家不要吵了,请教一个深度学习的问题
: 发信站: BBS 未名空间站 (Tue May 5 20:35:16 2020, 美东)
:
: 强人工智能,可控核聚变,时间旅行,都有人在搞。也是年薪80万都不到。
:
:
: 【 在 xiaoju(可爱的龙猫) 的大作中提到: 】
:
: 知识图谱有个屁搞不动的,国内是个电商公司就有
:
: 搞这个的人年薪甚至上不了80万rmb。
:

: --
s
sunshineboy

有类似的论文 其实结果在我看来就是屎。 但已经代表人类最高水平了

f
fangtuo2

能分享一下链接吗?谢谢

【 在 sunshineboy(阳光男孩) 的大作中提到: 】

: 有类似的论文 其实结果在我看来就是屎。 但已经代表人类最高水平了

s
sunshineboy
https://rajpurkar.github.io/SQuAD-explorer/

这些打榜的文章基本都用到了wikipedia的数据训练 你可以看一看

transformer的确是目前的state of the art

但依然不尽如人意

【 在 fangtuo2 (方鸵) 的大作中提到: 】
: 其实也是一个很虚的问题:如果我把wikipidia爬下来,理论上讲有一个比较完备的知
: 识库的。那我能不能做一个chatbot回答这个知识库里涉及到的问题呢?
: 其实这个问题就是想问各位NLP怎么解决知识库的前端交互。
: 借人气问问,谢谢各位深学前辈了。

r
repast

你搜一下DrQA, 陈担起三四年前的工作了。
阿里和FB都有一个复现,你严肃做可能应该上ParlAI上面做。
今天有空看了一下,架起来看看对自己能否有点小用。
应该满足你首贴的要求。

【 在 fangtuo2 (方鸵) 的大作中提到: 】
: 能分享一下链接吗?谢谢

s
squirrelrun

多谢信息。

【 在 sunshineboy (阳光男孩) 的大作中提到: 】
: https://rajpurkar.github.io/SQuAD-explorer/
: 这些打榜的文章基本都用到了wikipedia的数据训练 你可以看一看
: transformer的确是目前的state of the art
: 但依然不尽如人意