大家不要吵了，请教一个深度学习的问题

大约 5 年

楼主 (未名空间)

其实也是一个很虚的问题：如果我把wikipidia爬下来，理论上讲有一个比较完备的知
识库的。那我能不能做一个chatbot回答这个知识库里涉及到的问题呢？

其实这个问题就是想问各位NLP怎么解决知识库的前端交互。

借人气问问，谢谢各位深学前辈了。

TeacherWei

大约 5 年

你要这样想，如何定义能不能呢？经典的答案是图灵测试（Turing Test）。
咱们先不管无意义的争论，先设想一下结果：

首先，目前看，还是不能，差的不是一般的多。。。我介绍给你的那个NLP的群，你也
经常看吧。

其次，就算能力到达了某个程度，也不会去做wikipedia那种无聊的应用，首先应该用
来干掉码工们才对，然后就是深学自己深学自己了。。。

很虚的问题，答案很实的，逻辑很清晰，大家都不要精神分裂。

chebyshev

大约 5 年

你把他去人化了。

他問的是：
“我”能不能做一个chatbot回答这个知识库里涉及到的问题呢

我的看法是，"他"不能。
對"他"尊重的回答，反而往往是讓人生氣。
【在 TeacherWei (TW) 的大作中提到: 】
: 你要这样想，如何定义能不能呢？经典的答案是图灵测试（Turing Test）。
: 咱们先不管无意义的争论，先设想一下结果：
: 首先，目前看，还是不能，差的不是一般的多。。。我介绍给你的那个NLP的群，你也
: 经常看吧。
: 其次，就算能力到达了某个程度，也不会去做wikipedia那种无聊的应用，首先应该用
: 来干掉码工们才对，然后就是深学自己深学自己了。。。
: 很虚的问题，答案很实的，逻辑很清晰，大家都不要精神分裂。

repast

大约 5 年

这个已经有人做过了啊，phd都读完了，文章发过，github也随便用了。
问答系统就是解决前端交互的一个shortcut, 抄近路快变现，也能开辟
一个领域，养很多人。我一个民科看这个方向就是这个套路，能解决的是
考前抱佛脚的那种学习，或者gre阅读题的水平。

关键是知识库能不能玩出花，我内心在计划一个有关的项目，不一定能开始，不是用
wikipedia

【在 fangtuo2 (方鸵) 的大作中提到: 】
: 其实也是一个很虚的问题：如果我把wikipidia爬下来，理论上讲有一个比较完备的知
: 识库的。那我能不能做一个chatbot回答这个知识库里涉及到的问题呢？
: 其实这个问题就是想问各位NLP怎么解决知识库的前端交互。
: 借人气问问，谢谢各位深学前辈了。

repast

大约 5 年

哪个NLP群，可以介绍一下吗？

【在 TeacherWei (TW) 的大作中提到: 】
: 你要这样想，如何定义能不能呢？经典的答案是图灵测试（Turing Test）。
: 咱们先不管无意义的争论，先设想一下结果：
: 首先，目前看，还是不能，差的不是一般的多。。。我介绍给你的那个NLP的群，你也
: 经常看吧。
: 其次，就算能力到达了某个程度，也不会去做wikipedia那种无聊的应用，首先应该用
: 来干掉码工们才对，然后就是深学自己深学自己了。。。
: 很虚的问题，答案很实的，逻辑很清晰，大家都不要精神分裂。

TeacherWei

大约 5 年

都是我一个老朋友李维介绍的。你搜一下李维NLP就知道了。
现在我的微信被封了，同时我也在去微信化。

【在 repast (xebec) 的大作中提到: 】
: 哪个NLP群，可以介绍一下吗？

netghost

大约 5 年

你把wikipedia爬下來是一個比做個chatbot前端麻煩很多的事情，所以我覺得這麼搞沒什麼意義。

【在 fangtuo2 (方鸵) 的大作中提到: 】
: 其实也是一个很虚的问题：如果我把wikipidia爬下来，理论上讲有一个比较完备的知
: 识库的。那我能不能做一个chatbot回答这个知识库里涉及到的问题呢？
: 其实这个问题就是想问各位NLP怎么解决知识库的前端交互。
: 借人气问问，谢谢各位深学前辈了。

helpme

大约 5 年

你这朋友三年前跑出来赚钱，好像都干不久，survive不了？

【在 TeacherWei (TW) 的大作中提到: 】
: 都是我一个老朋友李维介绍的。你搜一下李维NLP就知道了。
: 现在我的微信被封了，同时我也在去微信化。

fangtuo2

大约 5 年

对，我是干不了，所以才来问。

我是问能不能找一个对nlp有一定训练的phd指导我这个老年马工找找开源项目，写写胶水代码，搭一个类似的系统出来。

所以请后面的人不要被切比雪夫同学的回答把讨论带偏了。

【在 chebyshev(......) 的大作中提到: 】

: 你把他去人化了。

: 他問的是：

: “我”能不能做一个chatbot回答这个知识库里涉及到的问题呢

: 我的看法是，"他"不能。

: 對"他"尊重的回答，反而往往是讓人生氣。

fangtuo2

大约 5 年

其实这个问题并不需。

只是我的水平低，没有把问题分解成executable的工程问题而已。有水平的nlp的专家
，能吧这个问题分解到老年工程是写python code的粒度的。

所以我觉得深度学习的phd，如果语言好，应该走产品经理的路。

【在 TeacherWei(TW) 的大作中提到: 】

: 你要这样想，如何定义能不能呢？经典的答案是图灵测试（Turing Test）。

: 咱们先不管无意义的争论，先设想一下结果：

: 首先，目前看，还是不能，差的不是一般的多。。。我介绍给你的那个NLP的群
，你也

: 经常看吧。

: 其次，就算能力到达了某个程度，也不会去做wikipedia那种无聊的应用，首先
应该用

: 来干掉码工们才对，然后就是深学自己深学自己了。。。

: 很虚的问题，答案很实的，逻辑很清晰，大家都不要精神分裂。

TeacherWei

大约 5 年

都爬下来也就是几行代码的事情。
况且wikipedia本身就开放全数据库下载。
https://en.m.wikipedia.org/wiki/Wikipedia:Database_download#XOWA

有一说一。。。

【在 netghost(Up to Isomorphism) 的大作中提到: 】

: 你把wikipedia爬下來是一個比做個chatbot前端麻煩很多的事情，所以我覺得這麼搞沒

: 什麼意義。

TeacherWei

大约 5 年

这是一个图灵奖炸药奖一个都不少的项目。
人类目前看还暂时没戏。
没准是好事。

【在 fangtuo2(方鸵) 的大作中提到: 】

: 其实这个问题并不需。

: 只是我的水平低，没有把问题分解成executable的工程问题而已。有水平的nlp
的专家

: ，能吧这个问题分解到老年工程是写python code的粒度的。

: 所以我觉得深度学习的phd，如果语言好，应该走产品经理的路。

: ，你也

: 应该用

fangtuo2

大约 5 年

没你想象的那么神，有人能做，所以才上来问 — 又不是做图灵测试系统。

就是一个工程项目而已。现在很多AI其实就是变魔术，就看有没有人把魔术方法教给你了。

本帖不讨论什么革命性的东西啊，也不讨论什么未来科技，谢谢。

就是请教有没有人思考过变这个魔术的方法而已（我看别人变过一个简单的，当然人家不会分享里面的细节）

【在 TeacherWei(TW) 的大作中提到: 】

: 这是一个图灵奖炸药奖一个都不少的项目。

: 人类目前看还暂时没戏。

: 没准是好事。

: 的专家

Caravel

大约 5 年

https://www.wolframalpha.com/

这就是你想做的东西把，stephen wolfram花了很大人力物力做的，离理解整个wiki也
差的很远

【在 fangtuo2 (方鸵) 的大作中提到: 】
: 没你想象的那么神，有人能做，所以才上来问 — 又不是做图灵测试系统。
: 就是一个工程项目而已。现在很多AI其实就是变魔术，就看有没有人把魔术方法教给你
: 了。
: 本帖不讨论什么革命性的东西啊，也不讨论什么未来科技，谢谢。
: 就是请教有没有人思考过变这个魔术的方法而已（我看别人变过一个简单的，当然人家
: 不会分享里面的细节）
:
: 这是一个图灵奖炸药奖一个都不少的项目。
:
: 人类目前看还暂时没戏。
:
: 没准是好事。
:
: 的专家
: ...................

TeacherWei

大约 5 年

那就简单多了，苹果亚马逊谷歌微软的语音助手都能回答问题，很多答案都是
Wikipedia直接抓的。
你找老李帮忙，先说好，做个扯蛋的就可以，对他来讲不是问题。

【在 fangtuo2(方鸵) 的大作中提到: 】

: 没你想象的那么神，有人能做，所以才上来问 — 又不是做图灵测试系统。

: 就是一个工程项目而已。现在很多AI其实就是变魔术，就看有没有人把魔术方法教给你

: 了。

: 本帖不讨论什么革命性的东西啊，也不讨论什么未来科技，谢谢。

: 就是请教有没有人思考过变这个魔术的方法而已（我看别人变过一个简单的，当然人家

: 不会分享里面的细节）

fangtuo2

大约 5 年

“苹果亚马逊谷歌微软的语音助手都能回答问题，很多答案都是
Wikipedia直接抓的。”

大约是这么个东西... text based

【在 TeacherWei(TW) 的大作中提到: 】

: 那就简单多了，苹果亚马逊谷歌微软的语音助手都能回答问题，很多答案都是

: Wikipedia直接抓的。

: 你找老李帮忙，先说好，做个扯蛋的就可以，对他来讲不是问题。

: 教给你

: 然人家

repast

大约 5 年

github 一克隆就出来了，可能你都不需要写啥。

【在 fangtuo2 (方鸵) 的大作中提到: 】
: 对，我是干不了，所以才来问。
: 我是问能不能找一个对nlp有一定训练的phd指导我这个老年马工找找开源项目，写写胶
: 水代码，搭一个类似的系统出来。
: 所以请后面的人不要被切比雪夫同学的回答把讨论带偏了。
:
: 你把他去人化了。
:
: 他問的是：
:
: “我”能不能做一个chatbot回答这个知识库里涉及到的问题呢
:
: 我的看法是，"他"不能。
:
: 對"他"尊重的回答，反而往往是讓人生氣。
:

guvest

大约 5 年

过五年，看看这个贴谁的答案对。
我之前提供的這幾句話，乃是語言分析科班知識。
不是要帶歪你。
【在 fangtuo2 (方鸵) 的大作中提到: 】
: 对，我是干不了，所以才来问。
: 我是问能不能找一个对nlp有一定训练的phd指导我这个老年马工找找开源项目，写写胶
: 水代码，搭一个类似的系统出来。
: 所以请后面的人不要被切比雪夫同学的回答把讨论带偏了。
:
: 你把他去人化了。
:
: 他問的是：
:
: “我”能不能做一个chatbot回答这个知识库里涉及到的问题呢
:
: 我的看法是，"他"不能。
:
: 對"他"尊重的回答，反而往往是讓人生氣。
:

TeacherWei

大约 5 年

看你想咋干呗？
往大里说，这玩意儿叫知识图谱Knowledge Graph。目前谁都搞不动。
再简单点，就是一个language parser，和语义抽提，厉害国叫舆情分析。。。
最简单的，直接偷谷歌搜索结果，几行代码就完事了。

【在 fangtuo2 (方鸵) 的大作中提到: 】
: “苹果亚马逊谷歌微软的语音助手都能回答问题，很多答案都是
: Wikipedia直接抓的。”
: 大约是这么个东西... text based
:
: 那就简单多了，苹果亚马逊谷歌微软的语音助手都能回答问题，很多答案都是:
: Wikipedia直接抓的。
:
: 你找老李帮忙，先说好，做个扯蛋的就可以，对他来讲不是问题。
:
: 教给你
:
: 然人家
:

Caravel

大约 5 年

需要提供结构化的知识，目前唯一的办法就是人力coding

【在 TeacherWei (TW) 的大作中提到: 】
: 看你想咋干呗？
: 往大里说，这玩意儿叫知识图谱Knowledge Graph。目前谁都搞不动。
: 再简单点，就是一个language parser，和语义抽提，厉害国叫舆情分析。。。
: 最简单的，直接偷谷歌搜索结果，几行代码就完事了。

xiaoju

大约 5 年

这玩意早就有了，俗称google。

把谷歌使用方法仔细研究一下，人家已经上线多少年了

【在 fangtuo2 (方鸵) 的大作中提到: 】
: 其实也是一个很虚的问题：如果我把wikipidia爬下来，理论上讲有一个比较完备的知
: 识库的。那我能不能做一个chatbot回答这个知识库里涉及到的问题呢？
: 其实这个问题就是想问各位NLP怎么解决知识库的前端交互。
: 借人气问问，谢谢各位深学前辈了。

xiaoju

大约 5 年

你纸上谈兵要有个限度，谷歌早就不搞pagerank了，现在的搜索实际上都是知识库问答

【在 chebyshev (......) 的大作中提到: 】
: 你把他去人化了。
: 他問的是：
: “我”能不能做一个chatbot回答这个知识库里涉及到的问题呢
: 我的看法是，"他"不能。
: 對"他"尊重的回答，反而往往是讓人生氣。

xiaoju

大约 5 年

wiki早就被人做成nlp标准数据集了，还爬wiki。。。你就是天天上网骂街太多才这么
不接地气

【在 netghost (Up to Isomorphism) 的大作中提到: 】
: 标题: Re: 大家不要吵了，请教一个深度学习的问题
: 发信站: BBS 未名空间站 (Tue May 5 16:01:35 2020, 美东)
:
: 你把wikipedia爬下來是一個比做個chatbot前端麻煩很多的事情，所以我覺得這麼搞沒
: 什麼意義。
:
:
: 【在 fangtuo2 (方鸵) 的大作中提到: 】
: : 其实也是一个很虚的问题：如果我把wikipidia爬下来，理论上讲有一个比较完备
的知
: : 识库的。那我能不能做一个chatbot回答这个知识库里涉及到的问题呢？
: : 其实这个问题就是想问各位NLP怎么解决知识库的前端交互。
: : 借人气问问，谢谢各位深学前辈了。
:
:
:
: --
:

xiaoju

大约 5 年

netghost的所有知识还停留在十几年前

【在 TeacherWei (TW) 的大作中提到: 】
: 标题: Re: 大家不要吵了，请教一个深度学习的问题
: 发信站: BBS 未名空间站 (Tue May 5 16:36:17 2020, 美东)
:
: 都爬下来也就是几行代码的事情。
: 况且wikipedia本身就开放全数据库下载。
:
: https://en.m.wikipedia.org/wiki/Wikipedia:Database_download#XOWA
:
: 有一说一。。。
:
:
: 【在 netghost(Up to Isomorphism) 的大作中提到: 】
:
: 你把wikipedia爬下來是一個比做個chatbot前端麻煩很多的事情，所以我覺得這
: 麼搞沒
:
: 什麼意義。
:

: --

xiaoju

大约 5 年

wiki数据集是无监督训练nlp模型的标配

【在 fangtuo2 (方鸵) 的大作中提到: 】
: “苹果亚马逊谷歌微软的语音助手都能回答问题，很多答案都是
: Wikipedia直接抓的。”
: 大约是这么个东西... text based
:
: 那就简单多了，苹果亚马逊谷歌微软的语音助手都能回答问题，很多答案都是:
: Wikipedia直接抓的。
:
: 你找老李帮忙，先说好，做个扯蛋的就可以，对他来讲不是问题。
:
: 教给你
:
: 然人家
:

xiaoju

大约 5 年

知识图谱有个屁搞不动的，国内是个电商公司就有

搞这个的人年薪甚至上不了80万rmb。

【在 TeacherWei (TW) 的大作中提到: 】
: 看你想咋干呗？
: 往大里说，这玩意儿叫知识图谱Knowledge Graph。目前谁都搞不动。
: 再简单点，就是一个language parser，和语义抽提，厉害国叫舆情分析。。。
: 最简单的，直接偷谷歌搜索结果，几行代码就完事了。

TeacherWei

大约 5 年

强人工智能，可控核聚变，时间旅行，都有人在搞。也是年薪80万都不到。

【在 xiaoju(可爱的龙猫) 的大作中提到: 】

: 知识图谱有个屁搞不动的，国内是个电商公司就有

: 搞这个的人年薪甚至上不了80万rmb。

netghost

大约 5 年

软件项目都是几行代码的事情，这么讲除了纯装比，没什么point.

你给的这个是database dump, 并不是crawl，而且crawl主要不是技术问题，而是别人
让不让你crawl.

【在 TeacherWei (TW) 的大作中提到: 】
: 都爬下来也就是几行代码的事情。
: 况且wikipedia本身就开放全数据库下载。
: https://en.m.wikipedia.org/wiki/Wikipedia:Database_download#XOWA
: 有一说一。。。
:
: 你把wikipedia爬下來是一個比做個chatbot前端麻煩很多的事情，所以我覺得這
: 麼搞沒
:
: 什麼意義。
:

xiaoju

大约 5 年

这么大岁数从没用过google？

Wiki是开放下载的，而且下载的方式也被搜索引擎的内部知识图谱收录了，直接把此问题贴网上搜搜吧。对了，人家知道你不懂英文，还做了几十种语言的页面介绍怎么下载，

【在 netghost (Up to Isomorphism) 的大作中提到: 】
: 软件项目都是几行代码的事情，这么讲除了纯装比，没什么point.
: 你给的这个是database dump, 并不是crawl，而且crawl主要不是技术问题，而是别人
: 让不让你crawl.

xiaoju

大约 5 年

这些科幻话题的东西，主要看文学家的努力了

国内搞知识图谱比熟练java码农的招聘工资稍高点，但高不了太多，打不过资深金融口这种。

【在 TeacherWei (TW) 的大作中提到: 】
: 标题: Re: 大家不要吵了，请教一个深度学习的问题
: 发信站: BBS 未名空间站 (Tue May 5 20:35:16 2020, 美东)
:
: 强人工智能，可控核聚变，时间旅行，都有人在搞。也是年薪80万都不到。
:
:
: 【在 xiaoju(可爱的龙猫) 的大作中提到: 】
:
: 知识图谱有个屁搞不动的，国内是个电商公司就有
:
: 搞这个的人年薪甚至上不了80万rmb。
:

: --

sunshineboy

大约 5 年

有类似的论文其实结果在我看来就是屎。但已经代表人类最高水平了

fangtuo2

大约 5 年

能分享一下链接吗？谢谢

【在 sunshineboy(阳光男孩) 的大作中提到: 】

: 有类似的论文其实结果在我看来就是屎。但已经代表人类最高水平了

sunshineboy

大约 5 年

https://rajpurkar.github.io/SQuAD-explorer/

这些打榜的文章基本都用到了wikipedia的数据训练你可以看一看

transformer的确是目前的state of the art

但依然不尽如人意

【在 fangtuo2 (方鸵) 的大作中提到: 】
: 其实也是一个很虚的问题：如果我把wikipidia爬下来，理论上讲有一个比较完备的知
: 识库的。那我能不能做一个chatbot回答这个知识库里涉及到的问题呢？
: 其实这个问题就是想问各位NLP怎么解决知识库的前端交互。
: 借人气问问，谢谢各位深学前辈了。

repast

大约 5 年

你搜一下DrQA, 陈担起三四年前的工作了。
阿里和FB都有一个复现，你严肃做可能应该上ParlAI上面做。
今天有空看了一下，架起来看看对自己能否有点小用。
应该满足你首贴的要求。

【在 fangtuo2 (方鸵) 的大作中提到: 】
: 能分享一下链接吗？谢谢

squirrelrun

大约 5 年

多谢信息。

【在 sunshineboy (阳光男孩) 的大作中提到: 】
: https://rajpurkar.github.io/SQuAD-explorer/
: 这些打榜的文章基本都用到了wikipedia的数据训练你可以看一看
: transformer的确是目前的state of the art
: 但依然不尽如人意