看帖神器
北美华人网
追帖动态
头条新闻
每日新帖
最新热帖
新闻存档
热帖存档
文学城
虎扑论坛
未名空间
北美华人网
北美微论坛
看帖神器
登录
← 下载
《看帖神器》官方
iOS App
,体验轻松追帖。
小红书禁止所有搜索引擎抓取其内容,只能通过站内手动搜索
查看北美华人网今日新帖
最新回复:2024年3月30日 2点1分 PT
共 (3) 楼
返回列表
订阅追帖
只看未读
更多选项
阅读全帖
只看图片
只看视频
查看原帖
c
carinas
大约 2 个月
楼主 (北美华人网)
百度搜索目前已经收录小红书网站上 7 亿 9807 万个网页,谷歌则只索引了小红书网站的首页,为什么呢?因为小红书早已禁止所有搜索引擎抓取小红书的内容。小红书的 robots.txt 文件已经明确禁止所有搜索引擎抓取内容,不过蓝点网检索后发现实际上小红书是在 2023 年 4 月 2 日修改 robots.txt 文件的,转眼间这都修改了 1 年。 目前并不清楚小红书为什么禁止搜索引擎抓取内容,从 SEO 角度来说,允许搜索引擎抓取有助于给小红书带来更多流量,毕竟现在百度都索引了 7 亿多个网页。 而且小红书是去年 4 月修改的,所以估计也不是因为防止被抓取内容训练 AI 吧?但小红书目前的内容库拿去训练 AI 确实很有价值,毕竟巨量文字和图片内容。 不过 robots.txt 文件只是君子协定,属于防君子不妨小人的那种,除了会导致用户无法从搜索引擎直接查询小红书内容外,其实帮助也不大,毕竟其他非搜索引擎的爬虫也会继续抓取内容,小红书肯定也做了反爬措施了。 现在国内的网站禁止搜索引擎抓取已经是个很常见的事情,或者专门预留一些层级目录供搜索引擎抓取想要获得一些流量,更有甚者甚至别说搜索引擎了,就连正常的用户访问也会被拦截,必须注册账号登录后才能继续访问,这显然不是一个好事情。
附小红书 2023 年 4 月 2 日的 robots.txt 信息:
下面是小红书最新的 robots.txt 信息:
t
towards
大约 2 个月
2 楼
因为小红书上很多东西都是盗取 youtube Ins 和 pinterest 的 会有知识产权问题?
v
vivianna
大约 2 个月
3 楼
回复 2楼 towards 的帖子
百度现在已经搜不到什么像样的东西了,大家都在圈地,数据也是资产了,百度完成了逻辑自洽,搜出来的答案都是垃圾 我现在学习东西都是去b站找课程,生活问题就搜抖音和小红书
请输入帖子链接
收藏帖子
附小红书 2023 年 4 月 2 日的 robots.txt 信息: 下面是小红书最新的 robots.txt 信息:
百度现在已经搜不到什么像样的东西了,大家都在圈地,数据也是资产了,百度完成了逻辑自洽,搜出来的答案都是垃圾 我现在学习东西都是去b站找课程,生活问题就搜抖音和小红书