看帖神器
未名空间
追帖动态
头条新闻
每日新帖
最新热帖
新闻存档
热帖存档
文学峸
虎扑论坛
未名空间
北美华人网
北美微论坛
看帖神器
登录
← 下载
《看帖神器》官方
iOS App
,体验轻松追帖。
一个基于文本的机器学习程序的问题
查看未名空间今日新帖
最新回复:2021年5月26日 12点16分 PT
共 (4) 楼
返回列表
订阅追帖
只看未读
更多选项
阅读全帖
只看图片
只看视频
查看原帖
n
nowwhat2012
大约 4 年
楼主 (未名空间)
写了一个小的基于TensowFlow的程序, 用于处理文本文件。用于训练的文本文件有720个, 这些文本文件有大有小, 每个平均大概有32K字节,4800个词(words; 这个是去除了stop words 后的数字)。
然后训练和测试了一下, 发现accuracy 很低, 只有1%。 试了一下模型的各种参数也不能提高 accuracy。这个一般是什么问题? 数据量不够?
多谢。
l
lightroom
大约 4 年
2 楼
试试bert transform learning
【在 nowwhat2012(Judgment day)的大作中提到:】
:写了一个小的基于TensowFlow的程序, 用于处理文本文件。用于训练的文本文件有
720个, 这些文本文件有大有小, 每个平均大概有32K字节,4800个词(words; 这个
是去除了stop words 后的数字)。
:
o
oceandeep
大约 4 年
3 楼
Target distribution怎么样?建议先来个baseline:WC + Logistical Regression,
看看accuracy如何。
【 在 nowwhat2012 (Judgment day) 的大作中提到: 】
: 写了一个小的基于TensowFlow的程序, 用于处理文本文件。用于训练的文本文件有
720
: 个, 这些文本文件有大有小, 每个平均大概有32K字节,4800个词(words; 这个是去
: 除了stop words 后的数字)。
: 然后训练和测试了一下, 发现accuracy 很低, 只有1%。 试了一下模型的各种参数也
: 不能提高 accuracy。这个一般是什么问题? 数据量不够?
: 多谢。
h
hci
大约 4 年
4 楼
什么文本?自然语言的话,先做embedding再训练,保证训练效果有大幅度的提高。
当然了,你这个几百个数据量是小了点,怎么得整个几千个吧。试试embedding再说吧。
不用谢,这些都是常识。
【 在 nowwhat2012 (Judgment day) 的大作中提到: 】
: 写了一个小的基于TensowFlow的程序, 用于处理文本文件。用于训练的文本文件有
720
: 个, 这些文本文件有大有小, 每个平均大概有32K字节,4800个词(words; 这个是去
: 除了stop words 后的数字)。
: 然后训练和测试了一下, 发现accuracy 很低, 只有1%。 试了一下模型的各种参数也
: 不能提高 accuracy。这个一般是什么问题? 数据量不够?
: 多谢。
请输入帖子链接
收藏帖子
写了一个小的基于TensowFlow的程序, 用于处理文本文件。用于训练的文本文件有720个, 这些文本文件有大有小, 每个平均大概有32K字节,4800个词(words; 这个是去除了stop words 后的数字)。
然后训练和测试了一下, 发现accuracy 很低, 只有1%。 试了一下模型的各种参数也不能提高 accuracy。这个一般是什么问题? 数据量不够?
多谢。
试试bert transform learning
【在 nowwhat2012(Judgment day)的大作中提到:】
:写了一个小的基于TensowFlow的程序, 用于处理文本文件。用于训练的文本文件有
720个, 这些文本文件有大有小, 每个平均大概有32K字节,4800个词(words; 这个
是去除了stop words 后的数字)。
:
Target distribution怎么样?建议先来个baseline:WC + Logistical Regression,
看看accuracy如何。
【 在 nowwhat2012 (Judgment day) 的大作中提到: 】
: 写了一个小的基于TensowFlow的程序, 用于处理文本文件。用于训练的文本文件有
720
: 个, 这些文本文件有大有小, 每个平均大概有32K字节,4800个词(words; 这个是去
: 除了stop words 后的数字)。
: 然后训练和测试了一下, 发现accuracy 很低, 只有1%。 试了一下模型的各种参数也
: 不能提高 accuracy。这个一般是什么问题? 数据量不够?
: 多谢。
什么文本?自然语言的话,先做embedding再训练,保证训练效果有大幅度的提高。
当然了,你这个几百个数据量是小了点,怎么得整个几千个吧。试试embedding再说吧。
不用谢,这些都是常识。
【 在 nowwhat2012 (Judgment day) 的大作中提到: 】
: 写了一个小的基于TensowFlow的程序, 用于处理文本文件。用于训练的文本文件有
720
: 个, 这些文本文件有大有小, 每个平均大概有32K字节,4800个词(words; 这个是去
: 除了stop words 后的数字)。
: 然后训练和测试了一下, 发现accuracy 很低, 只有1%。 试了一下模型的各种参数也
: 不能提高 accuracy。这个一般是什么问题? 数据量不够?
: 多谢。