一个基于文本的机器学习程序的问题

n
nowwhat2012
楼主 (未名空间)

写了一个小的基于TensowFlow的程序, 用于处理文本文件。用于训练的文本文件有720个, 这些文本文件有大有小, 每个平均大概有32K字节,4800个词(words; 这个是去除了stop words 后的数字)。

然后训练和测试了一下, 发现accuracy 很低, 只有1%。 试了一下模型的各种参数也不能提高 accuracy。这个一般是什么问题? 数据量不够?

多谢。

l
lightroom

试试bert transform learning

【在 nowwhat2012(Judgment  day)的大作中提到:】
:写了一个小的基于TensowFlow的程序, 用于处理文本文件。用于训练的文本文件有
720个, 这些文本文件有大有小, 每个平均大概有32K字节,4800个词(words; 这个
是去除了stop words 后的数字)。


o
oceandeep

Target distribution怎么样?建议先来个baseline:WC + Logistical Regression,
看看accuracy如何。

【 在 nowwhat2012 (Judgment  day) 的大作中提到: 】
: 写了一个小的基于TensowFlow的程序, 用于处理文本文件。用于训练的文本文件有
720
: 个, 这些文本文件有大有小, 每个平均大概有32K字节,4800个词(words; 这个是去
: 除了stop words 后的数字)。
: 然后训练和测试了一下, 发现accuracy 很低, 只有1%。 试了一下模型的各种参数也
: 不能提高 accuracy。这个一般是什么问题? 数据量不够?
: 多谢。

h
hci

什么文本?自然语言的话,先做embedding再训练,保证训练效果有大幅度的提高。

当然了,你这个几百个数据量是小了点,怎么得整个几千个吧。试试embedding再说吧。

不用谢,这些都是常识。

【 在 nowwhat2012 (Judgment  day) 的大作中提到: 】
: 写了一个小的基于TensowFlow的程序, 用于处理文本文件。用于训练的文本文件有
720
: 个, 这些文本文件有大有小, 每个平均大概有32K字节,4800个词(words; 这个是去
: 除了stop words 后的数字)。
: 然后训练和测试了一下, 发现accuracy 很低, 只有1%。 试了一下模型的各种参数也
: 不能提高 accuracy。这个一般是什么问题? 数据量不够?
: 多谢。