training dataset和unbalanced dataset的设计

g
genetics123
楼主 (未名空间)

各位大神,有没有这方面的经验:
实际项目中,数据库的postive/negative data points是极度unbalanced的。比如
crime database里面有1million individual,crime有100(positive data point),剩下的全部是negative data point。
需要用这些数据建立一个machine learning model来classify将来一些人的crime。
怎样设计training dataset呢?有什么好的统计或者ML的方法吗?
谢谢。