1、随机森林(RF)的随机怎么理解?
RANDOM的理解有两点:一是样本的随机,二是特征的随机,随机性得优点是防止模型过拟合。
2、决策树(DT)哪几种?
有3种:ID3(信息熵,信息增益,偏好取值较多的属性)、C4.5(采用信息增益率,解决ID3偏好取值较多属性的缺点)、CART(二叉树,使用基尼指数,可用于连续性变量)。
3、大数据的处理方法有哪些?
数据采集、数据处理(ETL,spark,hive,presto[多表查询,单表求和求均值有优势],clickhouse[单个大表查询有优势],impala[多表查询,复杂聚合join优势明显])、数据分析(sql,python)、结果展现(tableau,powerbi,bplus等可视化工具)