Home > MachineLearning > Main text

Google ML rules


Tag: python, machine learning

目录


机器学习规则(google: Rules of ML):

术语

  1. 实例:要对其进行预测的事物。
  2. 标签:预测任务的答案,训练数据的或者对新样本预测的结果。
  3. 特征:使用的实例的属性。
  4. 特征列:一组相关特征。
  5. 样本:一个实例和一个标签。
  6. 模型:预测任务的统计表示法。
  7. 指标:关心的某个数值。比如评估模型好坏的某些量值。
  8. 目标:算法尝试优化的一种指标。
  9. 管道:pipeline,机器学习算法的基础架构。
  10. 点击率:点击广告中的链接的网页访问者所占的百分比。

概览

进行机器学习的基本方法是:

  1. 确保管道从头到尾都稳固可靠。
  2. 从制定合理的目标开始。
  3. 以简单的方式添加常识性特征。
  4. 确保管道始终稳固可靠。

机器学习之前

  • 【1】产品并非需要机器学习技术,在未获得足够数据前,请勿使用。
  • 【2】首先设计并实现指标。
  • 【3】选择机器学习技术而非复杂的启发式算法。

第一阶段:第一个pipeline

  • 【4】自己搭建的第一个模型应简单易用。
  • 【5】模型部分单独封装,其他的数据部分单独测试。
  • 【6】复制pipeline时注意丢弃的数据。在更新机器学习算法时注意,旧数据的可用性取舍。
  • 【7】启发式算法的信息转为特征。1)启发式算法预处理,比如发件人已加入黑名单,不要再学习黑名单的定义。2)创建特征。3)挖掘启发式算法的原始输入。4)修改标签。比如根据常识进行适当的变化等。

监控

  • 【8】系统对于实时更新程度的要求,不同的产品对于更新的要求不同。比如微博等需要实时更新。
  • 【9】导出模型用于新数据的预测之前需要先进行检测评估。
  • 【10】注意隐藏的问题。比如数据的实时更新,可能提升模型的效果。
  • 【11】记录特征的来源信息(作者、文档等)。

第一个目标

  • 【12】选择优化目标时,不要纠结。
  • 【13】可观察可归因的简单指标。
  • 【14】选择可解释的模型,方便调试。
  • 【15】在策略层区分垃圾内容和质量排名。

特征工程

  • 【16】制定发布和迭代模型计划。提前规划添加新特征、调整目标等。
  • 【17】从可直接观察和报告的特征着手。
  • 【18】探索可跨情景泛化的内容的特征。
  • 【19】使用具体的特征。
  • 【20】创建新特征时尽可能简单。
  • 【21】在线性模型中学习的特征权重数目与数据量大致成正比。
  • 【22】清理不使用的特征。

人工分析

  • 【23】让用户参与评估,以体验的方式。
  • 【24】衡量模型间的差异。
  • 【25】实用比预测效果更重要。
  • 【26】基于效果评估寻找规律,创建新特征以优化模型。
  • 【27】尝试量化观察到的异常行为,先量化再优化。
  • 【28】关注数据行为的稳定性或者模型的稳定性。

训练-应用偏差

  • 【29】应用时的一些特征可以记录下来,在训练时使用,防止训练模型效果很好,但是应用效果很差。
  • 【30】按重要性加权对数据采样,不能随意丢弃数据。
  • 【31】注意训练或者应用期间数据是否变化。
  • 【32】训练和应用时使用相同的代码。
  • 【33】用当前的数据训练模型,明天及之后的模型进行测试。
  • 【34】二元分类,可在短期内牺牲一点效果,以获得更高质量的数据。
  • 【35】排名问题中存在的股友偏差。
  • 【36】通过位置特征避免出现反馈环。
  • 【37】训练-应用数据之间的偏差。

缓慢增长、优化细化和复杂模型

  • 【38】如果目标不协调,并成为问题,就不要在新特征上浪费时间。
  • 【39】发布决策代表的是长期产品目标。
  • 【40】保证集成学习简单化。
  • 【41】效果达到平稳后,寻找与现有信号有质的差别的新信息源并添加进来,而不是优化现有信号。
  • 【42】不要期望多样性、个性化或相关性与热门程度之间的联系有您认为的那样密切。
  • 【43】在不同的产品中,您的好友基本保持不变,但您的兴趣并非如此。


If you link this blog, please refer to this page, thanks!
Post link:https://tsinghua-gongjing.github.io/posts/google_ML_rules.html

Previous: Using DESeq2 to do differential expression analysis