机器学习

机器学习:术语

参考书:《机器学习》by 周志华。学习笔记,仅供参考:)

机器学习术语

周老师在《机器学习》一书中的开始,解释了很多关于机器学习的术语。

数据集:dataset

一组数据记录就是一个数据集(dataset)。

示例:instance

数据集里的每一个记录就是一个示例(instance)。每条记录是关于一个事件或者对象的描述。示例也叫样本(sample)。

特征:feature

反映事件或对象在某方面的表现或性质的东西就是特征(feature)。也叫属性(attribute)。

属性空间:attribute space

属性张成的空间。也叫样本空间(sample space)或输入空间。

D = { x1, x2, ..., xm }

表示包含 m 个示例的数据集。

机器学习:监管学习与无监管学习(Supervised Learning & Unsupervised Learning)

机器学习可以根据 the amount and type of supervision they get during training,分成 Supervised learning,Unsupervised earning,Semi supervised learning,还有 Reinforcement learning。

参考书:《Hands-On Machine Learning with Scikit-Learn and TensorFlow》by Aurélien Géron

监管学习:Supervised Learning

在监管学习中,喂给算法的数据里包含着期望得到的结果,这些东西叫 Labels(标签)。比如一个邮件垃圾过滤系统,训练它的时候用的邮件数据带着标签,邮件实例的标签表示邮件是正常邮件,还是垃圾邮件。

常见的监管学习任务有 Classification(分类)。邮件垃圾过滤器得到一个邮件,会知道它的类别属于正常邮件还是垃圾邮件。

我想用机器学习(Machine Learning)解决一些自己遇到的问题

有天早上起来,打开宁皓网,点开用户列表一看,我靠,一群 “开票” 广告用户名(开票请加q...)。一看就知道是用某种机器软件自动注册的用户名,每个用户名会稍微有点变化,每间隔一段时间就会自动注册一个这样的用户。我在后台添加了一个黑名单,禁止用户名里带 “票”。管用了一阵子,不过看来对方早有准备,他手工试了几下以后,发现 “票” 这个字被禁以后,他就把 “票”,改成 “Piao” 了。

后来我就干脆,把 “票”,“漂”,“Piao” ... 以及其它出现在垃圾用户名里的字符都放到黑名单里边,心想这回肯定没事了。结果第二天一早又发现,这哥们不 “开票” 改卖 “建材” 了。然后我就又禁用一轮,他一边注册, 我一边删,一边添加黑名单。后来可能是他累了,最后放弃了。我不想在页面上添加反人类的验证码,或者让用户玩拼图游戏。是不是可以通过机器学习来解决。

准备机器学习,先了解一下 Python 语言

以后我们慢慢会在课程里加一点机器学习的内容,很多跟机器学习相关的库都是用 Python 语言写的。所以我们值得花点时间了解一下这门语言。宁皓网已经发布了一个 Python 课程,用 20 分钟,介绍一下从学习的准备到语法的基础。假设你对程序设计有了一点基础,了解一些基础的概念,在课程里我会非常快速地带你了解一下 Python 语言的语法。这只是一个小小的开始,先热热身,后面还有更多内容。

课程地址https://ninghao.net/course/5133

统计

15260
分钟
0
你学会了
0%
完成

社会化网络

关于

微信订阅号

扫描微信二维码关注宁皓网,每天进步一点