首頁手記 Active learning 主動學習的來世今生

Active learning 主動學習的來世今生

標簽：

人工智能

Active learning Survey
主动学习的来世今生

核心思想：主动学习可以基于较少的已标注的数据量得到同样好的模型准确率。

在几乎所有的机器学习问题中，虽然未标注数据很丰富且易于获得，但是标注数据却很少或者需要大量的人工标注（成本问题）。所以主动学习是解决问题的核心方法之一。

这篇文章提供了一个主动学习详细的介绍和相关文献的总结。主要包括解决方案，查询策略框架，主动学习的分析，设置变量的问题，实际问题考虑，相关研究领域。

reference：
Burr Settles. Active Learning Literature Survey. Computer Sciences Technical
Report 1648, University of Wisconsin–Madison. 2009.

————————————
1.1 主动学习
主动学习，又称查询学习，最优实验设计，是机器学习的一个子领域。关键的假设前提是算法可以选择一部分数据去学习。

流程如下：

active learning vs passive learning:

2 解决方案

在文献中有三种主要的设想：成员查询合成，基于流的选择性抽样，基于池的抽样

具体差别如下：

3 查询策略框架
3.1 不确定性抽样
最简单最常用的框架。主要是计算最小自信度。为了克服最小自信度仅仅考虑正确标注的问题，边际抽样被提出来解决多酚类不确定抽样问题。再后来，一种更广义的抽样策略（最著名）被提出，适用香农熵来抽样。
这三种方法几乎相同当一类的后验概率接近于0.5。

三种方法的区别如上图所示，entropy的最高信息提取区域最大适用性最强，但是在一个特殊分类标注的数据上不如前两者（比如仅有一个标注是高度不可能的）

不确定抽样可以应用于分类问题，也可以应用于连续变量的回归问题。

到这里为止，我发现我需要解决的问题是，怎么使得中文文本变成可分析可计算的样本呢，怎么分句，怎么选择，怎么计算字的信息熵从而实现不确定性抽样得到我所需要的高信息熵的未标注文本样本呢。

原文出处

點擊查看更多內容

為 TA 點贊

若覺得本文不錯，就分享一下吧！

評論

評論

共同學習，寫下你的評論

評論加載中...

展開查看更多評論

作者其他優質文章

正在加載中

月關寶盒

手記
篇

粉絲

105

獲贊與收藏

675

關注作者，訂閱最新文章

閱讀免費教程

后端通用面試教程

41個小節 32252 360

網絡編程入門教程

20個小節 13299 250

Pandas 入門教程

25個小節 19918 373

推薦

評論

收藏

共同學習，寫下你的評論



感謝您的支持，我會繼續努力的～

掃碼打賞，你說多少就多少

贊賞金額會直接到老師賬戶

支付方式

打開微信掃一掃，即可進行掃碼打賞哦

今天注冊有機會得

100積分直接送

付費專欄免費學

大額優惠券免費領

立即參與放棄機會

點擊
抽獎

慕課手記新用戶專享福利

恭喜你，你的運氣太好了，居然抽中了 100個積分！

恭喜你，抽中了價值元的專欄！

太棒了，直接落到你賬戶里！

積分商城里的羅技鼠標、機械鍵盤、
Kindle 閱讀器、小米平衡車
Apple iPad （10.2英寸）、大額優惠券
在等著你去兌換了噢

作者：

免費贈送

兌換碼：1111222211 復制

優惠券可用于購買實戰課、體系課
無門檻使用

先去看看，有什么好東西馬上兌換我愛學習，選課去


亚洲在线久爱草,狠狠天天香蕉网,天天搞日日干久草,伊人亚洲日本欧美

熱搜

最近搜索清空

Active learning 主動學習的來世今生

閱讀免費教程