亚洲在线久爱草,狠狠天天香蕉网,天天搞日日干久草,伊人亚洲日本欧美

為了賬號安全,請及時綁定郵箱和手機立即綁定

Active learning 主動學習的來世今生

標簽:
人工智能

Active learning Survey
主动学习的来世今生

核心思想:主动学习可以基于较少的已标注的数据量得到同样好的模型准确率。

在几乎所有的机器学习问题中,虽然未标注数据很丰富且易于获得,但是标注数据却很少或者需要大量的人工标注(成本问题)。所以主动学习是解决问题的核心方法之一。

这篇文章提供了一个主动学习详细的介绍和相关文献的总结。主要包括解决方案,查询策略框架,主动学习的分析,设置变量的问题,实际问题考虑,相关研究领域。

reference:
Burr Settles. Active Learning Literature Survey. Computer Sciences Technical
Report 1648, University of Wisconsin–Madison. 2009.


————————————
1.1 主动学习
主动学习,又称查询学习,最优实验设计,是机器学习的一个子领域。关键的假设前提是算法可以选择一部分数据去学习。

流程如下:



active learning vs passive learning:



2 解决方案

在文献中有三种主要的设想:成员查询合成,基于流的选择性抽样,基于池的抽样


具体差别如下:


3 查询策略框架
3.1 不确定性抽样
最简单最常用的框架。主要是计算最小自信度。为了克服最小自信度仅仅考虑正确标注的问题,边际抽样被提出来解决多酚类不确定抽样问题。再后来,一种更广义的抽样策略(最著名)被提出,适用香农熵来抽样。
这三种方法几乎相同当一类的后验概率接近于0.5。




三种方法的区别如上图所示,entropy的最高信息提取区域最大适用性最强,但是在一个特殊分类标注的数据上不如前两者(比如仅有一个标注是高度不可能的)


不确定抽样可以应用于分类问题,也可以应用于连续变量的回归问题。

到这里为止, 我发现我需要解决的问题是,怎么使得中文文本变成可分析可计算的样本呢,怎么分句,怎么选择,怎么计算字的信息熵从而实现不确定性抽样得到我所需要的高信息熵的未标注文本样本呢。

原文出处

點擊查看更多內容
TA 點贊

若覺得本文不錯,就分享一下吧!

評論

作者其他優質文章

正在加載中
  • 推薦
  • 評論
  • 收藏
  • 共同學習,寫下你的評論
感謝您的支持,我會繼續努力的~
掃碼打賞,你說多少就多少
贊賞金額會直接到老師賬戶
支付方式
打開微信掃一掃,即可進行掃碼打賞哦
今天注冊有機會得

100積分直接送

付費專欄免費學

大額優惠券免費領

立即參與 放棄機會
微信客服

購課補貼
聯系客服咨詢優惠詳情

幫助反饋 APP下載

慕課網APP
您的移動學習伙伴

公眾號

掃描二維碼
關注慕課網微信公眾號

舉報

0/150
提交
取消