亚洲在线久爱草,狠狠天天香蕉网,天天搞日日干久草,伊人亚洲日本欧美

為了賬號安全,請及時綁定郵箱和手機立即綁定

數據科學正在消亡;這是原因

为什么85%的数据科学项目失败

在阅读之前,这里有一个快速声明。除了我提到的统计信息外,其余内容只是我的个人看法。请谨慎对待。否则,希望您能享受阅读!

数据科学项目的失败率是一个众所周知的挑战。根据Gartner,超过85%的数据科学项目失败

Dimensional Research 发布的一份报告显示,只有4%的公司成功地将机器学习模型部署到了生产环境中。我最近发现,Kaggle竞赛中的最佳结果并不总是能转化为实际应用的效果。

Kaggle竞赛是用于练习的

在最近我参加的一次竞赛中,获胜者通过将互联网上的真实世界数据整合到提供的数据集中作弊。任务是根据历史数据预测从2024年5月22日到2024年6月4日这一周的美元-奈拉汇率。这位不愿透露姓名的获胜者在那些日期到来后,收集了真实世界的数据,将其整合到训练集中,并基于更新后的数据集构建了滞后特征(7个滞后)和多步目标(13个步骤)。

这是明显的作弊;当然,他会赢得比赛。你怎么能用真实世界的数据来训练你的模型、预测真实世界的结果,然后又故意不提这一点呢?你不应该用实际的未来数据来训练你的模型,去预测同样的未来数据。你是不是时间旅行者啊?我一点也 不佩服😤。我其实一直关注他的工作,所以现在很心痛。阅读他的解决方案,如果你觉得我在夸大其词。如果你要作弊,就大大方方地作弊。

至于第二名的获奖者,他之所以能获得这个位置,唯一的原因是他是在Kaggle上训练了他的模型。Kaggle上的模型是民主化的,所以这并不算什么。他可能只是在平台上尝试了不同的随机种子,直到超过了最佳分数。这是他的解决方案

他甚至自己也承认了。至少他的方法比第一个更实际。他值得获胜;可惜他没有作弊。

这并不是说我们应该开始欺骗自己。“敌不过就加入他们”在这种情况下并不适用。Kaggle竞赛和其他大多数数据科学竞赛的主要问题在于,它们经常跳过了任何数据科学项目中最关键的部分:获取和清洗数据集。通过我的深入研究,我发现,在现实世界中,建模并没有那么重要。让我解释一下。

在实际场景中,一旦公司有了清洗过的数据集,他们只需将其输入到一个自动机器学习系统中,该系统就会为该数据集生成最佳模型。此外,大多数现实世界的问题都涉及分类和回归,对于这些问题,梯度提升模型被广泛认为是最好的模型。如果你对此有所怀疑,可以查证一下!

大多数研究都是垃圾

抱歉用词不当,但当我们已经知道哪些模型最适合食品需求预测等问题时,为什么还要做研究来确定哪些模型更好呢?这就像在跑步机上跑步一样,完全无用的研究。相信我,那些声称“证明”相反的论文,它们的数据集是特意收集的,甚至对数据集进行了操纵,并展示特定的可视化结果,以强化他们预先设定的偏见。大多数这些项目在实际生活中根本无法应用。

我最近实现了一篇证明我观点的研究论文。我推荐你看看这篇文章。研究人员创建了许多基于目标变量的特征;我的意思是,当然,从目标变量衍生出来的变量与目标变量会有很高的相关性。

这非常作弊,因为在预测未见过的数据时,这些特征是如何创建的?这些特征是基于你想要预测的目标创建的。当然,正如你所预料的,他基本上用一个用他想要预测的数据训练的模型来做预测。作弊!

前进的道路

那么“solulu”相对于“delulu”是什么呢?对我来说,从现在开始,我将回到磨练我的数据获取和数据清洗技能。我将回到仪表板和SQL。即使我仍然使用Python,我也会专注于数据准备和分析部分。只有在你拥有干净的数据集时,对未来进行预测才有意义,而从Google或其他网站下载干净的数据集并不能反映真实世界的数据经验。这就是我最近一直在做的事情。

我仍然相信重新实现研究项目,尽管大多数项目都有很大的偏见。我想我得更好地挑选这些项目了。

所以请跟随我提升数据技能的旅程。我想学习数据在现实世界中是如何运作的,而不是通过作弊来赢得比赛。

我的看法显然有些偏颇,再加上我是个输不起的人😭😒,所以我想听听你对此的看法😏。否则,敬请期待!

點擊查看更多內容
TA 點贊

若覺得本文不錯,就分享一下吧!

評論

作者其他優質文章

正在加載中
  • 推薦
  • 評論
  • 收藏
  • 共同學習,寫下你的評論
感謝您的支持,我會繼續努力的~
掃碼打賞,你說多少就多少
贊賞金額會直接到老師賬戶
支付方式
打開微信掃一掃,即可進行掃碼打賞哦
今天注冊有機會得

100積分直接送

付費專欄免費學

大額優惠券免費領

立即參與 放棄機會
微信客服

購課補貼
聯系客服咨詢優惠詳情

幫助反饋 APP下載

慕課網APP
您的移動學習伙伴

公眾號

掃描二維碼
關注慕課網微信公眾號

舉報

0/150
提交
取消