首頁手記數據科學正在消亡；這是原因

數據科學正在消亡；這是原因

標簽：

大數據人工智能數據分析&挖掘

为什么85%的数据科学项目失败

在阅读之前，这里有一个快速声明。除了我提到的统计信息外，其余内容只是我的个人看法。请谨慎对待。否则，希望您能享受阅读！

数据科学项目的失败率是一个众所周知的挑战。根据Gartner，超过85%的数据科学项目失败。

Dimensional Research 发布的一份报告显示，只有4%的公司成功地将机器学习模型部署到了生产环境中。我最近发现，Kaggle竞赛中的最佳结果并不总是能转化为实际应用的效果。

Kaggle竞赛是用于练习的

在最近我参加的一次竞赛中，获胜者通过将互联网上的真实世界数据整合到提供的数据集中作弊。任务是根据历史数据预测从2024年5月22日到2024年6月4日这一周的美元-奈拉汇率。这位不愿透露姓名的获胜者在那些日期到来后，收集了真实世界的数据，将其整合到训练集中，并基于更新后的数据集构建了滞后特征（7个滞后）和多步目标（13个步骤）。

这是明显的作弊；当然，他会赢得比赛。你怎么能用真实世界的数据来训练你的模型、预测真实世界的结果，然后又故意不提这一点呢？你不应该用实际的未来数据来训练你的模型，去预测同样的未来数据。你是不是时间旅行者啊？我一点也不佩服😤。我其实一直关注他的工作，所以现在很心痛。阅读他的解决方案，如果你觉得我在夸大其词。如果你要作弊，就大大方方地作弊。

至于第二名的获奖者，他之所以能获得这个位置，唯一的原因是他是在Kaggle上训练了他的模型。Kaggle上的模型是民主化的，所以这并不算什么。他可能只是在平台上尝试了不同的随机种子，直到超过了最佳分数。这是他的解决方案。

他甚至自己也承认了。至少他的方法比第一个更实际。他值得获胜；可惜他没有作弊。

这并不是说我们应该开始欺骗自己。“敌不过就加入他们”在这种情况下并不适用。Kaggle竞赛和其他大多数数据科学竞赛的主要问题在于，它们经常跳过了任何数据科学项目中最关键的部分：获取和清洗数据集。通过我的深入研究，我发现，在现实世界中，建模并没有那么重要。让我解释一下。

在实际场景中，一旦公司有了清洗过的数据集，他们只需将其输入到一个自动机器学习系统中，该系统就会为该数据集生成最佳模型。此外，大多数现实世界的问题都涉及分类和回归，对于这些问题，梯度提升模型被广泛认为是最好的模型。如果你对此有所怀疑，可以查证一下！

大多数研究都是垃圾

抱歉用词不当，但当我们已经知道哪些模型最适合食品需求预测等问题时，为什么还要做研究来确定哪些模型更好呢？这就像在跑步机上跑步一样，完全无用的研究。相信我，那些声称“证明”相反的论文，它们的数据集是特意收集的，甚至对数据集进行了操纵，并展示特定的可视化结果，以强化他们预先设定的偏见。大多数这些项目在实际生活中根本无法应用。

我最近实现了一篇证明我观点的研究论文。我推荐你看看这篇文章。研究人员创建了许多基于目标变量的特征；我的意思是，当然，从目标变量衍生出来的变量与目标变量会有很高的相关性。

这非常作弊，因为在预测未见过的数据时，这些特征是如何创建的？这些特征是基于你想要预测的目标创建的。当然，正如你所预料的，他基本上用一个用他想要预测的数据训练的模型来做预测。作弊！

前进的道路

那么“solulu”相对于“delulu”是什么呢？对我来说，从现在开始，我将回到磨练我的数据获取和数据清洗技能。我将回到仪表板和SQL。即使我仍然使用Python，我也会专注于数据准备和分析部分。只有在你拥有干净的数据集时，对未来进行预测才有意义，而从Google或其他网站下载干净的数据集并不能反映真实世界的数据经验。这就是我最近一直在做的事情。

我仍然相信重新实现研究项目，尽管大多数项目都有很大的偏见。我想我得更好地挑选这些项目了。

所以请跟随我提升数据技能的旅程。我想学习数据在现实世界中是如何运作的，而不是通过作弊来赢得比赛。

我的看法显然有些偏颇，再加上我是个输不起的人😭😒，所以我想听听你对此的看法😏。否则，敬请期待！

點擊查看更多內容

為 TA 點贊

若覺得本文不錯，就分享一下吧！

評論

評論

共同學習，寫下你的評論

評論加載中...

展開查看更多評論

作者其他優質文章

正在加載中

蕪湖不蕪

手記
篇

粉絲

77

獲贊與收藏

340

關注作者，訂閱最新文章

閱讀免費教程

后端通用面試教程

41個小節 32253 360

網絡編程入門教程

20個小節 13299 250

Pandas 入門教程

25個小節 19918 373

推薦

評論

收藏

共同學習，寫下你的評論



感謝您的支持，我會繼續努力的～

掃碼打賞，你說多少就多少

贊賞金額會直接到老師賬戶

支付方式

打開微信掃一掃，即可進行掃碼打賞哦

今天注冊有機會得

100積分直接送

付費專欄免費學

大額優惠券免費領

立即參與放棄機會

點擊
抽獎

慕課手記新用戶專享福利

恭喜你，你的運氣太好了，居然抽中了 100個積分！

恭喜你，抽中了價值元的專欄！

太棒了，直接落到你賬戶里！

積分商城里的羅技鼠標、機械鍵盤、
Kindle 閱讀器、小米平衡車
Apple iPad （10.2英寸）、大額優惠券
在等著你去兌換了噢

作者：

免費贈送

兌換碼：1111222211 復制

優惠券可用于購買實戰課、體系課
無門檻使用

先去看看，有什么好東西馬上兌換我愛學習，選課去


亚洲在线久爱草,狠狠天天香蕉网,天天搞日日干久草,伊人亚洲日本欧美

熱搜

最近搜索清空

數據科學正在消亡；這是原因

閱讀免費教程