-
基礎層? 采集層? 數據處理層? 應用層
基礎層:基礎信息采集;采集層:數據結構搭建,數據模型搭建;處理層:數據清洗,標準化數據格式;應用層:數據分析結論輸出,深度挖掘;
查看全部 -
數據預處理:
數據集成
數據清洗
數據處理
數據變換
數據歸納
可視化技術
XGBoost--實現30W數據文本分析
查看全部 -
文件操作方法
查看全部 -
網絡爬蟲,有時間學習下查看全部 -
課程思維導圖
查看全部 -
開發環境說明
查看全部 -
30萬條數據分析??
訓練分類器
算法調優
查看全部 -
數據預處理流程
數據清理
數據集成
數據變換
數據歸約
查看全部 -
數據處理往往比算法模型和調參帶來的效果更好
文本信息處理,稍作改動也支持圖片和語音
查看全部 -
什么是數據預處理
查看全部 -
遍歷讀取文件
算法思路:
·遍歷文件的類TraversalFun:TraversalDir、AllFiles
·遍歷目錄文件TRaversalDir:AllFiles(self.rootDir)
·遞歸遍歷文件AllFiles(self,rootDir)
·判斷是否為文件isfile:打印出文件名
·判斷是否是目錄isdir:遞歸遍歷
查看全部 -
算法思路:
·定義文件路徑和轉存路徑:split
·修改新的文件名:TranType(filename,typename)、fnmatch
·設置完整的保存路徑:join
·啟動應用程序格式轉換:Dispatch
·保存文本:SaveAs
查看全部 -
PDF轉TXT的算法實現
算法思路:
·定義文件路徑和轉存路徑:split
·修改新的文件名:fnmatch
·設置完整的保存路徑:join
·啟動應用程序格式轉換:Dispatch
·保存文本:SaveAs
查看全部 -
Word轉TXT算法實現
算法思路:
·定義文件路徑和轉存路徑:split
·修改新的文件名:fnmatch
·設置完整的保存路徑:join
·啟動應用程序格式轉換:Dispatch
·保存文本:SavaAs
查看全部 -
結構化數據:
結構化數據是指可以使用關系型數據庫表示和存儲,表現為二維形式的數據。一般特點是:數據以行為單位,一行數據表示一個實體的信息,每一行數據的屬性是相同的。
·數據特點:關系模型數據,關系數據庫表示
·常見格式:比如MySQL、Oracle、SQL Server等
·應用場合:數據庫、系統網站、數據備份、ERP等
·數據采集:DB導出、SQL等方式
·優缺點:結構化的數據的存儲和排列是很有規律的,這對修改和查詢等操作很有幫助。但是,它的擴展性不好。
半結構化數據:
半結構化數據是結構化數據的一種形式,它并不符合關系型數據庫或其他數據表的形式關聯起來的數據模型結構,但包含相關標記,用來分隔語義元素以及對記錄和字段進行分層。因此,它也被稱為自描述的結構。半結構化數據,屬于同一類實體可以有不同的屬性,即使他們被組合在一起,這些屬性的順序并不重要。
·數據特點:非關系模型數據,還有一定的格式
·常見格式:比如Email、HTML、XML、JSON等
·應用場合:郵件系統、檔案系統、新聞網站等
·數據的采集:網絡爬蟲、數據解析等方式
·優點:不同的半結構化數據的屬性的個數是不定的。有些人說半結構化數據是以樹或者圖的數據結構存儲的數據,標簽是樹的根節點,和標簽是子節點。通過這樣的數據格式,可以自由地表達很多有用的信息,包括自我描述信息(元數據)。所以,半結構化數據的擴展性是很好的。
非結構化數據:
就是沒有固定結構的數據。各種文檔、圖片、視頻/音頻等都屬于非結構化數據。對于這類數據,我們一般直接整體進行存儲,而且一般存儲為二進制的數據格式。
·數據特點:沒有固定格式的數據
·常見格式:Word、PDF、PPT、圖片、音視頻等
·應用場合:圖片識別、人臉識別、醫療影像、文本分析等
·數據采集:網絡爬蟲、數據存檔等方式
查看全部 -
數據清理:通過填寫缺失的值、光滑噪聲數據、識別或刪除離群點并解決不一致性來清理數據。目標:格式標準化,異常數據清理,錯誤糾正,重復數據的清除。
數據集成:將數據由多個數據源合并成一個一致的數據存儲,如數據倉庫。
數據變換:通過平滑聚集,數據概化,規范化等方式將數據轉換成適用于的形式。如把數據壓縮到0.0-1.0數值區間。
數據歸約:往往數據量非常大,得到數據集的歸約表示,它小得多,但仍接近保持原數據的完整性,結果與歸約前結果相同或幾乎相同。
查看全部 -
數據預處理簡而言之就是將原始數據裝進一個預處理的黑匣子之后,產生出高質量數據用來適應相關技術或者算法模型。
·將原始數據的數據直接進行分類模型訓練,分類器準確率和召回率都比較低。因此我們原始數據存在很多干擾項,比如的,是等這些所謂停用詞特征對分類起的作用不大,很難達到工程應用。
·我們將原始數據放進預處理黑匣子后,會自動過濾掉干擾數據,并且還會按照約定的方法體現每個詞特征的重要性,然后將詞特征壓縮變換在數值型矩陣中,再通過分類器就會取得不錯的效果,可以進行工程應用。
預處理前:不完整、偏態、噪聲、特征比重、特征維度、缺失值、錯誤值等問題。
查看全部 -
文件抽取資料
查看全部 -
word 轉換tet思路
查看全部 -
三類數據類型:結構化數據,半結構化數據,非結構化數據
查看全部 -
#coding=utf-8 import?os,fnmatch from?win32com?import?client?as?wc from?win32com.client?import?Dispatch def?Word2Txt(filepath,savePath=''): ????????dirs,filename?=?os.path.split(filePath) ????????new_name="" ????????if?fnmatch.fanmatch(filename,'*.doc'): ????????????new_name?=?filename[:-4]+'.txt' ????????elif?fnmatch.fnmatch(filename,'*.docx'): ????????????new_name?=?filename[:-5]+'.txt' ????????else: ????????????????print("格式不正確") ????????????????return ????????if?savePath?==?'': ????????????savePath?=?dirs ????????else: ????????????????savePath?=?savePath ????????word2txtPath?=?os.path.join(savePath,new_name) ????????print('-->',word2txtPath) ????????wordapp?=?wc.Dispatch('word.Application') ????????mytxt?=?wordapp.Documents.Open(filePath) if?__name__=='__main__': ????filePath?=?os.path.abspath(r'../../*.doc') ????word2Txt(filePath)
查看全部 -
總結
查看全部 -
1.數據集成
查看全部 -
1.why
查看全部 -
特征預處理
不完整、偏態、噪聲、特征比重、特征緯度、缺失值、錯誤值等問題;
存在完整、正態、干凈、特征和事、特征緯度合理、無缺失值
查看全部 -
1.特征預處理
查看全部 -
數據預處理
謂詞、停用詞
特征壓縮變換
查看全部 -
課程初衷。。。
查看全部
舉報