課程描述INTRODUCTION
Python實現大數據挖掘技術培訓



日程安排SCHEDULE
課程大綱Syllabus
Python實現大數據挖掘技術培訓
【課程目標】
Python已經成為數據分析和數據挖掘的*語言,作為除了Java、C/C++/C#外*的語言。
本課程基于Python工具來實現大數據的數據分析和數據挖掘項目。基于業務問題,在數據挖掘標準過程指導下,采用Python分析工具,實現數據挖掘項目的每一步操作,從數據預處理、數據建模、數據可視化,到最終數據挖掘結束,幫助學員掌握Python用于數據挖掘,提升學員的數據化運營及數據挖掘的能力。
通過本課程的學習,達到如下目的:
1、全面掌握Python語言以及其編程思想。
2、掌握常用擴展庫的使用,特別是數據挖掘相關庫的使用。
3、學會使用Python完成數據挖掘項目整個過程。
4、掌握利用Python實現可視化呈現。
5、掌握數據挖掘常見算法在Python中的實現。
【授課時間】2~5天時間
(全部模塊講完需要5天時間,可以根據時間需求拆分內容模塊)。
【授課對象】業務支持部、IT系統部、大數據系統開發部、大數據分析中心、網絡運維部等相關技術人員。
【學員要求】
課程為實戰課程,要求:
1、每個學員自備一臺便攜機(必須)。
2、便攜機中事先安裝好Python 3.6版本及以上。
注:講師現場提供開源的安裝程序、擴展庫,以及現場分析的數據源。
【授課方式】
語言基礎 + 挖掘模型 + 案例演練 + 開發實踐 + 可視化呈現
采用互動式教學,圍繞業務問題,展開數據分析過程,全過程演練操作,讓學員在分析、分享、講授、總結、自我實踐過程中獲得能力提升。
【課程大綱】
第一部分:Python語言基礎
目的:掌握基本的Python編程思想與編程語句,熟悉常用數據結構的操作
1、Python簡介
2、開發環境搭建
.Python的安裝
.擴展庫的安裝
3、掌握Python的簡單數據類型
. 字符串的使用及操作
.整數、浮點數
4、掌握基本語句:
.if、while、for、print等
.基本運算:
.函數定義、參數傳遞、返回值
5、掌握復雜的數據類型:列表/元組
.列表操作:訪問、添加、修改、刪除、排序
.列表切片、復制等
.列表相關的函數、方法
.元組的應用
6、復雜數據類型:字典
.創建、訪問、修改、刪除、遍歷
.字典函數和方法
7、復雜數據類型:集合
8、掌握面向對象編程思想
.創建類、繼承類
.模塊
9、函數定義、參數傳遞、返回值
10、標準庫與擴展庫的導入
11、異常處理:try-except塊
演練:基本的Python編程語句
第二部分:Python擴展庫
目的:掌握數據集結構及基本處理方法,進一步鞏固Python語言
1、數據挖掘常用擴展庫介紹
.Numpy數組處理支持
.Scipy矩陣計算模塊
.Matplotlib數據可視化工具庫
.Pandas數據分析和探索工具
.StatsModels統計建模庫
.Scikit-Learn機器學習庫
.Keras深度學習(神經網絡)庫
.Gensim文本挖掘庫
2、數據集讀取與操作:讀取、寫入
.讀寫文本文件
.讀寫CSV文件
.讀寫Excel文件
.從數據庫獲取數據集
3、數據集的核心數據結構(Pandas數據結構)
.Dataframe對象及處理方法
.Series對象及處理方法
演練:用Python實現數據的基本統計分析功能
第三部分:數據可視化處理
目的:掌握作圖擴展庫,實現數據可視化
1、常用的Python作圖庫
.Matplotlib庫
.Pygal庫
2、實現分類匯總
演練:按性別統計用戶人數
演練:按產品+日期統計各產品銷售金額
3、各種圖形的畫法
.直方圖
.餅圖
.折線圖
.散點圖
4、繪圖的美化技巧
演練:用Python庫作圖來實現產品銷量分析,并可視化
第四部分:數據理解和數據準備
目的:掌握數據預處理的基本環節,以及Python的實現
1、數據預處理
.異常值處理:3σ準則,IQR準則
.缺失值插補:均值、拉格朗日插補
.數據篩選/抽樣
.數據的離散化處理
.變量變換、變量派生
2、數據的基本分析
.相關分析:原理、公式、應用
.方差分析:原理、公式、應用
.卡方分析:原理、公式、應用
.主成分分析:降維
案例:用Python實現數據預處理及數據準備
第五部分:分類預測模型實戰
1、常見分類預測的模型與算法
2、如何評估分類預測模型的質量
.查準率
.查全率
.ROC曲線
3、邏輯回歸分析模型
.邏輯回歸的原理
.邏輯回歸建模的步驟
.邏輯回歸結果解讀
案例:用sklearn庫實現銀行貸款違約預測
4、決策樹模型
.決策樹分類的原理
.決策樹的三個關鍵問題
.決策樹算法與實現
案例:電力竊漏用戶自動識別
5、決策樹算法
.最優屬性選擇算法:ID3、ID4.0、ID5.0
.連續變量分割算法
.樹剪枝:預剪枝、后剪枝
6、人工神經網絡模型(ANN)
.神經網絡概述
.神經元工作原理
.常見神經網絡算法(BP、LM、RBF、FNN等)
案例:神經網絡預測產品銷量
7、支持向量機(SVM)
.SVM基本原理
.維災難與核心函數
案例:基于水質圖像的水質評價
8、貝葉斯分析
.條件概率
.常見貝葉斯網絡
第六部分:數值預測模型實戰
1、常用數值預測的模型
.通用預測模型:回歸模型
.季節性預測模型:相加、相乘模型
.新產品預測模型:珀爾曲線與龔鉑茲曲線
2、回歸分析概念
3、常見回歸分析類別
4、回歸分析常見算法
.梯度上升/下降法
.普通最小二乘法OLS
.局部加權線性回歸LWLR
.嶺回歸(RR)
.套索回歸Lasso
.ElasticNet回歸
第七部分:聚類分析(客戶細分)實戰
1、客戶細分常用方法
2、聚類分析(Clustering)
.聚類方法原理介紹及適用場景
.常用聚類分析算法
.聚類算法的評價
案例:使用SKLearn實現K均值聚類
案例:使用TSNE實現聚類可視化
3、RFM模型分析
.RFM模型,更深入了解你的客戶價值
.RFM模型與市場策略
案例:航空公司客戶價值分析
第八部分:關聯規則分析實戰
1、關聯規則概述
2、常用關聯規則算法
.Apriori算法
.發現頻繁集
.生成關聯規則
.FP-Growth算法
.構建FP樹
.提取規則
3、時間序列分析
案例:使用apriori庫實現關聯分析
案例:中醫證型關聯規則挖掘
第九部分:案例實戰(學員主導,老師現場指導)
1、電商用戶行為分析及服務推薦
2、基于基站定位數據的商圈分析
結束:課程總結與問題答疑。
Python實現大數據挖掘技術培訓
轉載://bamboo-vinegar.cn/gkk_detail/237141.html
已開課時間Have start time
- 傅一航
大數據課程公開培訓班
- 大數據時代營銷數據分析技能 陳劍
- 大數據時代的績效管理-精細 楊云
- 贏在未來-大數據時代的財務 呂軍
- 大數據、云計算與信息化演進 何寶宏
- 大數據分析(Hadoop) 朱永春
- 大數據時代的績效管理 楊云
- 大數據時代的商業數據分析管 鄒紅偉
- 大數據時代企業公司化運營 楊云
- 大數據分析與洞察 孫子辰
- 大數據時代財務管理-從業務 楊云
- 大數據時代的財務管理—從業 楊云
- 產品數據管理高級實務培訓 劉海濤
大數據課程內訓
- 數字經濟時代銀行開展數字化 李勇
- 數字經濟與數據技術應用與變 王文琭
- 政府數字化轉型實務 焦波
- 以需求為導向的大數據精準營 張世民
- Quick BI 數據分析 張曉如
- 數字技術與數字工具應用 王文琭
- 《跨境電商全鏈路AI賦能轉 黃光偉
- 數字時代下的營銷趨勢 韓天成
- 大數據應用現狀與未來發展重 胡國慶
- 《數據資源入表與數據治理》 鐘凱
- 數智化領域新技術與典型應用 胡國慶
- 《銀行數據驅動經營方法論與 宗錦(