spark大型項目實戰打造智能客戶系統大數據視頻教程
spark大型項目實戰打造智能客戶系統項目介紹
1、從今天開始我們學習本套spark打造智能客戶系統大型項目實戰課程,本課程總共分為三大板塊,我們的課程主要涉及的范圍是基于大數據spark的機器學習部分。
2、本套spark大型項目實戰的功能介紹主要有:通過爬蟲技術向互聯網爬取大量的數據,導入到Hbase中進行清洗,最后將數據存儲到Mongodb中,接下來通過IK分詞器進行數據切分放入到hadoop中的HDFS。
3、spark讀取HDFS中的數據做模型計算,使用spark streaming加載HDFS模型將數據進行分類做數據分析。
4、本spark大型項目實戰課程依次講解以上部分提到的所有技術核心點,將以上技術連接到整個項目中,教大家靈活運用。
scala技術課程介紹
1、本門課程主要使用java和scala兩種語言重點操作spark,除了掌握掌握java操作部分之外,還需要掌握scala的部分。
2、本章節會分別通過windows和linux兩個系統講解scala ide的安裝和使用,教會大家熟練掌握這兩個系統操作。
3、關于scala語言的課程講解內容主要有:scala基礎部分的環境變量配置、開發工具ide的安裝、scala入門知識的基礎語法匯總講解、scala的數據類型概括、scala的變量的聲明定義、scala訪問修飾符和函數方法的書寫、scala中的容器數組和集合的語法、類和對象的聲明。
zookeeper技術課程介紹
1、本章節講解什么是zookeeper,它用來做什么,以及集群的安裝使用,我不希望大家只懂的安裝和使用,希望大家對zk的作用、如何性能調優都能夠深入理解,面試的時候能夠侃侃而談,不要一臉茫然,能夠明白zk其中的原理所在。
2、zk是一個開放源碼的基于分布式的協調服務,它能能夠提供配置服務,比如我們有200臺服務器的集群,現在我們需要每臺服務器的配置文件,這個時候zk的作用就是配置存儲器,所有配置由zk管理,zk會監控所有配置文件,一旦發生改變會同步到所有服務器。
3、zk還提供了完整的命名服務,能產生唯一的名稱便于記住和識別,zk還提供分布式鎖,分布式程序分布在不同主機上的進程對互斥資源進行訪問的時候進行枷鎖,以及分布式集群的管理等等。
kafka技術課程介紹
1、接下來的課程講解kafka的分布式消息處理機制,本章節主要講解kafka是什么、kafka能做什么、kafka如何做集群安裝、java如何操作kafka以及kafaka架構的全面課程講解。
2、kafka的底層使用scala語言編寫,可以做到水平擴展和高吞吐率的技術水平,經過多年的發展,已經被很多大數據應用的公司廣泛使用。
3、kafka是基于發布/訂閱的消息系統,即使對TB級別及以上的數據都能夠保證常數時間復雜的訪問性能,它的高吞吐量即使在廉價的機器上都能夠保證。
spark大型項目實戰打造智能客戶系統項目課程目錄
第01節項目介紹以及在本課程中能學到什么東西、如何應用到實際項目中 |
第02節scala和IDE的安裝以及使用以及maven插件的安裝 |
第03節Centos環境準備(java環境、hosts配置、防火墻關閉) |
第04節scala基礎知識講解-1 |
第05節scala基礎知識講解-函數和閉包-2 |
第06節scala基礎知識講解-數組和集合-3.1 |
第07節scala基礎知識講解-數組和集合-3.2 |
第08節scala基礎知識講解-類和對象-4 |
第09節scala基礎知識講解-特征和模式匹配-5 |
第10節scala基礎知識講解-正則表達式和異常處理-6 |
第11節scala基礎知識講解-知識回顧 |
第12節nosql數據庫mongodb安裝 |
第13節spring data for mongodb-簡單連接mongodb |
第14節spring data for mongodb-spring配置+CRUD操作(不實現repo,默認操作) |
第15節spring data for mongodb-實現repo接口+mongoTemplate+CRUD操作 |
第16節spring data for mongodb-分頁查詢 |
第17節zookeeper集群安裝 |
第18節zookeeper基本介紹-1 |
第19節zookeeper工作原理-選舉流程(basic paxos算法)-2 |
第20節zookeeper工作原理-選舉流程(fast paxos算法)-3 |
第21節kafka-背景及架構介紹 |
第22節kafka集群安裝以及測試 |
第23節kafka數據發送與接收實現-java |
第24節hdfs單機安裝部署 |
第25節連接hdfs查詢存儲-java |
第26節機器學習基本線性代數介紹 |
第27節IKAnalyzer中文分詞工具介紹 |
第28節IKAnalyzer中文分詞工具結合java應用 |
第29節Spark以及生態圈介紹 |
第30節Spark運行架構介紹及原理之job,stage,task |
第31節Spark編程模型RDD設計以及運行原理 |
第32節純手寫第一個Spark應用程序:WordCount |
第33節RDD常用函數介紹 |
第34節Spark Sql介紹、DataFrame創建以及使用、RDD DataFrame DataSet相互轉化 |
第35節Spark Streaming介紹 |
第36節Spark Streaming+Kafka集成操作 |
第37節avro結合maven使用,實現序列化和反序列化 |
第38節Spark ML(機器學習)介紹(監督學習、半監督學習、無監督學習) |
第39節特征抽?。篢F-IDF原理介紹 |
第40節特征提?。篢F-IDF代碼實現計算 |
第41節聚類算法:KMEANS原理介紹 |
第42節聚類算法:KMEANS代碼實現計算 |
第43節其它Spark ML算法簡單介紹 |
第44節Spark連接Mongodb代碼實現 |
第45節Mesos總體架構介紹 |
第46節Mesos安裝部署 |
第47節Spark on Mesos安裝部署 |
第48節系統整體架構再次介紹+技術串聯介紹(將學習的技術全部整合到項目中) |
第49節父類工程,管理各個jar的版本 |
第50節avro序列化jar,用于客戶端和機器學學習實現序列化和反序列化 |
第51節kafka發送數據jar,給app調用并實現切詞并發送數據到kafka |
第52節工具類jar,實現操作hdfs、切詞以及操作mongodb |
第53節操作類jar,調用工具類具體進行切詞以及數據清洗并且存儲到Hdfs |
第54節機器學習集合jar,主要用來存放record |
第55節機器學習算法jar,主要進行tf-idf以及kmeans計算,主要實現企業上下游、供求上下游模型計算 |
第56節流式計算jar,主要是接受客戶端發送到kafka的數據加載模型進行計算 |
第57節測試模擬jar,主要模擬實現用戶加載avro序列化jar寫數據到kafka |
第58節Spark on Mesos部署提交參數介紹 |
第59節Spark代碼提交到Mesos運行(Spark-submit) |
第60節項目整體流程跑通,結果展示 |
第61節Spark調優介紹 |
第62節基于Spark的機器學習項目-智能客戶系統實戰課程總結 |
第63節實際工作及面試注意問題 |
相關文章 |