近年來,隨著數據倉庫技術、網絡技術、電子商務技術的發展,可視化涵蓋了更廣泛的內容,并產生數據可視化的概念。數據可視化是指將大量數據集中的數據以圖形圖像的形式表示,并利用數據分析工具發現其中未知信息的處理過程。它的基本思想是:每個數據作為單個圖元表示(比如點、線段等)... 查看全文>>
Python技術文章2021-12-09 |傳智教育 |數據可視化,Syplot模塊,什么是matplotlib
Cloudera Manager是用于管理CDH群集的端到端應用程序。Cloudera Manager通過對CDH集群的每個部分提供細粒度的可視性和控制來設置企業部署的標準,使運營商能夠提高性能,提高服務質量,提高合規性并降低管理成本... 查看全文>>
Python技術文章2021-12-08 |傳智教育 |ClouderaManager
ReduceTask的工作過程主要經歷了5個階段,分別是Copy階段、Merge階段、Sort階段、Reduce階段和Write階段,如下圖所示。 查看全文>>
Python技術文章2021-12-06 |傳智教育 |ReduceTask工作機制
什么是冪等性?用http舉例來說,一次或多次請求,得到地響應是一致的(網絡超時等問題除外)就是冪等性,換句話說,就是執行多次操作與執行一次操作的影響是一樣的。 查看全文>>
Python技術文章2021-12-06 |傳智教育 |Kafka怎樣實現生產者冪等性
MapReduce是一種編程模型,用于處理大規模數據集的并行運算。使用MapReduce執行計算任務的時候,每個任務的執行過程都會被分為兩個階段,分別是Map和Reduce,其中Map階段用于對原始數據進行處理,Reduce階段用于對Map階段的結果進行匯總,得到最終結果,這兩個階段的模型如下圖所示。 查看全文>>
Python技術文章2021-12-06 |傳智教育 |MapReduce編程模型
Flume的核心角色是Agent,通過Agent可以從其他服務中采集數據,并通過內部event流的形式傳輸到Sink,并根據需求最終向下一個Agent傳輸或者進行集中式存儲。 查看全文>>
Python技術文章2021-12-01 |傳智教育 |Flume日志采集系統結構圖
爬取網頁其實就是通過URL獲取網頁信息,網頁信息的實質是一段添加了JavaScript和CSS的HTML代碼。Python提供了一個抓取網頁信息的第三方模塊requests,requests模塊自稱“HTTP for Humans”,直譯過來的意思是專門為人類而設計的HTTP模塊,該模塊支持發送請求,也支持獲取響應。 查看全文>>
Python技術文章2021-11-19 |傳智教育 |使用requests模塊抓取網頁
利用json模塊的dumps()函數和loads()函數可以實現Python對象和JSON數據之間的轉換,下面來分別演示兩種函數的用法 查看全文>>
Python技術文章2021-11-18 |傳智教育 |利用函數實現Pytho對象和JSON數據的相互轉換