成人免费无码精品国产电影,久久人与动人物a级毛片一,亚洲av日韩av无码全网

大數(shù)據(jù)

作者：dantezhao?|?簡書?|?CSDN?|?GITHUB

文章推薦：http://dantezhao.com/readme

個人主頁：http://dantezhao.com

本篇總結(jié)一下自己對大數(shù)據(jù)算法認知的過程。正文包含兩部分：自己對算法的認知過程和對大數(shù)據(jù)算法的理解。

寫這篇博客的原因有很多，總的來講有下面幾點：

自己在算法的路上一直懵懵懂懂，現(xiàn)在剛剛有了一點點頭緒，趕快做個記錄。梳理清楚自己的思路，后續(xù)會有一個算法學習的一到兩年的計劃，這算是個引子。談起算法大家都只會想到經(jīng)典算法和機器算法，除此之外還有很多有意思的算法，特別是為了解決大數(shù)據(jù)量問題的算法，這些很容易被忽略掉，但是我認為這才算是大數(shù)據(jù)算法。

0x01 認知過程

1. 算法沒什么用

剛?cè)肟拥臅r候，一直以為大數(shù)據(jù)工程師就是安裝一下 Hadoop，寫寫 MR 程序，運維一下集群就夠了，雖說算法很重要，但是工作中沒有什么感覺。

我在很長一段時間也抱著一種算法只是起到在面試中起到區(qū)分度作用的知識點而已。（現(xiàn)在想來，其實這個觀點也沒什么錯，大部分的開發(fā)工作的確用不到自己寫的算法。）

2. 經(jīng)典算法的魅力

做了一段時間大數(shù)據(jù)運維后，接到了一個優(yōu)化調(diào)度系統(tǒng)的任務(wù)，就和 Gim 老司機在一起設(shè)計重構(gòu)調(diào)度系統(tǒng)的方案，在這個過程中復(fù)習了很多圖論相關(guān)的知識點，從此開始對算法產(chǎn)生了極大的興趣并一發(fā)不可收拾，隨后重新學習了一遍樹相關(guān)的內(nèi)容，自己動手實現(xiàn)了什么2-3樹、avl樹、紅黑樹這些數(shù)據(jù)結(jié)構(gòu)。

其實，感興趣的一個主要原因就是發(fā)現(xiàn)，這些東西基本構(gòu)建了我們整個的計算機體系。比如文件系統(tǒng)、數(shù)據(jù)庫的索引，學會這些總感覺以后就不會丟飯碗了。

3. 機器學習代表了一切

再接著，機器學習一下子就火了起來，世界上只剩下了兩種算法：機器學習算法和非機器學習算法。身邊的朋友和同學，凡是和數(shù)據(jù)開發(fā)相關(guān)的，都稱自己想轉(zhuǎn)做機器學習。筆者也不能免俗，開始準備跟著浪潮走一波。但是一沒場景，二是興趣不大，當有一天我突然意識到自己在學機器學習累的時候居然想玩玩 Linux 放松心情的時候，就暫時放棄了轉(zhuǎn)向機器學習的這個想法。以后我會用到它，可能還會用的很深，但是現(xiàn)在不會全身心地轉(zhuǎn)向它。

機器學習過后，17年又迎來了深度學習的浪潮。

4. 深度學習又是一波浪潮

感觸最深的是在 17 年 5 月份，看到了一份招聘要求，招的 title 是人工智能平臺架構(gòu)師，具體的要求是除了數(shù)據(jù)平臺要求的東西外加了一些深度學習平臺的東西。

這時候就感到，當浪潮到來的時候，你可以不轉(zhuǎn)向它，但是要包容它。所以，順便學了一波深度的東西，入了個門，大概知道我以后需要做些什么。（半年后的今天基本已經(jīng)忘完了）

5. 還有很多有趣的算法

隨著工作的深入，系統(tǒng)在性能上遇到了很多了瓶頸，我們要做一系列的調(diào)整來應(yīng)對，比如敏感信息的加密、集群文件的壓縮、負載均衡策略的選擇，這時候就不得不深入學習一下加密算法、壓縮算法、負載均衡算法的原理。

這些算法一直都在，但是仍然可以在現(xiàn)在的大數(shù)據(jù)場景下發(fā)揮極大的作用。

6. 分布式算法

在這之前，我對自己從事的工作一直有一點心虛，感覺除了寫寫 MR，管一下集群貌似沒什么技術(shù)含量太深的東西，能拿得出手的也就是各個系統(tǒng)的架構(gòu)和對他們的熟悉程度。后來無意間在 Mooc 發(fā)現(xiàn)了一門云計算原理的課，然后就對這一塊產(chǎn)生了極大的興趣。

隨著學習的深入，發(fā)現(xiàn)這塊的水還是相當深的，我們稱這些為分布式算法，它包含了這么一大堆內(nèi)容：

2PC、Gossip 這一大堆協(xié)議；DHT、Paxo、Raft 這一大堆算法、還有一些亂七八糟的原理。

這塊學的還是很皮毛，后面會有詳細的學習計劃。

7. 大數(shù)據(jù)算法到底是什么？

在工作和學習中遇到了這么多算法，再加上一段時間的思考，我會在想，大數(shù)據(jù)的算法到底是什么樣子的？

經(jīng)典算法暫且不論，壓縮和加密算法也一直都有。

那么機器學習呢？總感覺有些地方不對勁，應(yīng)該說是機器學習是使用了大數(shù)據(jù)，但是他不是為了解決大數(shù)據(jù)的各種問題的，真正的大數(shù)據(jù)問題還要有大數(shù)據(jù)的算法來解決。

分布式算法也不完全算是，雖說大數(shù)據(jù)工程師都要用到分布式系統(tǒng)，但是他們解決的問題場景不太一樣的。分布式算法要解決時鐘、一致性問題這些問題。大數(shù)據(jù)場景的算法不太一樣。

然后我們要想一下大數(shù)據(jù)場景有什么問題？

大數(shù)據(jù)場景的問題

數(shù)據(jù)量大，這是一個最明顯的特點，它帶來的問題就是處理這些數(shù)據(jù)成了很大的麻煩。Hadoop 是一個突破性的項目，然后在這之外我們還會有一些場景要解決。

集合中不同元素的個數(shù), 比如獨立訪客(Unique Visitor，簡稱UV)統(tǒng)計，換成 Sql 來寫的話就是 count(distinct user_id)，假設(shè)有 1000 億的數(shù)據(jù)放在這里，需要極快地算出來，可以允許一點點不精確，我們該怎么做？

也就是，我們在很多場景下，會在允許一定犧牲一定的準確度地情況下來快速地算出結(jié)果。這一些算法有極大的應(yīng)用場景。比如 Redis 會用到 Hyperloglog 來做基數(shù)統(tǒng)計。

這樣的一批算法，我認為算是大數(shù)據(jù)算法中的一部分，內(nèi)容比較多，有專門的博客展開來專門講，比如 Bitmap、Roaring Bitmap、Hyperloglog等。

0x02 算法技能一覽

在這里做一個小總結(jié)，畫一下我認為大數(shù)據(jù)工程師需要掌握、熟悉和了解的算法。很多其實在工作中都會經(jīng)常遇到。

學習優(yōu)先級？

關(guān)于這些算法學習的優(yōu)先級該怎么判定？這個就不裝x了，居士自己其實也會有不少迷茫，沒辦法說哪個更重要，不過如果真是要學的話可以大致有一些參考。

基礎(chǔ)的數(shù)據(jù)結(jié)構(gòu)和算法沒什么好說的，屬于基本功，理應(yīng)具備。其它算法里面的加密、壓縮、調(diào)度這些算法，如果不是需要深入搞得話，不必急著深入學，用到了就了解一些。分布式算法和大數(shù)據(jù)算法建議偏工程的童鞋盡早學一下，工作中寫程序用不到也無所謂，早學沒壞處。很多大數(shù)據(jù)組件的核心位置都有這些算法的身影。數(shù)據(jù)挖掘相關(guān)算法，對于數(shù)據(jù)挖掘的童鞋來講肯定是必學的，對于數(shù)據(jù)開發(fā)轉(zhuǎn)到數(shù)據(jù)挖掘的童鞋來講，如果有了比較明確的轉(zhuǎn)行計劃，就開始深入地學，如果是觀望狀態(tài)，可以先搞一些和工作相關(guān)度比較高的算法玩一玩，有項目機會也能快速上手。

0XFF 總結(jié)

有時候感覺自己寫程序可能永遠也不需要寫什么算法，但是不得不承認，算法的思維能讓自己受益無窮。

免責聲明：本網(wǎng)站內(nèi)容主要來自原創(chuàng)、合作伙伴供稿和第三方自媒體作者投稿，凡在本網(wǎng)站出現(xiàn)的信息，均僅供參考。本網(wǎng)站將盡力確保所提供信息的準確性及可靠性，但不保證有關(guān)資料的準確性及可靠性，讀者在使用前請進一步核實，并對任何自主決定的行為負責。本網(wǎng)站對有關(guān)資料所引致的錯誤、不確或遺漏，概不負任何法律責任。任何單位或個人認為本網(wǎng)站中的網(wǎng)頁或鏈接內(nèi)容可能涉嫌侵犯其知識產(chǎn)權(quán)或存在不實內(nèi)容時，應(yīng)及時向本網(wǎng)站提出書面權(quán)利通知或不實情況說明，并提供身份證明、權(quán)屬證明及詳細侵權(quán)或不實情況證明。本網(wǎng)站在收到上述法律文件后，將會依法盡快聯(lián)系相關(guān)文章源頭核實，溝通刪除相關(guān)內(nèi)容或斷開相關(guān)鏈接。

閑談大數(shù)據(jù)和算法

1. 算法沒什么用

2. 經(jīng)典算法的魅力

3. 機器學習代表了一切

4. 深度學習又是一波浪潮

5. 還有很多有趣的算法

6. 分布式算法

7. 大數(shù)據(jù)算法到底是什么？

下一篇

閑談大數(shù)據(jù)和算法

1. 算法沒什么用

2. 經(jīng)典算法的魅力

3. 機器學習代表了一切

4. 深度學習又是一波浪潮

5. 還有很多有趣的算法

6. 分布式算法

7. 大數(shù)據(jù)算法到底是什么？

下一篇

7. 大數(shù)據(jù)算法到底是什么？