熱門專業(yè)解析之數(shù)據(jù)科學


數(shù)據(jù)科學是什么?

熱門專業(yè)解析之數(shù)據(jù)科學

數(shù)據(jù)科學, 顧名思義即數(shù)據(jù)相關的科學研究,它是一門利用數(shù)據(jù)學習知識的學科,包含兩方面——用數(shù)據(jù)的方法來研究科學和用科學的方法來研究數(shù)據(jù)。其目標是通過從數(shù)據(jù)中提取出有價值的部分來生產數(shù)據(jù)產品,結合了諸多領域中的理論和技術,包括應用數(shù)學,統(tǒng)計,模式識別,機器學習,數(shù)據(jù)可視化,數(shù)據(jù)庫,以及高性能計算。

熱門專業(yè)解析之數(shù)據(jù)科學

數(shù)據(jù)科學的應用覆蓋了醫(yī)學與公共衛(wèi)生,工程,法律,教育,設計,商業(yè),經濟,政策規(guī)劃等廣泛的領域,也將為這些領域帶來巨大的變革與發(fā)展。

熱門專業(yè)解析之數(shù)據(jù)科學

  數(shù)據(jù)科學的由來

數(shù)據(jù)科學在目前還算是一門新興學科, 追溯其發(fā)展歷史, 我們可以看到只有短短的40年時間, 而真正快速發(fā)展階段也就10年左右時間。

1974年彼得諾爾(Peter Naur)發(fā)表文章首次提出數(shù)據(jù)學和數(shù)據(jù)科學的概念。他認為數(shù)據(jù)學是計算機科學的延伸,其研究對象是數(shù)碼化的數(shù)據(jù)。

1996年在日本神戶的一個國際會議上,第一次正式在會議上使用數(shù)據(jù)科學這一名稱。1997年杰夫-吳 (Jeff Wu, 密西根大學)在演講中提出統(tǒng)計學=數(shù)據(jù)科學的命題并建議將統(tǒng)計學改名為數(shù)據(jù)科學, 統(tǒng)計學家改名為數(shù)據(jù)科學家。

2001年威廉-克里富蘭 (William Cleveland) 第一次將數(shù)據(jù)科學作為由統(tǒng)計延伸出來的一個獨立研究領域。 他認為應將統(tǒng)計學中與數(shù)據(jù)分析有關的技術層面 (區(qū)別于概率理論) 在6個方面擴展后形成一個新的, 獨立的學科數(shù)據(jù)科學。 這6個方面包括:

(1) 多學科的聯(lián)合研究 (Multidisciplinary Investigations)

(2) 數(shù)據(jù)模式和分析方法 (Models and Methods for Data)

(3) 數(shù)據(jù)計算 (Computing with Data)

(4) 數(shù)據(jù)科學教程 (Pedagogy)

(5) 工具評估 (Tool evaluation)

(6) 理論 (Theory)

2002年國際科學委員會(International Council for Science)正式使用數(shù)據(jù)科學并創(chuàng)辦了數(shù)據(jù)科學雜志(Data Science Journal)。2003年哥倫比亞大學開辦了數(shù)據(jù)科學雜志(Journal of Data Science),為數(shù)據(jù)工作者建立了一個交流平臺。

2007年2月美國北卡羅來納州立大學 (North Carolina State University) 成立高級數(shù)據(jù)分析研究院 (IAA, Institute for Advanced Analytics) ,成為美國第一個正式的數(shù)據(jù)分析碩士研究生學位授予單位,并開發(fā)了著名的決策支持大型集成信息系統(tǒng)SAS(Statistics Analysis System)。

2012年3月,時任美國總統(tǒng)奧巴馬宣布啟動「大數(shù)據(jù)研究與開發(fā)計劃」(Big Data Research and Development Initiative),標志著數(shù)據(jù)科學爆炸式發(fā)展時代的到來。

數(shù)據(jù)科學在我國的發(fā)展歷史則更為短暫。

隨著大數(shù)據(jù)時代的到來以及目前社會對于大數(shù)據(jù)研究人才的巨大需求,國內高校也紛紛響應這一潮流。 在2014-2015年期間,多所國內知名高校首先采取設立大數(shù)據(jù)研究院的形式,從學校其他優(yōu)勢專業(yè)或相關專業(yè)選拔研究員和學生,探索和規(guī)劃數(shù)據(jù)科學專業(yè)的未來發(fā)展。第一所建立研究院的是清華大學,其后西南交通大學,貴州大學,北京大學,中國人民大學等7所大學也相繼設立。

除了高校自身對于數(shù)據(jù)科學這一領域的探索外, 各大互聯(lián)網企業(yè)也對數(shù)據(jù)科學領域人才培養(yǎng)給予了多方面的支持。 2015年6月15日, 國內著名云計算服務商阿里云攜手慧科教育集團,啟動了阿里云大學合作項目(AUCP, Aliyun university cooperation program),聯(lián)合高校開設云計算與數(shù)據(jù)科學專業(yè)方向。通過產教融合的方式,阿里云在AUCP中提供云計算,大數(shù)據(jù),工程師以及生態(tài)圈伙伴等資源,培養(yǎng)下一代數(shù)據(jù)科學家。經過互聯(lián)網企業(yè)不斷地研究與探索,數(shù)據(jù)科學成為一門獨立專業(yè)的時機日漸成熟,社會各行業(yè)對這一領域人才的需求也在不斷擴大。

哪些人適合學數(shù)據(jù)科學專業(yè)?

專業(yè)內的要求基本就是對數(shù)據(jù)的意識,邏輯性,業(yè)務理解力和一些技能的掌握。

數(shù)據(jù)意識方面:

要做數(shù)據(jù)分析師較 基本的就是不討厭數(shù)字,如果對指標是通過怎么樣的乘除加減得到的,他會覺得不耐煩,那么顯然他不適合做數(shù)據(jù)分析。如果對數(shù)據(jù)較敏感,能夠一眼發(fā)現(xiàn)異常值,數(shù)據(jù)分布情況,這會是較 好的。

邏輯性方面:

試著做一些經典的邏輯題,看看能否解出來,需要多久;邏輯思維對數(shù)據(jù)分析尤其重要,不然會被各種指標的定義規(guī)則、與業(yè)務的聯(lián)系糾結死,邏輯思維好的人寫SQL等數(shù)據(jù)處理腳本也會更加高效。

業(yè)務理解能力:

因為數(shù)據(jù)分析較 終價值的實現(xiàn),一般來說不會是分析師親自去制定或者實施。所以一定要很有條理、邏輯清晰向別人表達,讓業(yè)務方認識到你分析結果的價值,從而影響業(yè)務方去愿意使用你從數(shù)據(jù)中得到的觀點。比如你能否定義下網站的目標是什么,哪些指標可以作為KPI,用戶從進入網站到達成網站目標的整個過程是怎么實現(xiàn)轉化的?能否畫出業(yè)務流程圖類似等等。如果偏技術則需要懂一些數(shù)據(jù)庫結構和SQL,如果偏展現(xiàn)需要考驗下對圖表的掌控能力,什么時候用什么圖表合適,甚至如何配色。

愿意學習:

你分析的內容永遠不會一塵不變,即使你分析的主題是相對固定,但業(yè)務是變化的,你需要不斷的學習業(yè)務,與不同人溝通,吸收別人的觀點。所以分析師一定要有很好的學習態(tài)度。

  細心、耐心和交流能力(這個很重要):

做數(shù)據(jù)分析有時會很糾結,細心和耐心是必需的,好的交流能力可以讓數(shù)據(jù)分析師更好地闡述清楚各類問題。

  需要學習的課程

先修課程:數(shù)據(jù)科學原理、算法、數(shù)據(jù)庫管理系統(tǒng)、統(tǒng)計

基礎課程:計算統(tǒng)計方法、機器學習和數(shù)據(jù)挖掘、視覺分析、所媒體檢索、數(shù)據(jù)分析和商業(yè)智能、數(shù)據(jù)安全管理、預測分析、高級數(shù)據(jù)模型、云計算、自然語言處理、高級機器學習、統(tǒng)計學習和數(shù)據(jù)挖掘、復雜系統(tǒng)、空間數(shù)據(jù)分析、環(huán)境足跡和IO分析……

研究開發(fā)項目(畢業(yè)項目)

  數(shù)據(jù)科學專業(yè)的就業(yè)

數(shù)據(jù)科學是這兩年迅速火起來的專業(yè)方向,就業(yè)方向還時比較廣泛的,主要可以分為以下三類:

第一類:純數(shù)據(jù)分析類

1.Data Analyst 數(shù)據(jù)分析師

數(shù)據(jù)分析師側重于利用統(tǒng)計學、數(shù)學等知識進行數(shù)據(jù)挖掘,日常的主要工作內容為收集數(shù)據(jù)、清洗數(shù)據(jù)、然后做一些分析或可視化處理,對編程語言有一定的要求,如R,Python,Javascript,C/C++,SQL等。初級的Analyst的工作就是配合Scientist和Engineer,當業(yè)務需求使用某些方法的時候,他們就是一線操作者,當scientist要數(shù)據(jù),他們要收集清理數(shù)據(jù),當客戶或者子公司要數(shù)據(jù),他們也要收集清理數(shù)據(jù)。得出較 終的分析報告給產品組工程組或管理層。 所以從這個角度講,analyst只是非常純粹的在和數(shù)據(jù)打交道罷了。

2.Data Scientist 數(shù)據(jù)科學家

數(shù)據(jù)科學家是數(shù)據(jù)領域非常具有復合型的高級崗位,往往需要具備能夠獨立完成一整套數(shù)據(jù)分析過程的能力:從數(shù)據(jù)提取,整合、并進行分層,進行統(tǒng)計或其他復雜的分析,創(chuàng)造引人注目的可視化詮釋和效果,開發(fā)具有更寬廣應用前景的數(shù)據(jù)工具。實際工作中主要的精力大概在分布式算法的實現(xiàn)和優(yōu)化上,特別是后者,是 極 具挑戰(zhàn)性的,需要資深的數(shù)據(jù)科學家來完成,因此需要非常強大的數(shù)學、統(tǒng)計、計算機背景,在優(yōu)化問題上很有經驗。

3.Data Architect 數(shù)據(jù)架構師

都說不想當數(shù)據(jù)架構師的程序猿不是一個好前端。因為一個優(yōu)秀的數(shù)據(jù)架構師應該對所在領域的主流技術體系有一個全面清晰的認識,對某一種技術的原理、運作機理有深入的理解,是該領域的專家,同時具有將客觀事物抽象出來的能力,關注當前技術前沿和熱點,使用較 高效的方式解決問題。他們的日常主要任務為創(chuàng)建數(shù)據(jù)管理系統(tǒng),對數(shù)據(jù)源進行整合、集中、和維護。具體來講,要求會SQL,XML,HIVE,PIG,SPARK等,對數(shù)據(jù)庫體系結構有深入了解,擅長數(shù)據(jù)倉庫解決方案等。

4.Data Engineer 數(shù)據(jù)工程師

作為一個新興的職業(yè)類型, 數(shù)據(jù)工程師更傾向于掌握 戰(zhàn)術層面” 的具體數(shù)據(jù)技能,專注于使數(shù)據(jù)可用并能夠在生產環(huán)境中對數(shù)據(jù)進行處理,如具體的編程語言、操作系統(tǒng)與數(shù)據(jù)庫等;而數(shù)據(jù)科學家更傾向于戰(zhàn)略層面”的數(shù)據(jù)技能,如數(shù)據(jù)分析、數(shù)據(jù)挖掘、統(tǒng)計分析、機器學習等。他們的日常主要工作內容是用SQL來回答分析型問題,用腳本來做數(shù)據(jù)集成,清洗ETL(提取-轉換-裝載)任務和使用Hadoop生態(tài)工具等,對編程語言要求較高,SQL,HIVE,PIG,R,MATLAB,SAS,SPSS,Python,Java,Ruby,C++,Perl等等都要會。

5.Database Administrator 數(shù)據(jù)庫管理員

數(shù)據(jù)庫管理員和數(shù)據(jù)分析的關聯(lián)不是很大,類似于一個IT職位,職責為管理數(shù)據(jù)以及支持數(shù)據(jù)管理的設施,盡量數(shù)據(jù)庫是提供給所有相關用戶,正在正確、安全的執(zhí)行,因此可能會用到SQL,hadoop及相關查詢語言,如Hive和Pig。日常專注于優(yōu)化數(shù)據(jù)倉庫,負責數(shù)據(jù)的讀寫和管理。

第二類:以數(shù)據(jù)為驅動的商業(yè)分析類

1.Business Analyst 商業(yè)分析師

商業(yè)分析師和純數(shù)據(jù)科學家都是使用數(shù)據(jù)的專家,但他們的工作內容是有比較大差別的。通常,商業(yè)分析師要對某專業(yè)領域具有深入的了解和深刻的認識,商業(yè)敏感度高,擅長于從某一領域的數(shù)據(jù)中挖掘信息,以此評估過去、現(xiàn)在和未來可能的經營業(yè)績。確定較 有效的分析模型和途徑,為商業(yè)用戶提供和解釋解決方案。

這個過程一般包括先和客戶溝通,確定客戶的問題和訴求,之后定義業(yè)務問題,搜集原始數(shù)據(jù),運用預測性、規(guī)范性和描述性分析來研究、解釋和可視化這些數(shù)據(jù),讓它們變得具有價值且能為客戶展示。在這一過程中與客戶反復商討需求,更新模型,較 終利用數(shù)據(jù)模型理解、整合,得出較 佳解決方案。

2.Data and AnalyticsProduct Manager數(shù)據(jù)產品經理

管理團隊分析師和數(shù)據(jù)科學家,除了要會一些必備的基礎語言如SQL,R,SAS,Python,Java,Matlab和數(shù)據(jù)挖掘、數(shù)據(jù)建模等能力,還需要對產品有深刻的理解、熟練應用數(shù)據(jù)可視化工具,和良好的人際溝通能力。他們的主要職責包括但不限于搭建數(shù)據(jù)pipeline,做分析,實驗場景,評估和實施分析結果,同時要針對結果針對數(shù)據(jù)邏輯提出需求,解答來自其他部門的問題,設計出更好的產品,留住更多的客戶,產生更多的利潤。

第三類:統(tǒng)計學家

統(tǒng)計學家顧名思義,需要熟悉統(tǒng)計理論方法,分布式計算,數(shù)據(jù)庫系統(tǒng),云工具,數(shù)據(jù)挖掘機器學習等,語言方面需要R, SAS, SPSS, Mtlab, Stata, Python, Perl, Hive, Pig, Spark, SQL

網上報名
  • 姓名:
  • 專業(yè):
  • 層次: ??分數(shù):
  • 電話:
  • QQ/微信:
  • 地址:

文中圖片素材來源網絡,如有侵權請聯(lián)系644062549@qq.com刪除

轉載注明出處:http://www.jyqzw.cn