


在中國(guó),打開直聘,搜索數(shù)據(jù)科學(xué)家職位,你會(huì)看到月薪范圍為2萬(wàn)至9萬(wàn),每年14至16薪,按此計(jì)算,最低年薪為28萬(wàn),最高為144萬(wàn)。高級(jí)/資深軟件開發(fā)工程師的月薪范圍為2-6萬(wàn),每年12-15薪,按此計(jì)算,最低年薪為24萬(wàn),最高為90萬(wàn)。兩者的差距還是很大的。你會(huì)發(fā)現(xiàn):數(shù)據(jù)科學(xué)專業(yè)畢業(yè)后的薪資水平高于大部分計(jì)算機(jī)專業(yè)的畢業(yè)生(以上數(shù)據(jù)源于2021年9月份直聘網(wǎng))。
除了薪資高,職位需求也是快速增長(zhǎng)的,據(jù)領(lǐng)英發(fā)布的《2021年新興職位趨勢(shì)報(bào)告》對(duì)2020年3月1日至2021年2月28日與上一年同期進(jìn)行了對(duì)比,數(shù)據(jù)科學(xué)是增長(zhǎng)最快的職位。
在美國(guó),綜合年薪、工作滿意度以及在Glassdoor開放的崗位數(shù)目,數(shù)據(jù)科學(xué)家在美國(guó)最大的求職網(wǎng)站之一Glassdoor美國(guó)最佳工作(Best jobs in America)排名,連續(xù)四年穩(wěn)居第一,平均年薪維持在10萬(wàn)美元之上,成為美國(guó)最為炙手可熱的職業(yè)之一。
Ⅰ 專業(yè)介紹
數(shù)據(jù)科學(xué)(Data Science)是近幾年被獨(dú)立分割出的新興專業(yè),是一門交叉學(xué)科,涉及很多的領(lǐng)域,包括統(tǒng)計(jì)學(xué)、數(shù)學(xué)、計(jì)算機(jī)、人工智能、機(jī)器學(xué)習(xí)、數(shù)據(jù)庫(kù)、模式識(shí)別、可視化技術(shù)等多學(xué)科的知識(shí)。大數(shù)據(jù)時(shí)代的到來(lái)為各個(gè)科學(xué)領(lǐng)域帶新的改革。
大家概念中的“數(shù)據(jù)分析”或者“數(shù)據(jù)科學(xué)",通常指的就是定量的定義問(wèn)題,并基于歷史觀測(cè)數(shù)據(jù)(而不是實(shí)驗(yàn)數(shù)據(jù))和定量方法解決問(wèn)題,讓數(shù)據(jù)自己講故事,而不是通過(guò)經(jīng)驗(yàn)或者實(shí)驗(yàn)講故事。因此,所有可靠的可定量的數(shù)據(jù)問(wèn)題都可以基于數(shù)據(jù)分析方法解決,而遠(yuǎn)不止商業(yè)問(wèn)題。
去年抗擊新冠疫情的過(guò)程中,數(shù)據(jù)科學(xué)也起了非常重要的作用。前有根據(jù)大數(shù)測(cè)疫情拐點(diǎn)、利用監(jiān)控網(wǎng)絡(luò)發(fā)現(xiàn)傳染源,后有達(dá)摩院醫(yī)療,AI醫(yī)生能在20秒內(nèi)完成新冠肺炎影像的分析,分析結(jié)果準(zhǔn)確率達(dá)96%。艾倫AI研究所等頂級(jí)研究小組發(fā)布了免費(fèi)的COVID-19開放研究數(shù)據(jù)集,涵蓋目前所有的冠狀病毒研究文獻(xiàn),Kaggle緊跟著發(fā)起CORD-19數(shù)據(jù)集文本挖掘競(jìng)賽,提出 10大難題,召喚AI研員開發(fā)文本數(shù)據(jù)挖掘工具助力醫(yī)學(xué)界。
Ⅱ 數(shù)據(jù)科學(xué)就業(yè)方向
數(shù)據(jù)科學(xué)與大數(shù)據(jù)技術(shù)專業(yè)學(xué)生畢業(yè)生能在政府機(jī)構(gòu)、企業(yè)、公司等從事大數(shù)據(jù)管理、研究、應(yīng)用開發(fā)等方面的工作。主要有以下三類職業(yè)方向:
一、機(jī)器學(xué)習(xí)工程師 Machine Learning Engineer
代表了技術(shù)含量較高的方向。工作內(nèi)容主要是開發(fā)機(jī)器學(xué)習(xí)系統(tǒng)和用這些系統(tǒng)解決實(shí)際問(wèn)題,一般需要 ship production code ,做出來(lái)的是數(shù)據(jù)產(chǎn)品。
二、數(shù)據(jù)分析員 Data Analyst
工作內(nèi)容俗稱 analytics(product analytics or business analytics ),從數(shù)據(jù)中提取 insight ,估計(jì)投資回報(bào)比,為產(chǎn)品方向提建議。 在美國(guó),Data Analyst 的基本工資中值為58777美元。能夠影響薪資的技能包括數(shù)據(jù)分析、 Microsoft Excel 、SQL、數(shù)據(jù)庫(kù)管理與報(bào)告、Microsoft Office、數(shù)據(jù)挖掘/數(shù)據(jù)倉(cāng)庫(kù)、統(tǒng)計(jì)分析、數(shù)據(jù)建模、數(shù)據(jù)錄入、 Microsoft SQL Server、 Microsoft Access、R、SAS等。
三、數(shù)據(jù)科學(xué)家 Data Scientist
1、IT 數(shù)據(jù)科學(xué)家
工作內(nèi)容以高級(jí)建模為主,會(huì)針對(duì)復(fù)雜的問(wèn)題來(lái)設(shè)計(jì)技術(shù)方案。它的任務(wù)是為建模、數(shù)據(jù)挖掘、生產(chǎn)目的設(shè)計(jì)、構(gòu)建新的數(shù)據(jù)集流程,確定改進(jìn)數(shù)據(jù)和搜索質(zhì)量以及預(yù)測(cè)能力的新方法。執(zhí)行和解釋關(guān)于新數(shù)據(jù)源或現(xiàn)有數(shù)據(jù)源的新用途的數(shù)據(jù)研究和產(chǎn)品實(shí)驗(yàn)。開發(fā)原型、概念證明、算法、預(yù)測(cè)模型和分析。
2、營(yíng)銷數(shù)據(jù)科學(xué)家
負(fù)責(zé)構(gòu)建和調(diào)整轉(zhuǎn)換算法和數(shù)據(jù)挖掘策略,以利用消費(fèi)者數(shù)據(jù),通過(guò)數(shù)據(jù)來(lái)給出營(yíng)銷方面的戰(zhàn)略建議,以確保在線營(yíng)銷策略與公司更廣泛的營(yíng)銷計(jì)劃相結(jié)合,并使用例如 Adobe Analytics /Google Analytics 這類分析工具,及時(shí)向公司管理層和客戶提供報(bào)告.
Ⅲ本科的哪些專業(yè)可以申請(qǐng)、本科期間必須學(xué)習(xí)的課程
一、本科哪些專業(yè)可以申請(qǐng)
早前,Data Science一直被默默無(wú)聞地嵌入BI(Business Inteligence)或Business Analytics、Computer Science。但是,隨著大數(shù)據(jù)無(wú)限膨脹,人們?cè)秸J(rèn)識(shí)到如何處理大數(shù)據(jù)將成為一門非常有用且高深的學(xué)問(wèn),于是它漸漸Business School(商學(xué)院)和 CS(計(jì)算機(jī))大院中剝離出來(lái)。
然而,其交叉學(xué)科的性質(zhì)和未來(lái)廣闊的不同專業(yè)的就業(yè)面,使得眾多本科專業(yè)背景的同學(xué)都可以參與到這個(gè)專業(yè)的研究生學(xué)習(xí)當(dāng)中,有如下三個(gè)類別的本科專業(yè)可以申請(qǐng)數(shù)據(jù)科學(xué)專業(yè)的研究生:
1、數(shù)學(xué)
本科背景是統(tǒng)計(jì)、數(shù)學(xué)或應(yīng)用數(shù)學(xué),且有一定編程基礎(chǔ)的同學(xué)很適合申請(qǐng)。
數(shù)據(jù)科學(xué)專業(yè)無(wú)法避免的就是算法,而算法的基礎(chǔ)就是數(shù)學(xué)。因而數(shù)學(xué)系的同學(xué)如果申請(qǐng)數(shù)據(jù)科學(xué)研究生的話是非常有競(jìng)爭(zhēng)力的,雖然你可能沒(méi)有計(jì)算機(jī)基礎(chǔ),但是你的邏輯思維直接導(dǎo)致了你有很好的處理大數(shù)據(jù)的能力。
2、計(jì)算機(jī)相關(guān)專業(yè)
本科為計(jì)算機(jī)相關(guān)專業(yè)的同學(xué),申請(qǐng)數(shù)據(jù)科學(xué)研究生自然是最具競(jìng)爭(zhēng)力的。因?yàn)榇蠖鄶?shù)數(shù)據(jù)工作都是通過(guò)編程和數(shù)據(jù)庫(kù)的相關(guān)手段進(jìn)行的,并要求學(xué)過(guò)統(tǒng)計(jì)、微積分、高級(jí)語(yǔ)言。
3、經(jīng)濟(jì)學(xué)相關(guān)專業(yè)
在大數(shù)據(jù)環(huán)境下,你有經(jīng)濟(jì)學(xué)基礎(chǔ),那么恭喜你,你一定比其他專業(yè)的同學(xué)們更懂得什么數(shù)據(jù)才是有利于預(yù)估經(jīng)濟(jì)發(fā)展行情的。因而,如果你有很好的邏輯能力的話,你完全可以學(xué)習(xí)一些基礎(chǔ)的計(jì)算機(jī)知識(shí)和編程,這不但是適應(yīng)社會(huì)發(fā)展的知識(shí),也是能讓你在今后就業(yè)方面如魚得水的專業(yè)。
二、本科期間必須學(xué)習(xí)的課程
以上三類專業(yè),都可以申請(qǐng)數(shù)據(jù)科學(xué)研究生,實(shí)際上,美國(guó)大學(xué)對(duì)于申請(qǐng)這個(gè)專業(yè)的研究生在本科階段的學(xué)習(xí)中的一些課程是有要求的,這些課程在你大學(xué)的前三年要修完,這些課程,行業(yè)內(nèi)人員稱之為前置課程。我們看哈佛大學(xué)對(duì)申請(qǐng)者的課程要求:
哈佛大學(xué)對(duì)于MSDS(Master of Science in Data Science)的本科要求是:希望有微積分、線性代數(shù),概率和統(tǒng)計(jì)等相關(guān)課程,能使用至少1種編程語(yǔ)言,例如Python或R,了解計(jì)算機(jī)科學(xué)概念。
基于以上情況,總結(jié)一下學(xué)生在本科期間應(yīng)該學(xué)習(xí)以下課程:
1、數(shù)學(xué)課程
盡管每所學(xué)校都要求不盡相同, 但一般會(huì)要求學(xué)生修過(guò)線性代數(shù),概率論,數(shù)理統(tǒng)計(jì),微積分等這些基礎(chǔ)課程;或者高級(jí)物理學(xué),工程學(xué)或有大量數(shù)學(xué)內(nèi)容的計(jì)量經(jīng)濟(jì)學(xué)課程作為數(shù)理能力的補(bǔ)充。
2、計(jì)算機(jī)課程
計(jì)算機(jī)科學(xué)入門(或等效的“ CS-101”編程課程),如果有其他計(jì)算機(jī)基礎(chǔ)課程如算法,數(shù)據(jù)結(jié)構(gòu),數(shù)據(jù)庫(kù)概率,數(shù)據(jù)挖掘,機(jī)器學(xué)習(xí)等更佳。
3、軟件編程
計(jì)算機(jī)語(yǔ)言沒(méi)有特定的要求,但是成功的申請(qǐng)者通常至少需要掌握一門編程語(yǔ)言,編程語(yǔ)言(Python/R/Java/C++),一般最看重Python和R。
Ⅳ研究生數(shù)據(jù)科學(xué)專業(yè)開設(shè)情況與數(shù)據(jù)科學(xué)研究生所學(xué)課程
美國(guó)大學(xué)開設(shè)了200多個(gè)與數(shù)據(jù)科學(xué)有關(guān)的碩士專業(yè),到2013年后,開設(shè)數(shù)據(jù)科學(xué)碩士項(xiàng)目的美國(guó)大學(xué)保持持續(xù)增長(zhǎng)。目前在TOP50院校中開設(shè)數(shù)據(jù)科學(xué)碩士專業(yè)的學(xué)校達(dá)21所。
美國(guó)的數(shù)據(jù)科學(xué)碩士專業(yè)一般開設(shè)在計(jì)算機(jī)學(xué)院、工程學(xué)院、數(shù)學(xué)、統(tǒng)計(jì)學(xué)院或者系下。設(shè)立在多個(gè)學(xué)院是因?yàn)檫@個(gè)專業(yè)本身屬于交叉學(xué)科,包含了計(jì)算機(jī),統(tǒng)計(jì),數(shù)學(xué),和應(yīng)用領(lǐng)域的學(xué)科。
例如卡耐基梅隆大學(xué)的數(shù)據(jù)科學(xué)專業(yè)開設(shè)在計(jì)算機(jī)學(xué)院下,紐約大學(xué)的數(shù)據(jù)科學(xué)碩士就是設(shè)立在紐約大學(xué)數(shù)據(jù)科學(xué)中心下(The Center for Data Science ,簡(jiǎn)稱CDS),CDS附屬在著名的庫(kù)郎數(shù)學(xué)科學(xué)研究所 。
Ⅴ軟背景要求
除了硬件背景,GPA, GRE, 托福等,軟背景是更重要的申請(qǐng)條件,經(jīng)驗(yàn)包括實(shí)習(xí)經(jīng)驗(yàn)、科研經(jīng)驗(yàn)、競(jìng)賽。
一、科研
一般需要1-2段。
對(duì)口的科研有數(shù)據(jù)挖掘中的算法和應(yīng)用,亦或者計(jì)算機(jī)軟件、數(shù)據(jù)庫(kù)相關(guān)的項(xiàng)目。
二、實(shí)習(xí)
一般需要2-3段。
實(shí)習(xí)最優(yōu)選擇應(yīng)該是知名數(shù)據(jù)公司的數(shù)據(jù)崗,比如數(shù)據(jù)科學(xué)家,數(shù)據(jù)分析師,機(jī)器學(xué)習(xí)工程師,研究分析師等,然而現(xiàn)實(shí)是這些崗位由于太過(guò)重要,實(shí)習(xí)的機(jī)會(huì)較少。所以建議找一些統(tǒng)計(jì)、量化相關(guān)的或者計(jì)算機(jī)相關(guān)的實(shí)習(xí),比如統(tǒng)計(jì)師,產(chǎn)品分析師,生物統(tǒng)計(jì)師,分析師助理,大數(shù)據(jù)處理助理。
但是,這些崗位對(duì)公司來(lái)講一般都太過(guò)重要,一般不招實(shí)習(xí)生,所以建議找一些統(tǒng)計(jì)量化相關(guān)的或者計(jì)算機(jī)相關(guān)的實(shí)習(xí)。
三、競(jìng)賽
競(jìng)賽的平臺(tái)較多,比較火的有Kaggle,還有就是阿里的天池、SODA、WID、數(shù)據(jù)嗨克等。
谷歌旗下的Kaggle是一個(gè)數(shù)據(jù)建模和數(shù)據(jù)分析競(jìng)賽平臺(tái),是當(dāng)下最流行的數(shù)據(jù)科研賽事平臺(tái),其組織的賽事受到全球數(shù)據(jù)科學(xué)愛好者的追捧。如果你能在這個(gè)比賽獲得較好名次,不僅可以體現(xiàn)你在數(shù)據(jù)科學(xué)、人工智能學(xué)科上的強(qiáng)烈興趣,還能在研究生申請(qǐng)和未來(lái)工作中,增加你在編程和算法上的競(jìng)爭(zhēng)力!