專業(yè)簡介

數(shù)據(jù)科學是一門涉及到統(tǒng)計,數(shù)據(jù)分析及其相關(guān)方法的科學,借用數(shù)據(jù)去理解和分析實際現(xiàn)象”。數(shù)據(jù)科學使用到數(shù)學、統(tǒng)計、信息科學和計算機科學等各個學科的技術(shù)和理論,特別是以下分支:機器學習, 分類, 聚類分析,數(shù)據(jù)挖掘,數(shù)據(jù)庫和可視化。大多數(shù)院校的Data Science屬于STEM學科。

數(shù)據(jù)科學可以應用在哪些領(lǐng)域?--以哥大的數(shù)據(jù)科學所的研究領(lǐng)域為例:

Ÿ Financial and Business Analytics 金融與商業(yè)分析(例如數(shù)據(jù)科學幫助解決詐騙郵件的問題;數(shù)據(jù)科學幫助解決量化交易收益最 大化的問題;數(shù)據(jù)科學在大規(guī)模商業(yè)銀行中的應用)
Ÿ Health Analytics 健康分析(哥倫比亞大學數(shù)據(jù)健康分析中心的研究員和教授來自醫(yī)學、生物、公共衛(wèi)生、生物信息、計算機、應用數(shù)學與統(tǒng)計專業(yè)。目標是通過數(shù)據(jù)驅(qū)動的方和對健康過程的理解來改善個人健康和醫(yī)療系統(tǒng)。案例: Real-time Monitoring and Data Visualization for the Management of Intracranial Hypertension in the Intensive Care Unit 重癥監(jiān)護病房顱內(nèi)高壓管理的實時監(jiān)測和數(shù)據(jù)可視化)
Ÿ Smart Cities 智慧城市(哥大智慧城市研究中心的研究涵蓋面很廣,例如檢測和消除城市基礎(chǔ)設(shè)施老化的問題,提高智能電網(wǎng)技術(shù),計算和溝通交通擁擠時的最 佳交通路線等)
Ÿ Computational Social Science 計算社會科學(哥倫比亞大學計算社會科學研究中心,幫助缺少編程和技術(shù)背景的研究人員,解決社會科學的問題。例如利用移動電話和衛(wèi)星數(shù)據(jù)繪制貧困地圖,解決貧困問題(孟加拉地區(qū)))
Ÿ Cybersecurity 網(wǎng)絡(luò)安全(我們致力于開發(fā)在整個生命周期內(nèi)保持數(shù)據(jù)安全和私有性的能力。該中心與計算機科學和電氣工程系,以及商學院合作研究。)
1.2 項目設(shè)置
數(shù)據(jù)科學項目主要是面向職業(yè)培訓、側(cè)重工業(yè)界需求,所以設(shè)置博士學位的學校比較少。為了符合工業(yè)界需求,專門的數(shù)據(jù)科學項目課程都很實際,側(cè)重培養(yǎng)學生分析數(shù)據(jù)、解決問題的實際動手能力,課程一般不涉及理論知識。
如果要讀博士,申請統(tǒng)計和生物統(tǒng)計專業(yè)最對口,其次是計算機或者電子工程做機器學習數(shù)據(jù)挖掘這些相關(guān)方向的。另外數(shù)學、IEOR、經(jīng)濟等專業(yè)也有少數(shù)博士生做的方向可以轉(zhuǎn)到數(shù)據(jù)科學上。
1.3 課程設(shè)置
核心課程有 (以哥倫比亞大學數(shù)據(jù)科學項目為例):
統(tǒng)計和計算機課程
l Introduction to Data Science
l Computer Systems for Data Science
l Machine Learning for Data Science
l Algorithms for Data Science
l Probability Theory
l Probability Theory
l Exploratory Data Analysis & Visualization
l Statistical Inference & Modeling
選修課
可選范圍比較廣泛,包括
l Translational Bioinformatics
l Topics in Computer Science: Applied Machine Learning
l Topics in Computer Science: Causal Inference for Data Science
l Topics in Computer Science: Elements of Data Science: A First Course
l NLP: Computational Models of Social Meaning
l Topics in Computer Science: Projects in Data Science: A First Course
l Topics in Information Processing: Big Data Analytics