「數據科學家」和「數據工程師」是一回事嗎?

文章推薦指數: 80 %
投票人數:10人

數據科學家」和「數據工程師」可能是新的職位名稱,但其核心的工作角色已經存在了一段時間。

傳統上,我們把進行數據分析工作的人稱作「數據分析師」,而把那些創造支撐數據分析後端平台的人稱做 「商業智能(BI)開發者」。

隨著大數據的出現,企業和研究中心開始出現新的角色,即數據科學家和數據工程師。

在日常工作中,數據科學家與數據工程師,二者常常被混為一談,而實際上,他們在專業背景和技能上區別多多。

身為大數據從業者的你,知道他們有哪些區別嗎?

»數據分析師:

編 程 ★★★★

溝 通 ★★★

創 新 ★★★

數據分析 ★★★★

其他能力 ★★★

所謂數據分析師,指的是那些可以挖掘、處理數據,提供報告,進行數據可視化處理的專業人士,他們在組織中有著十分豐富的數據經驗。

數據分析師可以熟練利用現有的工具和方法來解決問題,從而幫助整個公司的人了解具體的查詢數據,並在完成點對點匯報與圖表方面駕輕就熟。

然而,有趣的是,他們本身並不處理大數據,一般也不具有開發新算法來解決具體問題的數學或研究背景。

技能及常用工具:

統計建模 數據清洗 數據可視化 探索性數據分析 Excel SPSS SAS Modeler SQL Access Tableau SSAS。

»商業智能開發者(BI開發者):

編 程 ★★★

溝 通 ★★★★

創 新 ★★★★★

數據分析 ★★

其他能力 ★★★★

商業智能開發人員其實是數據專家的一種。

與其他數據專家相比,商業智能開發人員與企業內部的人員有著更加密切的交流,他們更懂得報告的需求——收集需求,進行設計,然後完成商業智能的開發並將結果上報給公司。

他們需要設計、開發、支持現有及未來的的數據倉庫,包括ETL包,cubes,儀錶板和分析報告等。

此外,他們的工作也與資料庫密切相關。

作為一名合格的商業智能開發人員,他們必須具備出眾的SQL開發能力來整合不同來源的數據。

商業智能開發人員需掌握大量技能,以滿足企業廣泛的自我服務需求,但商業智能開發人員通常不一定擅長數據分析。

技能及常用工具:

ETL 開發報表 業務對象設計 畫面 儀表工具 OLAP cubes Tableau SQL SSAS SSIS Web intelligence

»數據工程師:

創 新 ★★★★

所謂數據工程師,指的則是那些為數據科學家們提供基礎「大數據」的人。

簡而言之,他們是設計、建造、整合各種數據資源並管理大數據的軟體工程師。

除此之外,他們還要基於大數據編寫複雜的queries,確保它們容易訪問,運行流暢,因此他們的主要目標是優化公司大數據生態系統的性能。

他們同時也可能在大數據集的基礎上運行一些ETL(提取,轉換和加載)和創建大數據倉庫,以便於數據科學家撰寫報告和進行分析。

除此之外,因為數據工程師更專注於設計和架構,他們通常不擅長機器學習和大數據分析。

技能及常用工具:

Programming Hadoop MapReduce Hive Pig MySQL MongoDB Cassandra Data streaming NoSQL SQL

»數據科學家:

數據科學家是二十一世紀的鍊金術士:他們洞悉原始數據,從而進行轉化。

數據科學家利用統計、機器學習和分析方法來解決關鍵業務問題,幫助公司將大數據量化為有價值、可操作的見解。

事實上,數據科學本身並不是一個新領域,但它可以被看做是數據分析的前景——一個被機器學習和計算機科學所驅動的時代。

換句話說,與「數據分析師」相比,數據科學家除了數據分析技能之外,一般也擁有較強的編程技能、設計新的算法的能力、處理大數據的能力以及其他領域知識的一些專業知識。

此外,數據科學家通常也能夠藉助可視化技術、建立數據科學的應用程式或用有趣的故事,更好地闡述他們通過分析數據得出的對業務問題的解決方案。

數據科學家的問題解決能力通常建立在對新老數據進行分析、建立模型和發現數據模式的基礎之上。

例如創建一個推薦引擎來進行股票市場預測,就需要數據科學家在相似性的基礎上進行模式分析,或者發現欺詐交易模式。

數據科學家在面對大數據時,有時並沒有特定的業務問題解決需求。

在這種情況下,具有好奇心的數據科學家通常會探索數據,提出正確的問題,並得出有趣的探索結果。

這件事情最難的地方在於,要想分析這些數據,就要求強大的數據科學家應該在機器學習、數據挖掘、統計和大數據基礎方面具有極其廣泛的知識儲備和足夠的能力。

數據科學家需要擁有處理不同大小、不同形狀的數據集的能力,並且應該有能力在巨大的數據下快速且高效的運行自己的算法,而這通常意味著要時刻緊跟最新的尖端技術。

這也就是為什麼數據科學家要了解計算機科學的基本原理和編程,包括各種語言編寫經驗和資料庫(大/小)的技術了。

技能及常用工具:

Python R Scala Apache Spark Hadoop 數據挖掘工具和算法 機器學習 統計建模

以上便是數據分析師,商業智能開發,數據工程師和數據科學家在數據中所扮演角色的幾點不同,願大數據從業的你,找到自己的目前定位;還未就業的你,可依據優勢選擇自己擅長的職能喲~

註:本文摘自:Kesci數據實踐,原文來源:bigdatauniversity.com/blog,作者:Saeed Aghabozorgi,Polong Lin,編譯:鄧以勒,數據觀微信公眾號(ID:cbdioreview) ,欲了解更多大數據行業相關資訊,可搜索數據觀(中國大數據產業觀察網www.cbdio.com)進入查看。


請為這篇文章評分?


相關文章