Data Engineer常用工具以及技能
前一阵子寿司换了工作,新的工作涉及到一些和Data Engineer组的合作,因此对这个组有了一些浅显的了解,这篇文章就来介绍一下寿司自己了解到的这个岗位常用的工具以及技能。由于寿司并不是这个岗位的,如果有哪里说错也欢迎大家评论指正。
什么是Data Engineer
之前寿司介绍过,Data Scientist主要是利用数据建立模型,从而引导决策,那么数据从哪里来呢?答案就是来自Data Engineer。
在很多公司,DS与DE经常需要对接,两个组成员一起讨论数据如何清理搭建,由DE负责将数据处理好后交给DS进行建模以及数据决策。
也就是一般来说,Data Engineer主要职责是负责数据库的运营与维护,大家经常听到的ETL也就是数据的extraction,transform和load。而随着大数据时代的不断发展与变更,传统的ETL已经不是Data Engineer需要的唯一技能了。越来越多的岗位要求利用分布式系统完成对数据的ETL。
Data Engineer所需技能
不同公司DE的岗位所用工具可能不太一样,因此很多DE熟悉多种不同工具,根据寿司了解以及搜集领英上相关岗位职位要求,可以看到大部分公司要求的技能包括:
Programming: Python,PySpark,Java,SQL,Scala,Shell Scripting
Cloud Computing:AWS(Redshift,EC2,EMR,S3 etc)or Azure
Databases:SQL Server,MySQL,Oracle
NoSQL Databases:MongoDB,Neo4j
CI/CD: Kubernetes, Docker
Big Data:Hadoop,Hive,HDFS,Spark
Other:Databricks,Git,Linus,JavaScript
以上技能以及工具并不完全,并且,大部分公司都只需要面试者掌握其中一部分工具。
总结来看,DE对CS要求相对较高,对统计以及Machine Learning知识要求较少,而在这所有技能之中,SQL是重中之重,如果对DE工作感兴趣的话一定要把SQL掌握的比较好。
Data Engineer相关岗位
DE相关的岗位很多,包括但不限于:
Data Engineer
Big Data Engineer
Data Science Engineer
Cloud Engineer
Cloud Data Engineer
Manager, Data Engineer
Director, Data Engineer
据寿司的了解,DE岗位的工资一般会比SDE低一些,但是同样面试的技术要求也不太一样。跟其他非Data相关的岗位比较,DE的工资还是很不错的。