我们先说下ds/da/ba类的职位的本质,然后再说。只要本质你理解了,你就知道这个简历要怎么弄了。你耐心读完,读完会有所启发的。
一、先梳理一下大部分公司的经营逻辑以及ds da ba类职位的本质
1.公司只要在经营,就会遇到business problem,如果这种business问题不被解决,公司的profit就会降低。
任何公司都是这样的,比如这个产品卖不出去了,那profit就升不上去了;比如最近离职的员工太多,然后就没人干活、没人帮公司赚钱了,那profit就升不上去了;比如最近产品的原材料价格上涨,所以公司的成本大幅度增加,那profit就升不上去了。
反正公司只要在运营,就会出各种各样的business problem,然后归根到底,这些问题都会影响到profit的增加这件事。
所以公司会招一些ba da过来,让他们用data的方法来解决这些business problem,以让profit增加。
2.拆解:
虽然最高目标是让profit增加,但是这个任务目标过于宏观,我们需要拆解一下,拆成小任务、小的business problem,这样做起来会容易一些。
所以我们要思考,公司的profit又是什么?没错了,是profit = revenue - cost
所以解决business problem(想让profit增加)的方法有什么呢?没错了,那就是为公司增加revenue,或,为公司降低cost,或 both。
3.再拆解:
但是为公司增加revenue也好,为公司降低cost也好,依然是有点虚、有点过于宏观,因为这依然是high level的business goal。但是具体要做什么,依然要进一步拆解。
例如,想要增加公司revenue,那,如果公司有一个实际的product,那可能围绕product,就是三件大事要做好就能增加revenue:
Marketing要做好:Marketing做好了,就会有更多人从不知道这个产品 变为 知道这个产品
Sales要做好:就会有更多人从知道这个产品 变为 购买这个产品
After-sales的service/product要做好:付费客户都开心,就有可能多次购买这个产品,或者,推荐朋友一起买
4.继续拆解:
但是只这么说这三件事(marketing、sales、after-sales的service/product),还是有点虚、还是有点宏观。所以,针对这三件事我们具体要做什么,就还是要进一步拆解。
例如,想要做好marketing(让更多人知道这个产品),那估计就要做多种marketing,例如:
Brand marketing
Product marketing
Social marketing
…..
同理,想要做好sales,也是要采用多种sales的方法/策略,然后把这些方法都执行好。
所以,marketing、sales和after-sales的service啊,都是又可以进步拆解为更小的business problem。
5.在进一步拆解的过程中,发现了一些不一样的事情:
回顾以上的拆解过程,我们可以发现,这个是business problem细化的过程,是从宏观到微观的过程,是从“虚”到“实”的过程。随着拆解的逐渐深入,我们会发现,这些小的business problem就是不同行业完全不一样。比如:
游戏公司,关心的其中一个问题可能是,啊 ,我公司的游戏有100关,我期待让尽可能多的游戏玩家的通关数都尽量多(我不希望我的玩家都是玩了一两关、三四关就不玩了,我期待他们都玩至少50关、60关、90关甚至100关)
健康医疗公司,关心的其中一个问题可能是,啊,有一个医院,我期待让这个医院接待的病人 看了病后就彻底好了,不要看了病、开了药、养了病,然后又犯病(就得又去医院看病,重复这个过程)这个又犯病然后去看病,就叫做“再看病率”,re-admission rate。我们希望医院的re-admission rate尽量低一些(否则医院的医生都要被累死了)
…
所以游戏公司是不会关心健康医疗公司/医院的re-admission rate是不是太高的、健康医疗公司/医院也不会关心一个游戏公司的 玩家平均通关数的。但是游戏公司A可能会关心游戏公司B是如何解决的让玩家平均通关数的增长 这个问题的。对不对~~
~~~~
所以,你会发现,任何公司在宏观层面,可能期待解决类似的problem(比如都期待profit多,都希望revenue多,都希望cost少)。但是在往下深入的过程中,到微观的business problem的话,那就是不同领域的公司完全不一样。
6.继续拆解,会发现开始暴露metrics了:
然后,,进一步的,你会发现,此时,继续把微观的business problem拆解的话,就会开始有business metrics暴露出来了,例如,
我们要提高广告的click through rate
提高我们公司的日活(DAU)
提高我们公司的游戏玩家的平均通关数
降低医院的re-admission rate
等等等等。。。
然后有了大的指标要提高(例如这个大的指标是提高DAU),然后我们就要围绕这个指标的提升 这件事,做进一步拆解(思考做哪些事可以让这个指标提升),然后拆解为的每一件事又都有各自要提升的指标。
7.就这么继续拆下去,,,一直拆解下去。。那什么时候停下来、不再拆解呢?
嗯,没错,你稍微想下就知道,拆解到不可拆解的技术实操的东西就停止了,比如拆解到最后,看到了:
【需要针对xxx的数据集 用xxx类型的machine learning来做xxxx的分类或者预测】
【由于数据量太大,想要run机器学习的话,得用spark来承载这大规模的数据】
当然也有可能很简单,比如【用excel统计一下客户的男女比例】,这个就基本上没有什么难度,因为就是用下excel的filter功能就行了,但是毕竟用到了excel这个工具,所以也算技术实操吧。
嗯,看到纯技术实操的节点后,然后也拆不下去了。。。因为拆到这个level那这个深入的过程(逐渐拆解的过程)就可以停下了。
8.回顾与总结:
我们把这个拆解细分的过程,用一个图表示,也就是:

所以你看到了,在这个思维逻辑下,一个ds/da/ba要解决的business问题其实是一个树形结构。。最上面的根节点一直到最终的叶子节点。这些所有节点中,是分为三层:
第一层:宏观business问题——所有领域的所有公司都面临这些问题
第二层:微观business问题和metrics——不同领域的公司的问题不一样,相同/相近领域的公司的问题是一样的。
第三层:不可以拆分的技术实操——即便是相同/相近领域的公司,在技术实操上也可能有很大差异(当然了,也有可能是近似的)
嗯对,所以ds/da/ba要解决的问题就很清晰了,他们就是要cover 特定的几个路径(图里的黄色线条部分)。。。这里的路径是指什么?嗯,一个路径就是【一个叶子节点到根节点的通路】。。也就是下面这个图里的黄色的部分:

所以每一个ds/da/ba就是在若干条路径上工作。他们在工作的过程中,黄色的线条是自下而上的产生逐级向上的影响,没错了,这种影响就是business impact。
所以,读到这里,你也发现了,在da ba ds的所有职责里,只有最后一层的节点是技术成分,其他节点都是通通的清一色的business的问题。。。
所以这个简历大概要怎么写,你应该很清晰了。。。一定是business色彩和technical色彩并重的。
二、ds da ba简历的不同section的书写建议
0.在具体说这块如何写之前,我们先梳理一个问题,就是,简历上的两种类型的信息。
(1)定死了,没法改的信息:比如,你在xx学校读的xx专业,你在xx公司做的xx职位。
(2)可以灵活机动调整或者替换的信息:比如skills,和personal project,其实是需要针对不同职位做出定向调整的、甚至是替换。尤其是personal project,你是需要在投递不同的职位的时候,在personal project这个section里要呈现不同的project (以迎合不同职位的需求),而不是只做了1-2个project然后用这1-2个project打所有的职位。
因为(1)里的信息已经无法改了,你做了什么就是做了什么,这是无从改变的印记;但是你还有机会改(2),对不对,(2)是活的,不是死的,所以(2)这种信息就要换起来!对不对,针对不同的职位做出替换。。。那如何才能做到精准的替换呢(如何确保自己替换了的project是最对职位的招人胃口的)? 有两个方面需要同时满足:
Business色彩要满足。比如投递游戏公司的da ba职位,那你最好personal project是基于游戏玩家的数据做一个什么分析或者预测;投递外卖公司的da ba职位,你最好personal project是基于外卖订单数据做一个什么东西的分类啥的,当然,因为外卖行业和快递行业(比如ups、fedex)很像,所以用快递行业的数据做一个什么da/ds的project,也可以用来投递外卖公司的da ba职位。
技术色彩要满足。那就是看job posting里的description里都要求了什么技术。然后如果你在你没法改的信息(比如在xx学校读xx专业、在xx公司做xx职位然后工作任务是啥)没法暴露你想投递的job要求的技术,那你就要通过academic project来满足。
此时就牵扯出一个问题了:那是不是意味着需要有多个project在手,这样才能见什么人出什么牌呢?(见什么职位出什么project?)
嗯对的,就该这样。
但是霎时间,如何才能快速做多个project?
嗯,所以不是自己亲自做,而是看懂别人的优质ds/da project。只要看会 而且有源代码在手,就知道细节,就和自己做的没区别。
所以你直接搜「kaggle best kernel」或者「kaggle top notebook」,你就能搜到很多人开源的kaggle solution,甚至还获奖了。你看会了你就可以写了。
除了kaggle,还有github要用起来。github的search bar本身背后就是一个搜索引擎 做的还是不错的,我估计你可能没搜过也不知道如何精细化搜索,你可以看下https://www.cnblogs.com/suwanbin/p/12113751.html 这个帖子 你就会搜了。然后搜出特定的自己需要的project然后看会了就可以说是自己做的.
这样就是比如你投递e-commerce的da ba职位,就在personal project里写基于e-commerce数据集做的data project;你投递healthcare的da ba职位,就在personal project里写基于healthcare数据集做的的data project;
所以你的简历大概是这个思路去写:

1.下面说一下skills这块应该怎么写。
skills这块,我们可以分成两列来列,一类是技术能力(或者叫理工科技能),一类是business能力(或者叫商业技能和商业知识/sense)。
(1)技术能力好说,有很多种,且分类不唯一,比如:
Programming: Python (scikit-learn, pandas, numpy, beautifulsoup), R(dplyer, data.table, glmnet), MATLAB, SAS, JavaScript等等
Statistics: Probability, Distribution, Statistical Inference, Hypothesis Testing, Bayes Theorem, Law of Large Number, ANOVA等等
Big Data: Kafka, Spark, Hadoop, Pig, Nutch, Mahout, Flume, Druid, Oozie, MapReduce, Alluxio, Flink, MapReduce, HDFS, Heroku等等
AI Models: Regression (Linear Regression, Logistic Regression, SVR),Bayesian(Naive Bayes, Bayesian Network), Decision Tree(ID3, C4.5, C5.0), Ensemble (Random Forest, Boosting, AdaBoost),Clustering (K-Means, Expectation Maximization, Hierarchical Clustering), Neural Networks (Backpropagation, Chain Rule of Derivative), Deep Learning(CNN, DNN, RNN)等等
Data Visualization: Tableau, histograms, frequency polygons, box-plots, quartiles, scatter plots, heat maps, EDA, ROC, profit curve等等
Database: MySQL, PostgreSQL, MongoDB, Cassandra, Redis, Oracle, Memcached, Sqlite, H2, HBase, SQLite, Neo4j, Hive
(2)至于business能力,应该如何陈列呢?
嗯,没错,分成3个方面。
第一个方面就是常用的分析方法,你可以参考这个产品经理常用的分析模型的图,这点ds和pm是overlap的:

你看你这里会什么你就写什么吧。如果不会的话,也可以只管写一下,因为这些分析方法都不难,现学的话可以很快学会。
第二个方面就是industry,为什么向人证明industry你很懂是很重要的?是因为不同industry解决的问题不一样,比如外卖行业要解决一份外卖如何最快、最节省成本的送到客户手上,而游戏行业要解决游戏玩家通关数目的问题(不能让某个游戏的用户刚玩1关、2关就不玩这个游戏了)。。 这些business问题可能是完全不同的。所以industry定下来后,就会决定之后做的任务的色彩。所以首先要写自己熟悉的industry并且在industry后面打上括号,括号里是你熟悉的high level business problem)
第三个方面就是metrics。Metrics就是指的上面那个图的第二层里,每一个节点的问题如果要解决,都是要具体解决一个指标的。
比如【After-sales的service做好了,付费客户都开心,就有可能多次购买这个产品,或者推荐朋友一起买】,那这里的指标是啥?没错 是同一个用户的重复购买率 和 推荐率 ,这两个指标,如果变高了,那after sales的service就算做好了,这一步的goal就达到了。
所以在metrics这一方面,你就要对你懂的business metrics做一下分类,然后分门别类的呈现出来。那都有哪些metrics呢,嗯,你看这4个帖子就有了:
https://www.ntaskmanager.com/blog/business-metrics/
https://www.process.st/business-metrics/
https://www.scoro.com/blog/key-performance-indicators-examples/
https://www.qlik.com/us/kpi/kpi-examples
(3)所以,这个简历的skills要怎么写,你知道了不,可能大概长这样:

也可能长这样,也就是merge了一下:
SKILLS
Programming: Python (scikit-learn, pandas, numpy, beautifulsoup, web scrapping) R(dplyer, data.table, glmnet), MATLAB, JAVA, Excel VBA.
Big Data: Spark, MapReduce, Hadoop.
Al Models: Regression (Linear Regression, Logistic Regression, SVR), Bayesian, Decision Tree, Ensemble(Random Forest, Boosting, XGB), Clustering (K-Means, Hierarchical Clustering), Neural Networks, Deep Learning (CNN, DNN, RNN).
Data Visualization: Tableau,histograms,frequency polygons, box-plots, quartiles, scatter plots, heat maps, EDA, ROC.
Statistics: Probability,Distribution,Statistical Inference,Hypothesis Testing,Bayes Theorem, Law of Large Number, ANOVA,Time Series Analysis (ARIMA, Prophet).
Analytics: A/B Testing, SWOT, Maslow's hierarchy of needs, PESTEL, KANO, Fogg Behavior Model.
Metrics/KPIs: Fintech(Gross/net profit margin, operating profit,ROI,LTV,CAC,digital tranction metrics,total gross revenue);Marketing (eCPM,funnel analysis, impression, conversion rate,click through rate, google analytics);Product (A/B testing,DAU/MAU Ratio,customer engagement rate, customer acquisition cost, bounce rate, cumulative penetration); Website(SEO,SEM,upstream/downstream sites, unique users, number of visits, time spent, search traffic)
写东西的时候,要务必记住我说的路径问题,即:

你需要确保 你所负责的所有路径的所有节点的词汇(也就是business problems以及这些problems如何被解决的),都要暴露在简历里。。。
2.然后,我们梳理下大型经历(比如实习、或者personal project)要咋写:
(1)用树形结构,,,在你大脑中梳理你的经历,看有几条路径(每个路径是某个叶子节点到根节点),然后这条路径上是tech的东西和business的东西都应该有,即从编程语言/ML/数据库 到business metrics,到 business问题以及微观business问题和宏观business问题,都要展露在简历里
(2)每个工作经历大概要写5-8个bullet:
第一个bullet一般是high level的说解决什么问题(但是也得具体点破这件事的本质是啥,比如就是解决“如何让现存用户发生更多购买行为 以让公司有更多revenue by utilizing什么business知识和什么技术知识方面,比如这里写statistics、machine learning、big data pipeline、funnel analysis这种词汇”。
中间的几个bullet就是说自己的工作具体做了什么,写的时候确保每一个路径(叶子节点到根节点)的所有信息都展露了出来。所以中间的几个bullet,是business metrics,叶子节点是technical,所以你这样融到一起写应该是很具体的某种技术、某种metrics,都暴露出来了,所以营造出了business与technical的交融的感觉
最后一个(或者最后的某几个)bullet就是写impact,要点破具体对公司的影响(with 数字)
(3)每一个经历的每一个bullets里最好都有数字。。。。要让简历整个看上去就星星点点的字里行间全是数字。。。。。营造这种数字感。
数字感有3个维度
business metrics的数字(比如DAU提高了多少,影响了多少用户)
technical metrics的数字(比如准确率,召回率等)
一些看似无关痛痒的数字(比如3张表,14个features,2天,2019 的3个quarter,数据集是1.5 GB等等)
你尽量让每一个bullet都至少有一个数字暴露出来~相信我,一定可以的
3.页数:
你先不要管页数,比如你改完了后,超过1页了,你先不要管这个页数问题,你先把我想看到的东西,暴露出来,最终格式、页数问题,然后我去调整和修改、以及精简。
因为你心怀着 “简历的1页限制”的想法,一轮轮改和写,弄出的简历
和
你 不想着这个想法 然后写简历 写出来一个1.5页、2页、甚至3页的简历 然后最后再统一精简为1页
这两个肯定是后者更容易写好一个简历
三、data简历的本质
你要时刻记得,data职位是一个「碰巧需要用技术的一个business职位」,而不是一个单纯的技术职位。所以写简历的时候,一定是business与technical交融的感觉。
插一句题外话,其实如果一个公司的业务定死了(例如,就是做电子游戏的公司 例如EA、或者是电商平台公司 例如Amazon),那它的这个公司的三角形也就定死了——宏观商业问题、微观商业问题、以及最后一层的技术实操,其实都定死了。
拿技术实操来说,由于machine learning存在when to use what machine learning models的问题————这件事的本质是,machine learning models是有适用场景的,在公司业务以及商业场景定死了以后,其实这个公司的ds岗位需要用什么machine learning models,也就定死了。
因此,如果公司以及团队定死了,那就意味着...想要筛选出适合这个公司的这个团队的ds人才,要问什么面试题,也就定死了。因此,三角形的每一个节点其实就是有标准答案的。。。。那只要提供辅导的人,他在这种公司(例如是游戏公司)的这种团队(例如是marketing team)做过,他就知道这个团队需要懂什么business knowledge以及stats ml knowledge。
这就意味着,ds职位的面试是可以押题的~~!~~~ 公司名字+团队名字+职位描述+谁会面你 = 大概率可以押这个DS职位的面试题~~~
(注意,一个事情如果在三角形的节点上,那才可以押题。那ds面试中,哪些面试题可能不在三角形的节点上呢?比如sql challenge这种东西就不在三角形的节点上,因为sql challenge和公司业务以及三角形的节点,并不相关。所以sql challenge只能提供讲课辅导,无法提供押题服务)