第一篇:【八斗学院】2018年最新Hadoop大数据简历,Hadoop工程师简历
八斗学院
3年大数据开发经验
求职意向:大数据开发工程师
个人信息
姓名:八斗学院 工作地点:北京 电话:*** 邮箱:55723447@qq.ccom
性别: 男 生日:1992.10.26 学历:本科 微信:55723447 个人技能
精通MapReduce原理,熟练使用Java(Python)开发和优化MapReduce 熟悉Storm、Hbase、Hive、Flume、Kafka、Mahout等Hadoop框架及工具 熟悉Spark工作流程,能看懂Spark部分源码,能使用scala编写Application 熟悉推荐相关算法和相关技术,常用机器学习模型、自然语言处理、数据挖掘方法 熟悉Oracle/MS SQL Server等关系型数据库,具备基本的SQL编写及优化能力 了解tika、jsoup、RabbitMQ、Lucene等工具并运用到项目中 了解python(Java)、scala等脚本语言,能进行阅读和简单的编写
项目经验
xx推荐系统
项目描述:
此项目分为数据采集,数据预处理,推荐策略算法模块,检索引擎模块,数据分析。
数据来源于日志分析系统和DPI,采用HttpClient + HTMLParser对DPI中的URL进行数据爬取,通过字符转换、标签提取、数据清洗、特征预处理等进行数据预处理,使用MapReduce/Spark进行离线推荐序列计算,使用ElasticSearch作为检索引擎模块,为xx站点推荐服务,日志分析系统做数据分析。
其中特征预处理使用特征相似度矩阵进行特征扩展(特征相似度矩阵由推荐策略算法模块计算得出),采用Cosine归一法对特征进行归一化;推荐算法模块采用Content Based、协同过滤计算推荐序列,使用Mahout朴素贝叶斯算法计算用户偏好,Content Based结合用户偏好和用户个人信息解决Item和系统冷启动问题;利用日志分析的KPI结果进行验证并对模块进行优化。
学Hadoop大数据,就到八斗学院
www.xiexiebang.com 2015.8-至今
项目职责:
a)推荐算法架构设计与搭建,搭建整套Online、Nearline和Offline架构,为提高推荐效果和质量找出适合的解决方法,提高产品体验,提升指标;
b)基于人群行为的统计特征和文本相关性特征,实现xx联合推荐服务模型
c)基于NLP HMM的标签提取服务,提供用户和TV标签化指纹特征赋权的离线和在线接口; d)用户行为大数据预处理及分析,用户行为记录偏好挖掘,完善效果反馈机制; e)数据中心设计与搭建,为推荐策略提供基础数据服务
日志分析系统2014.5-2015.10
项目描述:
此项目采用Flume实现数据采集和分发数据到HDFS和Kafka,Storm实时消费Kafka数据并对数据预处理和计算KPI指标及监控错误信息等,Hive离线统计过去数据并与实时数据做Merge,采用Hbase做多维度存储。
项目职责:
1、集群架构设计与搭建
2、storm编写
3、flume二次开发
学Hadoop大数据,就到八斗学院
www.xiexiebang.com
第二篇:【八斗学院】2018年最新Hadoop大数据开发学习路线图
2018年最新Hadoop大数据开发学习路线图
来源:八斗学院
Hadoop发展到今天家族产品已经非常丰富,能够满足不同场景的大数据处理需求。作为目前主流的大数据处理技术,市场上很多公司的大数据业务都是基于Hadoop开展,而且对很多场景已经具有非常成熟的解决方案。
作为开发人员掌握Hadoop及其生态内框架的开发技术,就是进入大数据领域的必经之路。
下面详细介绍一下,学习Hadoop开发技术的路线图。
Hadoop本身是用java开发的,所以对java的支持性非常好,但也可以使用其他语言。
下面的技术路线侧重数据挖掘方向,因为Python开发效率较高所以我们使用Python来进行任务。
因为Hadoop是运行在Linux系统上的,所以还需要掌握Linux的知识。
第一阶段:Hadoop生态架构技术
1、语言基础 Java:掌握javase知识,多理解和实践在Java虚拟机的内存管理、以及多线程、线程池、设计模式、并行化就可以,不需要深入掌握。
Linux:系统安装(命令行界面和图形界面)、基本命令、网络配置、Vim编辑器、进程管理、Shell脚本、虚拟机的菜单熟悉等等。
Python:基础语法,数据结构,函数,条件判断,循环等基础知识。
2、环境准备
这里介绍在windows电脑搭建完全分布式,1主2从。
VMware虚拟机、Linux系统(Centos6.5)、Hadoop安装包,这里准备好Hadoop完全分布式集群环境。
学Hadoop大数据,就到八斗学院
www.xiexiebang.com
3、MapReduce MapReduce分布式离线计算框架,是Hadoop核心编程模型。主要适用于大批量的集群任务,由于是批量执行,故时效性偏低。
4、HDFS1.0/2.0 Hadoop分布式文件系统(HDFS)是一个高度容错性的系统,适合部署在廉价的机器上。HDFS能提供高吞吐量的数据访问,非常适合大规模数据集上的应用。
5、Yarn(Hadoop2.0)
前期了解即可,Yarn是一个资源调度平台,主要负责给任务分配资源。Yarn是一个公共的资源调度平台,所有满足条件的框架都可以使用Yarn来进行资源调度。
6、Hive Hive是一个数据仓库,所有的数据都是存储在HDFS上的。使用Hive主要是写Hql,非常类似于Mysql数据库的Sql。其实Hive在执行Hql,底层在执行的时候还是执行的MapRedce程序。
7、Spark Spark 是专为大规模数据处理而设计的快速通用的计算引擎,其是基于内存的迭代式计算。Spark 保留了MapReduce 的优点,而且在时效性上有了很大提高。
8、Spark Streaming Spark Streaming是实时处理框架,数据是一批一批的处理。
9、Spark Hive 基于Spark的快速Sql检索。Spark作为Hive的计算引擎,将Hive的查询作为Spark的任务提交到Spark集群上进行计算,可以提高Hive查询的性能。
10、Storm Storm是一个实时计算框架,和MR的区别就是,MR是对离线的海量数据进行处理,而Storm是对实时新增的每一条数据进行处理,是一条一条的处理,可以保证数据处理的时效性。
11、Zookeeper Zookeeper是很多大数据框架的基础,它是集群的管理者。监视着集群中各个节点的状态根据节点提交的反馈进行下一步合理操作。
最终,将简单易用的接口和性能高效、功能稳定的系统提供给用户
学Hadoop大数据,就到八斗学院
www.xiexiebang.com
12、Hbase Hbase是一个Nosql 数据库,是一个Key-Value类型的数据库,是高可靠、面向列的、可伸缩的、分布式的数据库。
适用于非结构化的数据存储,底层的数据存储在HDFS上。
13、Kafka kafka是一个消息中间件,在工作中常用于实时处理的场景中,作为一个中间缓冲层。
14、Flume Flume是一个日志采集工具,常见的就是采集应用产生的日志文件中的数据,一般有两个流程。
一个是Flume采集数据存储到Kafka中,方便Storm或者SparkStreaming进行实时处理。
另一个流程是Flume采集的数据存储到HDFS上,为了后期使用hadoop或者spark进行离线处理。
第二阶段:数据挖掘算法
1、中文分词
开源分词库的离线和在线应用
2、自然语言处理 文本相关性算法
3、推荐算法
基于CB、CF,归一法,Mahout应用。
4、分类算法 NB、SVM
5、回归算法
LR、Decision Tree
6、聚类算法
层次聚类、Kmeans
学Hadoop大数据,就到八斗学院
www.xiexiebang.com
7、神经网络与深度学习NN、Tensorflow
以上就是学习Hadoop开发的一个详细路线,鉴于篇幅原因只列举和解释了框架作用,如果需要了解具体框架的开发技术,可以百度搜索八斗学院大纲,详细了解。
学习完第一阶段的知识,已经可以从事大数据架构相关的工作,可以在企业中负责某些或某个的开发与维护工作。
学习完第二阶段的知识,可以从事数据挖掘相关的工作,这也是目前进入大数据行业含金量最高的工作。
学Hadoop大数据,就到八斗学院
www.xiexiebang.com
第三篇:Hadoop运维工程师岗位职责简洁版
Hadoop运维工程师岗位职责简洁版
1.负责Hadoop相关项目日常运行维护、故障排查工作;
2.负责Hadoop集群的监控和配置调优工作;
3.负责Hadoop平台的用户管理、权限分配、资源分配;
4.负责集群服务器软件的安装、维护、部署、更新;
Hadoop运维工程师岗位职责(二)
1.负责高并发,大存储和实时流的Hadoop/spark大数据平台规划,运维,监控和优化工作;
2.保证Hadoop/spark平台各核心服务运行的稳定、高效;
___对Hadoop/spark平台运维不断优化,提升数据产品的质量和响应速度;
4.开发各种Hadoop大数据自动化运维与监控工具;
___平台大数据环境的部署维护和技术支持;
6.应用故障的处理跟踪及统计汇总分析;
7.应用安全,数据的日常备份和应急恢复。
Hadoop运维工程师岗位职责(三)
1、负责移动大数据中心的建设与维护;
2、负责安徽移动hadoop集群的故障排查、解决;
3、其他省份hadoop项目建设提供技术支持。
Hadoop运维工程师岗位职责(四)
1.负责Hadoop及相关组件的部署和维护,保证其稳定运行;
2.开发和使用Hadoop大数据自动化运维与监控工具;
3.基于大数据应用需求,不断调整和优化Hadoop框架及组件的配置,提升性能;
4.为数据仓库、数据挖掘建模等数据应用项目提供运行环境支持;
Hadoop运维工程师岗位职责(五)
1.hadoop集群运维、监控、开发;
2.hadoop生态圈框架部署、故障处理、异常排查等基本工作;
___对有助于提升集群处理能力、高可用性、扩展性的各种解决方案进行跟踪和落地;
4.解决海量数据不断增长面临的挑战,解决业务需求;
5、对Hadoop集群进行日常管理,保障系统正常运行;
第四篇:Hadoop之父与英特尔研究院院长分享大数据心得
Hadoop之父与英特尔研究院院长分享大数据心得
作者:IT专家网出处:IT专家网2014-12-12 13:42
“数据铸就价值,激情源于碰撞”来自英特尔中国研究院院长吴甘沙与Hadoop之父Doug Cutting在12月11日分享了大数据的一系列心得体会。
首先进行分享的是英特尔中国研究院院长吴甘沙先生。
“大数据不是一个人在战斗!”这是吴院长分享的开始。大数据有没有摩尔定律?指数过滤的滚滚铁轮下,会如何发展?更多精彩内容,不要走开,道长马上更新~
“大家可以看到这条曲线,前面经过长时间的缓慢增长,一旦过了临界点以后,大家可以看到爆发式的增长,如果在这么一个时间点T,它是X的话,下一个时间点就是X的平方,如果X是一个大数的话,这样一个指数规律使得在任何一个周期里面,它的新的值将远远把前一个周期的值抛在后面。”
“大家经常听说在我们IT这个产业有这样一种指数的规律,而这样一种规律如果应用到传统的产业来说是不得了的事情。比尔盖茨曾经有一个比喻,如果汽车产业像IT产业这么发展的话,到现在我们一辆汽车是25美金,一加仑汽油能够跑一千英里,这就是指数带来的威力。”
“这张泛黄的纸片来自英特尔的创始人之一摩尔曾经写就的这么一个规律,在这个规律下面,每18个月晶体管数会翻番,带来一系列指数式的连锁反应。”
“我们的处理器性能会翻番,内存的容量会翻番,成本折半,而功耗也是折半,而且这样一种指数的效应同样影响了IT的其他领域,比如说以氧化铁为主要技术的存储,每18个月翻番,成本减半,带宽甚至是每8个月能够翻番,甚至是我们数字影像的芯片每美元的像素数也是每18个月翻番,所有的聚合效应放在一起就带来数据的摩尔定律,带来数据的极大增长。”
“大数据要说人话,它要提取人能够理解的价值,怎么能够让数据的工具跟我们的人,跟数据科学家,跟领域专家,跟我们的终端用户天人合一,降低数据分析的门槛,这又是一个挑战。”
“基于这些挑战,英特尔推出了大数据的分析框架,在最底层是基础设施,计算存储互联成为软件可定义,我们把它做成开放式、模块化的这些标准的模块,使得我们行业能够降低门槛,更多的创新者能够进来。”
上面一层是数据平台,我们跟Cloudera一起推动基于Apache Hadoop开放、可信的数据处理平台,推动整个生态基础创新,上面是分析应用,我们希望能够把高级的分析功能平民化,使得它能够迈入主流的应用,使得它能够实现规模的经济。最上面是解决方案,我们跟生态系统伙伴一起构建示范性的解决方案,把它变成可扩展的参考架构,使得在示范的领域成功能够被复制到每一个行业、每一个企业上面去。
同时英特尔的产品部门和研究院一起跟生态系统的伙伴进行合作的研发,这是我们传统的一个研发布局。但是针对大数据的话,我们认为这样一条时间线未必合理。
大家可以想像,从现在往前推五年的话,“大数据”这个名词还没有火起来,在这样高度变化,不可预测的环境里面,我们把这个研发周期进一步的缩短,我们跟大学的合作研究也希望尽快的能够把这个技术推向市场。
在我们开放式的协作创新框架下,我们也加入数据的安全流通以及定价的这样一种研究。这就是我们一个研究平台,我们把它叫做“数据咖啡馆”,正如咖啡馆是让不同领域的人聚在一起,让他们的思想进行碰撞,产生新的想法,我们的数据咖啡馆就是希望能够让不同领域、不同公司的数据能够凑在一起产生新的价值。
比如说两个电商,他们对于客户的画像是非常片面的,如果我们能够把他们的数据在数据咖啡馆里进行融合,他们能够获得对客户完整的刻画,这里面很重要的一点是叫做'相逢但不相识'。
这两家电商愿意把数据融合,但是不愿意对方能够看到自己的数据,如何能够在不相识的这样一种前提下让他们相逢,让他们能够做数据的分析,这一定程度上解决了刚才讲到的数据隐私安全的问题。
就在昨天,Cloudera中国也成立了,这意味着我们跟Cloudera的合作可以从世界范围来到中国。
我们希望能够携手一起去为我们中国的用户提供满足他们需求的大数据的技术和解决方案。我们也期待能够一起为推动大数据的黄金时代在中国发生尽绵薄之力。
接过吴院长话筒的是Cloudera 公司副总裁苗凯翔先生。
Cloudera来中国了!Cloudera2008年成立,是由四个非常重要的互联网公司和搞数据公司,到现在有六年时间。
虽然公司人数只有800多人,但它在全球有1200个合作伙伴,由于它的技术领先地位,有1200个合作伙伴,已经带头形成全球最大的大数据的生态链
每天,美国70%智能手机的数据后端处理都从Cloudera平台有一定的处理,每天都有数百亿的事件在后端处理,对美国经济也好、商业也好,还是很重要的一个公司。不光是产品的领先,从服务来讲、培训来讲也是非常领先的,在全球已经培训了很多的Hadoop专家,都成为Hadoop方面很有能力的人。
中国是一个很天然的大数据环境,人口众多。因为这个,它的终端也好、网络数据也好、交易数据也好,都是非常多的。因为大数据不光是技术创新,也是应用创新的环节,在中国搞大数据前景巨大。
大数据的概念在中国虽然已经不陌生,但是它的部署和应用状态,真正能应用起来,可能要比美国滞后两年的时间。其中原因之一就是在中国本土还没有一个公司能够把大数据去普及,真正架起来和跑起来,应用案例能够真正搞清楚。中国对于Cloudera来讲是非常重要的一个环境,我们要帮助中国在大数据上面去发展,要借助于Cloudera在全球,特别是在美国的应用案例,一些技术拿过来帮助中国的企业在这个领域去发展。
Cloudera在解决方案上,在软件上,在应用场景上是最领先的,而英特尔在全球它的服务器的占有率是90%多,这样大数据底层架构和英特尔一起能够合力,帮助中国的产业去发展。
我们是今年3月份公布了英特尔和Cloudera的合作。合作之后,两家合作非常紧密,第一是把英特尔过去的经验,特别是在中国的经验,通过Cloudera的合作,把IDH的功能和Cloudera的CDH和EDH功能融合在一块去研发更强的产品。很高兴的讲,当时在3月份开始的想法,在5月份开始的计划已经全部实现,充分把IDH所有的功能和CDH功能结合在一起。Cloudera5.3会在本月推出。
Doug Cutting来啦~(看见真身道长也是很激动>,<)
很高兴能够到这里来和大家分享。
英特尔的同事刚刚已经提到了,中国市场的机会不仅仅是来自硬件,我们看到了指数级的增长已经持续了大概15年,这也就是说,我们现在的数据和计算能力比过去15年的能力超越了已经是成数百万倍,我们的内存、联网的带宽和各种数据的级数都已经出现了指数性的增长。
这些增长持续了这么长的时间,给我们所有的事情带来了根本性的变化。在其他的领域我们没有看到如此剧烈的变化,比如说刚刚提到的汽车、航空和房地产业,他们都没有如此巨大的变化。
我们所做的事情是在根本上改变了这个社会,可以称之为革命性的、阶段性的变化。我们现在不能够再看到这些单独的数据,而是把所有的数据放在一起来考虑。这后面的驱动因素是什么呢?
现在使用计算机的人和正在使用这些设备的人,还有像英特尔的这些用户们,他们都正在推进整个进程的发展。我们可以稍微想一想现在使用电脑的人,不光是我们的台式计算机,还包括所使用的手腕上的设备、我们的汽车、各种传感器、摄像头等等,使用计算能力的这些设备无处不在。
而且这个趋势会持续继续下去,我们会看到越来越多的设备他们需要去使用计算能力,他们也会同时产生更多的数据,我们知道数据是有价值的,能够让我们了解到底这些设备让我们处理什么样的业务,能够帮助我们完成什么工作,如果把数据收集起来,我们可以把数据进行整合,然后就可以创造出来一个高清晰度的图像,就是关于各种设备它们运作的情况,而且也会了解到我们在这一块,我们的企业、我们的业务到底是怎么样进行的,这可以帮助我们的企业进一步改善和优化流程,扩展发展。我们可以不断地去创造一些人们能够负担得起的、性价比较高的设备,而这些设备会不断产生新的数据。
我们看到越来越多的行业,它们已经通过利用分析数据的方式进行业绩的提升,不光是在高科技产业,包括在一些其他的行业,比如说采矿业、交通行业等等,这些行业它们都开始使用数据。因为他们认识到通过使用数据可以获得更快的提升。因为数据的收集可以帮助他们更好的进行业绩的评估和衡量。
我们需要有软件来支撑,我们要找到一种可以更好的创造软件的方式。在过去的20多年当中,我们看到现在有越来越大的趋势,就是开源的趋势。我们第一个非常成功的社区开源的项目就是Linux,Linux可以说在全球使用率最高的操作系统,是在手机、服务器等各种设备上都得到了使用。
其实在它刚刚开始发明和使用的时候,Linux可能并不是最好的选择。但是因为在开源的平台之上,越来越多的开发者们参与进来,让Linux不断地完善,不断地提升。人们也非常喜欢开源平台,因为在平台之上,他们互相信任,他们不用担心要付费,他们可以进行一些修改,根据自己的需求来进行修改。
英特尔给我们提供了一些其他的技术,经过我们不断地尝试,不断地试验,我们发现在这一块,这个平台有了一些颠覆式或者重大的突破。
我们可以在这个平台上一起做事情,所以看到这样的一个行业的趋势得到了大家的认可。我们把它叫做企业的数据中心,企业数据中心可以支持不同的,刚刚提到的这些风格,而且现在使用的人数也越来越多,他们可以在上面使用自己新的应用程序,可以把它作为默认的平台。
我的同事,他用智能手机来做了比喻,我们的智能手机既是手机,也是计算器,是摄像机,也可以帮我们来追踪活动,可以帮我们记录日历,有很多种功能,而且所有的功能都不一定是最佳的功能,肯定不是你能买到最好的照相机,但是我们今天90%的照片都是用智能手机拍摄的,因为智能手机在那儿,你知道怎么样来用它,而且它里面也集成了所有的生活当中用到的工具,可以发送照片、可以分享照片、可以用手机来做很多的事情。
相似的事情是当我们提到企业数据中心的时候,它的作用也是类似的。我们并不是使用独立的系统。大家会越来越多的使用数据中心的,因为我们所有的工具都是集成在一起的,这样的话我们就可以通过Cloudera和英特尔的合作,为大家来集成更多的工具,实现这些功能,弥补我们各个项目之间的空缺,可以把20个社区之间的差距弥补起来。这样的话就可以让人们来把所有的数据整合在一个地方,从中盈利。这就是我今天想跟大家分享的内容。
倡导开放架构的英特尔+ 倡导开放社区的Hadoop的Cloudera, 传说中的强强联合大概就是上面呈现的这个样子。这次的直播也就到此为止啦~
不过最后道长给大家留个八卦的小尾巴:Hadoop的LOGO黄色大象是怎么来的?道友们是否研究过?保持关注~道长之后告诉你!
关键词:Hadoop之父,英特尔,大数据,焦点图
第五篇:采购工程师简历
姓
名: 肖xx 性
别: 女 婚姻状况: 未婚 民
族: 汉族 户
籍: xx 年
龄: 26 现所在地: xx 身
高: 161cm 希望地区: xx 希望岗位: 物流/采购类-采购工程师 物流/采购类-采购专员/助理
寻求职位: 采购工程师、采购员 待遇要求: 可面议 最快到岗: 随时到岗 教育经历
20xx-xx ~ 20xx-xx xx学院 电子商务 大专 20xx-xx ~ 20xx-xx xx中学 理科 高中
工作经验至今5年1月工作经验,曾在3家公司工作 xx公司名称(20xx-xx ~ 20xx-xx)
公司性质: 私营企业 行业类别: 多元化业务集团
担任职位: 采购员 岗位类别: 采购专员/助理
工作描述: 主要负责供应商开发、管理及考核,市场信息和供应商信息的收集与调研,采购成本预算和控制,制定并实施采购计划,执行并完善成本降低及控制方案;物料采购进度的反馈,处理物料品质异常,跟踪供应商交货进度,对交期负责,确保生产;对账及付款计划的安排。
离职原因: 公司搬迁
xx公司名称(20xx-xx ~ 20xx-xx)
公司性质: 私营企业 行业类别: 家具、家电、工艺品、玩具
担任职位: 采购员 岗位类别: 采购专员/助理
工作描述: 20xx-x至20xx-x担任采购员,主要负责根据请购单、采购底稿及计划做出判断评估,有效的下达采购单进行采购,及时将采购进度反馈给各相关部门;跟踪供应商交货情况,物料品质异常处理、改善及跟踪;供应商开发、管理及考核,采购成本预算、降低及控制,对账,付款计划安排。
20xx-x至20xx-x担任pmc,主要负责协调销货计划,编制合理的生产计划与物料需计划,物料的请购与管控,对生产用料的分析、统计与预测,生产余料的分配与转用;物料异常的跟踪处理;物料库存过高检讨与分析,呆滞物料产生的预防及处理;委外订单的下达,跟进委外供应商的生产进度及交货交期,与委外供应商沟通协调处理品质,生产异常等。
离职原因: 回家
xx公司名称(20xx-xx ~ 20xx-xx)
公司性质: 私营企业 行业类别: 家具、家电、工艺品、玩具
担任职位: pmc助理 岗位类别: 其他相关职位
工作描述: 主要负责完成生产计划排程与物料请购与管控,生产计划和生产订单情况跟进;物料需求计划的制定与执行。
离职原因: 另谋发展 技能专长
专业职称:
计算机水平: 中级
计算机详细技能: 熟练操作word与excel等办公软件。技能专长: 熟练操作erp系统及各种办公软件,具有良好的沟通、协调、谈判能力,责任心与适应能力强;具有很强的成本意识,良好的询价、比价、议价和数据分析能力;具有较强的市场敏锐感与独立开发评估供应商的能力。语言能力
普通话: 流利 粤语: 一般
英语水平:
英语: 一般 求职意向
发展方向: 采购工程师、采购员
其他要求: 自身情况
自我评价:
熟悉电子元器件和塑胶五金包材等物料;熟练操作erp系统及各种办公软件,具备相应的电脑操作技能;熟悉采购流程及供应商评估、考核等相关质量体系标准,熟悉lrp、mrp及pmc整个相关工作运程;工作成绩曾一度受到公司上级领导的肯定。
自信且具有良好的沟通、协调、谈判能力,责任心与适应能力强;具有很强的成本意识与良好的职业道德,良好的询价、比价、议价和数据分析能力;具有较强的市场敏锐感与独立开发评估供应商的能力;工作积极主动、细致警谨,富有服务心态和团队协作精神,不怕压力,乐于迎接各种挑战;爱好学习、交友,性格活泼开朗。