python自学路线——大数据方向

☞☞☞点击查看更多优秀Python博客☜☜☜

 Hello大家好,我是你们的朋友JamesBin上篇文章Python自学我们分析了自学python到底有没有用,那么下面这几篇文章我们就来看看自学python的路线应该如何规划
我们的学习路线呢?下面让我们首先看一下大数据方向的路线吧!

什么是大数据

  "大数据(big data),指无法在一定时间范围内用常规软件工具进行捕捉、管理和处理的数据集合,是需要新处理模式才能具有更强的决策力、洞察发现力和流程优化能力的海量、高增长率和多样化的信息资产。在维克托·迈尔-舍恩伯格及肯尼斯·库克耶编写的《大数据时代》中大数据指不用随机分析法(抽样调查)这样捷径,而采用所有数据进行分析处理。大数据的5V特点(IBM提出):Volume(大量)、Velocity(高速)、Variety(多样)、Value(低价值密度)、Veracity(真实性)。

在这里插入图片描述

大数据学习大纲

大数据学习大纲:(大纲来源:https://www.zhihu.com/people/RickyFine)

  • 数据分析的思维和方法
  • Excel进阶
  • 数据库和SQL入门
  • 数理统计学
  • 数据分析软件应用
  • 数据可视化
  • 常见的业务分析模型
  • Python/R语言掌握
  • 业务理解和指标设计
  • 增长黑客:数据驱动增长

在这里插入图片描述

获取大数据

获取大数据的方法主要有一下几种:

  1. 国家数据库:中国铁路交通数据、城市监控录像等;
  2. 企业数据:淘宝交易数据、淘宝购物车收藏数据、京东购物数据;
  3. 机器设备数据:GPS导航系统数据、车仪数据等;
  4. 个人数据:个人日常生活产生的数据。

  大数据的获取主要是从已有的资源中进行数据分析,从而得到自己想要的信息,再将信息进行分析利用。在获取到数据之后最重要的步骤还是看到数据具体张什么样子,有什么特点和规律。得到特点和规律之后根据我们的而具体需求进行贴标签分类处理。只有这样我们才能从复杂的数据中得到不易发现但是价值更大的信息。
  在获取数据的时候我们需要注意的是中国相关法律的规定,特别是爬虫爬取到的数据,我们应遵守相关法律。不得做违反法律的事情。

数据分析

学习路线

我将大数据的学习路线分为以下几步:
在这里插入图片描述

第一步:了解大数据的基本概念

  我们想要学习一个新知识,首先需要的就是知道他是什么?有什么作用?
  这个过程中我们应该能够懂得一些专业术语,能够使用基本的获取数据的方法,既然学习大数据我们级应该首先知道什么是大数据,大数据是用来干什么的,以免我们对大数据不了解就开始盲目的学习,从而得不到自己想要的收获。

第二步:学习获取大数据

  大数据的获取方法众多,我们应该能够从中总结出一种适合自己,适合实际情况的方法去得到我们想要的数据,其中最常用的就是爬虫,所以我们在学习大数据之前不仅要学习好python的基本功还要学会Python中的爬虫的相关知识。爬虫是一种容易入门的爬取数据的方法,但绝对不是唯一的一种方法,所以随着我们学习的不断深入,我们就会发现python爬虫已经不能满足我们了。
  我们只学习的时候一定要注意理论与实践相结合,不可只学不练,这是学习编程最大的忌讳,所以我们在学习的时候可以结所学内容进行一定的实践,做点小项目。

第三步:学习数据处理

  将我们的数据进行储存、可视化处理,这样茶能把我们得到的数据进行可视化输出。我们得到数据后需要对数据进行清洗、探索、提取、可视化处理,其中用到的主要的Python知识如何使用Python从CSV、Excel、XML、PDF 中获取数据,和各类的可视化处理的知识。
  数据清洗,首先最数据进行筛选,选合适的方式对数据进行筛选处理,保留有用数据,剔除无用数据,这个步骤非常的关键,只有数据清洗的干净,后期我们进行可视化处理时才能更加准确简单。

第四步:数据储存

  我们需要将得到的数据和处理后的数据进行储存,以便我们后期进行使用,要想进行数据储存,我们首先需要掌握文件操作,储存的方式和类型也是多种多样,其中主要包括:保存本地、保存到数据库中。前期我们只需要掌握如何将数据进行本地保存即可,当我们学习到一定程度后再考虑如何进行其他更加方便可靠的进行数据保存。

  介绍到这数据处理部分的大纲算是讲完了,本文仅代表本人观点,如有不同意见可在评论区留言,希望对你大数据方向有所帮助。在这里插入图片描述

已标记关键词 清除标记
相关推荐
一、Scala核心编程课程简介 近年来随着大数据的兴起,大数据核心框架Spark和Kafka也受到到广泛关注, Spark底层是Scala实现的, 因此也带火了Scala语言,目前Scala被全球知名公司(如:谷歌、百度、阿里、Twitter、京东等)广泛用于Spark开发。新一代的物联网时代到来,会对大数据应用人才的需求越加紧迫。 尚硅谷网罗和整合了学员很喜爱的师资,打造出专注于Spark开发的Scala课程,我们讲解Scala核心编程技术,同时也讲解编程思想、设计模式和Scala底层实现,让您有豁然开朗的感受。 二、课程内容和目标 本课程重点讲解Scala核心编程,内容包括: Scala语言概述、运算符、程序流程控制、数据结构之集合、Map映射、过滤、化简、折叠、扫描、拉链、视图、并行集合、高阶函数、函数柯里化、偏函数、参数推断、控制抽象、Trait、面向对象编程、异常处理、惰性函数、Akka及Actor模型、Spark Master和Worker通讯、隐式转换、隐式参数、工厂模式、单例模式、观察者模式、装饰者模式、代理模式、泛型、上下界、视图界定、上下文界定、协变逆变不变和源码剖析。通过系统全面的学习,学员能掌握Scala编程思想和Scala底层机制,为进一步学习Spark打下坚实基础。 三、谁适合学 1.希望以较低的投入和风险,来了解自己是否适合转型从事Spark开发的求职人员。 2.有一定的Java基础,或者自学过一些Java书籍与视频资料,想系统掌握Scala语言的程序员。
©️2020 CSDN 皮肤主题: 程序猿惹谁了 设计师:白松林 返回首页