God-Level-Data-Science-ML-Full-Stack - 用于构建故事和模型的科学方法、过程、算法和系统的集合。本路线图包含 16 个章节,无论您是该领域的新手还是想要过渡到数据科学和 AI 的经验丰富的专业人士

Created at: 2022-03-29 23:30:22
Language: Jupyter Notebook

神级数据科学ML全栈

用于构建故事和模型的科学方法,过程,算法和系统的集合。该路线图包含16个章节,无论你是该领域的新生还是想要过渡到数据科学和AI的经验丰富的专业人士。

路线图分为16个部分

持续时间:256小时学习(8个月)以及更多时间的实践和项目建设。

  1. Python 编程和逻辑构建
  2. 数据结构与算法
  3. pandas Numpy Matplotlib
  4. 统计学
  5. 机器学习
  6. 机器学习操作
  7. 自然语言处理
  8. 计算机视觉
  9. 使用 Tableau 实现数据可视化
  10. 结构化 d 查询语言 (SQL)
  11. 数据工程
  12. 数据系统设计
  13. 五大顶点项目
  14. 面试准备
  15. Git & GitHub
  16. 个人品牌和投资组合

资源

技术栈

  • 数据结构
  • 数字派
  • pandas
  • Matplotlib
  • 希伯恩
  • Scikit-Learn
  • 统计模型
  • 自然语言工具包 ( NLTK )
  • PyTorch
  • OpenCV
  • 画面
  • 结构查询语言 ( SQL )
  • PySpark
  • Azure‌ ‌Fundamentals‌
  • Azure 数据工厂
  • 数据砖
  • 5大项目
  • Git 和 GitHub

1 |Python 编程和逻辑构建

我更喜欢Python编程语言。Python 是开始编程之旅的最佳选择。这是python用于逻辑构建的路线图。

  • Python 基础知识, 变量, 运算符, 条件语句
  • 列表和字符串
  • 而循环, 嵌套循环, 循环其他
  • 对于循环、中断和继续语句
  • 函数、返回语句、递归
  • 字典、元组、集合
  • 文件处理、异常处理
  • 面向对象编程
  • 模块和包

Python的深入路线图

2 |数据结构与算法

数据结构不仅是数据科学家要学习的最重要的东西,也是所有从事计算机科学工作的人要学习的最重要的东西。通过数据结构,你可以对软件中所有内容的工作有一个内部了解。

了解这些主题

  • 算法分析的类型
  • 渐近符号,大O,欧米茄,θ
  • 队列
  • 链表
  • 排序
  • 搜索
  • 散列法

3 | pandas Numpy Matplotlib

Python 使用 Numpy 支持n维数组。对于二维数据,Pandas 是最好的分析库。你可以使用其他工具,但工具具有拖放功能并具有限制。 pandas 可以根据需要进行定制,就像我们可以根据现实生活中的问题进行编码一样。

努比

  • 向量, 矩阵
  • 矩阵上的操作
  • 均值、方差和标准差
  • 重塑阵列
  • 矩阵的转置和行列式
  • 对角线操作,跟踪
  • 加、减、乘、点和叉积。

pandas

  • 系列和数据帧
  • 切片、行和列
  • 对数据帧的操作
  • 创建数据帧的不同方法
  • 使用 CSV 文件执行读取、写入操作
  • 处理缺失值、替换值和正则表达式
  • 分组依据和串联

Matplotlib

  • 图形基础
  • 设置绘图中字符串的格式
  • 标签参数,图例
  • 条形图、饼图、直方图、散点图

6 >统计学

描述统计学

  • 频率和集中趋势的测量
  • 色散测量
  • 概率分布
  • 高斯正态分布
  • 偏度和峰度
  • 回归分析
  • 连续和离散函数
  • 合身性
  • 正态性检验
  • 方差分析
  • 同方差性
  • 回归的线性和非线性关系

推论统计

  • t-检验
  • z-测试
  • 假设检验
  • 类型 I 和类型 II 错误
  • t检验及其类型
  • 单向方差分析
  • 双向方差分析
  • 卡方检验
  • 实施连续和分类数据

5 |机器学习

掌握机器学习算法的最佳方法是使用Scikit-Learn框架。Scikit-Learn包含预定义的算法,你只需生成类的对象即可使用它们。这些是你必须了解的算法,包括监督和无监督机器学习的类型:

  • 线性回归
  • 逻辑回归
  • 决策树
  • 梯度下降
  • 随机森林
  • 岭和套索回归
  • 朴素贝叶斯
  • 支持向量机
  • KMeans聚类

ML 的其他概念和主题

  • 测量精度
  • 偏差-方差权衡
  • 应用正则化
  • 弹性网络回归
  • 预测分析
  • 探索性数据分析

6 |MLOps

你可以掌握来自AWS,GCP和Azure的任何一个云服务提供商。一旦你了解了其中之一,你就可以轻松切换。

我们将首先关注AWS - 亚马逊网络服务

  • 使用 Flask 部署 ML 模型
  • Amazon Lex - 自然语言理解
  • AWS Polly - 语音分析
  • 亚马逊转录 - 语音转文本
  • Amazon Textract - 提取文本
  • Amazon Rekognition - Image Applications
  • Amazon SageMaker - 构建和部署模型
  • 在 AWS 上使用深度学习

7 |自然语言处理

如果你对使用文本感兴趣,你应该做一些NLP工程师所做的工作,并了解语言模型的工作。

  • 情绪分析
  • POS标记,解析,
  • 文本预处理
  • 词干提取和词形还原
  • 使用朴素贝叶斯的情绪分类
  • TF-IDF, N-gram,
  • 机器翻译,BLEU分数
  • 文本生成、摘要、ROUGE 乐谱
  • 语言建模,困惑
  • 构建文本分类器
  • 确定性别

8 |计算机视觉

为了进行图像和视频分析,我们可以掌握计算机视觉。为了研究计算机视觉,我们必须理解图像。

  • PyTorch 张量
  • 了解预训练模型,如AlexNet,ImageNet,ResNet。
  • 神经网络
  • 构建感知器
  • 构建单层神经网络
  • 构建深度神经网络
  • 用于顺序数据分析的循环神经网络

卷积神经网络

  • 了解卷积网拓扑
  • 卷积层
  • 池化层
  • 图像内容分析
  • 使用 OpenCV-Python 对图像进行操作
  • 检测边缘
  • 直方图均衡
  • 检测拐角
  • 检测 SIFT 特征点

9 |使用 Tableau 实现数据可视化

如何使用它视觉感知

  • 它是什么,它是如何工作的,为什么选择Tableau
  • 连接到数据
  • 建筑图表
  • 计算
  • 仪表 板
  • 分享我们的工作
  • 高级图表、计算字段、计算聚合
  • 条件计算、参数化计算

10 |结构化查询语言 (SQL)

  • SQL 语法和安装的基础
  • 创建表、修饰符
  • 插入和检索数据,选择插入更新删除
  • 使用函数、过滤和正则表达式聚合数据
  • 子查询,根据条件检索数据,对数据进行分组。
  • 练习题
  • 加入
  • 高级 SQL 概念,如事务、视图、存储过程和函数。
  • 数据库设计原则、规范化和 ER 图。
  • 练习,练习,再练习:练习在真实数据集上编写SQL查询,并致力于项目以应用你的知识。

11 |数据工程

大数据

  • 什么是大数据?
  • 大数据如何在企业中应用?

PySpark

  • 弹性分布式数据集
  • 图式
  • 拉姆达表达式
  • 转换
  • 行动

数据建模

  • 重复数据
  • 对数据的描述性分析
  • 可视 化
  • ML 库
  • 机器学习包
  • 管道

  • 包装 Spark 应用

12 |数据系统设计

什么是系统设计?

  • IP 和 OSI 模型
  • 域名系统 (DNS)
  • 负载平衡
  • 聚类
  • 缓存
  • 可用性、可扩展性、存储

数据库和数据库管理系统

  • SQL 数据库
  • NoSQL数据库
  • SQL 与 NoSQL 数据库
  • 数据库复制
  • 指标
  • 规范化和非规范化
  • CAP定理

系统设计访谈

  • 网址缩短器
  • Whatsapp, Twitter, Netflix, Uber

13 |五大项目和 Git

我们遵循基于项目的学习,我们将并行处理所有项目。

14 |面试准备

15 |Git & GitHub

Git & GitHub Course

  • 了解 Git
  • 命令和如何提交你的第一个代码?
  • 如何使用 GitHub?
  • 如何做出你的第一个开源贡献?
  • 如何与团队合作?- 第1集
  • 如何创建令人惊叹的 GitHub 个人资料?
  • 如何建立自己的病毒库?
  • 免费为你的投资组合构建个人登录页面
  • 如何在 GitHub 上增加关注者?
  • 如何与团队合作?第 2 部分 - 问题、里程碑和项目

16 |个人资料和投资组合

资源

数据

1️⃣ 很棒的公共数据集 此列表以主题为中心的高质量公共数据源。

2️⃣ NLP 数据集 按字母顺序排列的自由/公共领域数据集列表,其中包含用于 NLP 的文本数据。

3️⃣ 令人敬畏的数据集工具 令人敬畏的数据集工具的精选列表。

4️⃣ awesome 时间序列数据库 时间序列数据库的精选列表。

5️⃣令人敬畏的网络安全数据集 令人敬畏的网络安全数据集的精选列表。

6️⃣ awesome 机器人数据集机器人数据集集合。

研究起点

机器学习

  1. 统计学习导论

深度学习

强化学习

项目

以下是项目创意列表

数据科学 ML 全栈 - > 概念模板

加入 WhatsApp 社群群組

https://chat.whatsapp.com/BSUPbYhzzM1BcJplcTTIxb

社交

加入 Telegram for Data Science ML AI Resources:

https://t.me/+sREuRiFssMo4YWJl

在以下平台上与我联系:

LinkedIn:https://www.linkedin.com/in/hemansnation/

优酷: https://www.youtube.com/@Himanshu-Ramchandani

推特: https://twitter.com/hemansnation

GitHub: https://github.com/hemansnation

Instagram: https://www.instagram.com/masterdexter.ai/

人工智能工作LinkedIn组:

https://www.linkedin.com/groups/12540639/

中型博客:

https://medium.com/@hemansnation

关于数据、产品和 AI 的说明 - 时事通讯:

https://www.linkedin.com/build-relation/newsletter-follow?entityUrn=7014799989251956736

有什么疑问吗?

在这里给我发电子邮件: connect@himanshuramchandani.co