📊 IB00095 (2022)Introducation to Data Science and Big Data(数据科学与大数据导论)


Instructor:       Jinzhou Cao(曹劲舟)
Email:              caojinzhou@sztu.edu.cn
Room:             C-5-237
Time:               Mon. 15:50-17:20 or Thur. 15:50-17:20
Credits:           4/72 hours


目录

Course Description

随着 IT存储、处理、计算和传感技术的进步,大数据已成为一种新的生活常态。计算机和传感设备逐渐能够捕获和分析来自各个领域的各种大规模数据——人、行为、信息、设备、传感器、生物信号、金融、车辆、神经学等。几乎所有行业正在迎接大数据的挑战,并希望挖掘有价值的信息以获得洞察力以解决他们的挑战。《数据科学与大数据技术专业导论》是数据科学与大数据技术专业开设的学科基础课和先导课程。

本课程旨在介绍数据科学和大数据分析的基础知识,包括数据分析的常用技术、发展前沿和应用案例,以及“大数据”的算法和标准工具,同时通过设计一系列的实践课程,使学生初步掌握使用数据分析手段,提升解决实际应用问题的能力,将科学的方法研究应用到社会需求中,以应对各种现实世界的挑战。

希望这门课程带给学生的是终身受用的大数据思维和创新能力。

 

What you will learn

  • 让同学们对数据科学与大数据有一个整体的认识

  • 针对不同类型的数据进行深入讲解

  • 了解数据处理与分析的基本工具与常用技术、发展前沿和应用案例

  • 树立数据科学的基本思路,了解数据的“能”与“不能”

  • 利用实验课,初步掌握使用数据分析手段解决实际应用问题的能力,独立或小组的形式完成实验内容和大项目

 

Textbooks

推荐教材(Recommended Teaching Materials):

  • 数据科学概论(第2版). 覃雄派, 陈跃国, 杜小勇. 中国人民大学出版社, 2022.

参考教材(Additional Reading Materials):

  • 张祖平. 数据科学与大数据技术导论. 中南大学出版社. 2018年12月

  • Mining of Massive Datasets, by Leskovec, Rajaraman, and Ullman, Cambridge University Press, 2014, 2nd Edition, ISBN-13: 978-1107077232; ISBN-10: 1107077230

  • Foundations of Data Science, by Blum, Hopcroft, and Kannan

  • Python for Data Science, by McKinney, O’Reilly Publishers, 2012.

  • R Programming for Data Science, Roger Peng, Lean Publishing, 2014.

 

Resources

共享书单:

共享书单点击获取 (访问密码请咨询老师获取)

数据科学领域的重要资源目录:

点击获取

 

Grade breakdown:

Requirements Percent Points Note
Participation 出勤 5%
Final Project 大作业 20%
Laboratory 实验 35% 5 points each, 7 in total
Final exam 考试 40%

 

 

Final Project:

要求

1、以小组形式,提出一个有意思的研究假设或洞见,并用数据分析与大数据方法方法进行实现,并用可视化方法进行成果展示。任选题目。

2、第4周完成小组成员组队,小组成员不超过3人。

3、第一阶段:提交项目介绍书,篇幅至少2页,须包含以下内容:

  • 清晰的问题陈述/定义
  • 拟使用的数据介绍
  • 实现计划+拟运用的工具、方法、模型等
  • 研究计划(学期里程碑)
  • 小组成员分工

请将项目介绍书word文档转成PDF格式上传至:

周一班上交截止时间:2022/10/20 21:00,点击此处

周四班上交截止时间:2022/10/14 21:00,点击此处

周四班计划书老师批注查看,点击此处

4、第二阶段:进度展示:

  • 课堂PPT汇报,5页PPT,每小组5分钟

5、第三阶段:期末展示:

  • 期末时段,展示方式:PPT汇报+海报展示;实践报告1份,实践报告以论文模板标准撰写。

建议选题,供大家参考(正在更新中)

  • 深圳市便民核酸采样点位置及状态分析可视化
  • 共享单车的时空分布不均及投放优化问题
  • 城市养老设施供需评估及规划布局研究
  • 基于时空聚类的共享单车潮汐特征挖掘与需求预测研究
  • 奶茶店空间分布格局分析及其选址优化
  • 在线音乐社区(如网易云音乐)用户画像
  • 极端天气(如台风、暴雨等)对地铁客流的影响研究
  • 夜间经济时空分布格局
  • 公共厕所布局合理性研究
  • 全国大中城市路网可视化及比较研究
  • 基于百度迁徙数据分析人口移动
  • 疫情之后大城市房价变换趋势
  • 疫情前后全球航班数据集分析与可视化
  • 基于夜光影像探测中国贫困地区
  • 2022年度中国流动人口动态监测调查数据分析
  • 2022武汉开放数据应用创新大赛数据和题目参考
  • 2022上海开放数据创新应用大赛数据和题目参考
  • 2022浙江数据开放创新应用大赛数据和题目参考
  • 识别虚假评论
  • Covid19大规模公开病例数据的建模与可视化

更多数据,可以微信关注公众号:皮皮数据侠,立方数据学社。  

Class Schedule

[课程导言PPT]

Weeks Topics Lecture slides Extra slides
1 大数据概述 Introduction to Big Data [Slides]
2 数据科学基础 Data Science Fundamentals [Slides]
3 大数据处理基础 Big Data Analytics Fundamentals[1] 数据采集,数据模型 [数据采集Slides];[数据模型Slides]
4 大数据处理基础 Big Data Analytics Fundamentals[2] 数据预处理 [Slides] 扩展学习内容:[Slides]
5 大数据处理基础 Big Data Analytics Fundamentals[3] 数据探索性分析 [Slides]
6 大数据分析算法[1](聚类) Big Data Analytics Algorithms (Clustering) [Slides] 扩展学习内容:[Slides]
7 大数据分析算法[2](分类) Big Data Analytics Algorithms (Classification) [Slides]
8 大数据分析算法[3](回归、关联分析) Big Data Analytics Algorithms (Regression and Association Analysis) [Slides]
9 大数据可视化 Big Data Visualization [Slides]
10 专题1:城市大数据科学[1] Urban data science
11 专题1:城市大数据科学[2] Urban data science [Slides]
12 专题2:图数据计算[1] Graph data computing
13 专题2:图数据计算[2] Graph data computing
14 专题3:文本挖掘[1] Text Mining
15 专题3:文本挖掘 [2] Text Mining
16 大数据处理平台、工具和数据存储 Big Data Platforms and Tools and Data Storage
17 专题4:人工智能与深度学习 AI and Deep learning
18 复习与答疑

Experimental Project

[Python环境配置] [Python入门基础]

Weeks Topics Assignments Submission
6 数据探索性分析实验 [实验一] 周一班上传点击此处 】【周四班上传点击此处】(请确保学校实验报告封面+代码已正确合成成一个PDF格式)。延迟提交者该链接失效,请发送到邮箱:caojinzhou@sztu.edu.cn
7 聚类和分类算法实验 [实验二] 周四班上传点击此处】 【周一班上传点击此处
8 回归和关联分析算法实验 [实验三] 周四班上传点击此处】【周一班上传点击此处
9 数据可视化实验 [实验四] 周四班上传点击此处】【周一班上传点击此处
10 数据爬虫操作实验 [实验五] 周四班上传点击此处】 【周一班上传点击此处
11 城市大数据分析与实践[1] [实验六]
12 城市大数据分析与实践[2] [实验七] 周四班上传点击此处】【周一班上传点击此处
13 图数据计算实验[1]
14 图数据计算实验[2] [实验八] 周四班上传点击此处】 【周一班上传点击此处

 

Meet your instructor

曹劲舟