📊 IB00095 (2023)Introducation to Data Science and Big Data(数据科学与大数据导论)


Instructor:       Jinzhou Cao(曹劲舟)
Email:              caojinzhou@sztu.edu.cn
Room:             C-5-237
Time:               (1班)周三 5-8节 or (2班)周三 9-10节,周四 3-4节
Credits:           4/72 课时


目录

Course Description

随着 IT存储、处理、计算和传感技术的进步,大数据已成为一种新的生活常态。计算机和传感设备逐渐能够捕获和分析来自各个领域的各种大规模数据——人、行为、信息、设备、传感器、生物信号、金融、车辆、神经学等。几乎所有行业正在迎接大数据的挑战,并希望挖掘有价值的信息以获得洞察力以解决他们的挑战。《数据科学与大数据技术专业导论》是数据科学与大数据技术专业开设的学科基础课和先导课程。

本课程旨在介绍数据科学和大数据分析的基础知识,包括数据分析的常用技术、发展前沿和应用案例,以及“大数据”的算法和标准工具,同时通过设计一系列的实践课程,使学生初步掌握使用数据分析手段,提升解决实际应用问题的能力,将科学的方法研究应用到社会需求中,以应对各种现实世界的挑战。

希望这门课程带给学生的是终身受用的大数据思维和创新能力。

 

What you will learn

  • 让同学们对数据科学与大数据有一个整体的认识

  • 针对不同类型的数据进行深入讲解

  • 了解数据处理与分析的基本工具与常用技术、发展前沿和应用案例

  • 树立数据科学的基本思路,了解数据的“能”与“不能”

  • 利用实验课,初步掌握使用数据分析手段解决实际应用问题的能力,独立或小组的形式完成实验内容和大项目

 

Textbooks

推荐教材(Recommended Teaching Materials):

  • 数据科学概论(第2版). 覃雄派, 陈跃国, 杜小勇. 中国人民大学出版社, 2022.

参考教材(Additional Reading Materials):

  • 张祖平. 数据科学与大数据技术导论. 中南大学出版社. 2018年12月

  • 马学强. 数据科学方法与实践: 基于Python技术实现. 电子工业出版社, 2021.

  • Mining of Massive Datasets, by Leskovec, Rajaraman, and Ullman, Cambridge University Press, 2014, 2nd Edition, ISBN-13: 978-1107077232; ISBN-10: 1107077230

  • Foundations of Data Science, by Blum, Hopcroft, and Kannan

  • Python for Data Science, by McKinney, O’Reilly Publishers, 2012.

  • R Programming for Data Science, Roger Peng, Lean Publishing, 2014.

 

Resources

共享书单:

共享书单点击获取 (访问密码请咨询老师获取)

数据科学领域的重要资源目录:

点击获取

 

Grade breakdown:

Requirements Percent Points Note
Participation 出勤 3%
Final Project 作业 10%
Laboratory 实验 27% 3 points each, 9 in total
Final exam 考试 60%

 

 

Final Project:

要求

1、以小组形式,提出一个有意思的研究假设或洞见,并用数据分析与大数据方法方法进行实现,并用可视化方法进行成果展示。任选题目。

2、第2周完成小组成员组队,小组成员不超过5人。

3、第一阶段:提交项目介绍书,篇幅至少5页,须包含以下内容:

  • 清晰的问题陈述/定义
  • 详细的文献调研
  • 拟使用的数据介绍
  • 实现计划+拟运用的工具、方法、模型等
  • 研究计划(学期里程碑)
  • 小组成员分工

提交时间:第7周。请将项目介绍书word文档转成PDF格式上传至:(上传链接还未开通)

1班上交截止时间:2023/10/xx 23:00,点击此处

2班上交截止时间:2023/10/xx 23:00,点击此处

计划书老师批注查看,点击此处

4、第二阶段:进度展示:

  • 课堂PPT汇报,5页PPT,每小组5分钟

5、第三阶段:期末展示:

  • 期末时段,展示方式:海报展示;实践报告1份,实践报告以论文模板标准撰写。

建议选题,供大家参考(正在更新中)

  • 深圳市便民核酸采样点位置及状态分析可视化
  • 共享单车的时空分布不均及投放优化问题
  • 城市养老设施供需评估及规划布局研究
  • 基于时空聚类的共享单车潮汐特征挖掘与需求预测研究
  • 奶茶店空间分布格局分析及其选址优化
  • 在线音乐社区(如网易云音乐)用户画像
  • 极端天气(如台风、暴雨等)对地铁客流的影响研究
  • 夜间经济时空分布格局
  • 公共厕所布局合理性研究
  • 全国大中城市路网可视化及比较研究
  • 基于百度迁徙数据分析人口移动
  • 疫情之后大城市房价变换趋势
  • 疫情前后全球航班数据集分析与可视化
  • 基于夜光影像探测中国贫困地区
  • 2022年度中国流动人口动态监测调查数据分析
  • 2022武汉开放数据应用创新大赛数据和题目参考
  • 2022上海开放数据创新应用大赛数据和题目参考
  • 2022浙江数据开放创新应用大赛数据和题目参考
  • 识别虚假评论
  • Covid19大规模公开病例数据的建模与可视化

更多数据,可以微信关注公众号:皮皮数据侠,立方数据学社。  

Class Schedule

[课程导言PPT]

Weeks Schedualed Topics Actual Topics Lecture slides
1 大数据概述 Introduction to Big Data 大数据概述 Introduction to Big Data [Slides]
2 数据科学基础 Data Science Fundamentals 国际周停课
3 大数据处理基础 Big Data Analytics Fundamentals[1] 数据采集,数据模型 数据科学基础 Data Science Fundamentals [Slides]
4 大数据处理基础 Big Data Analytics Fundamentals[2] 数据预处理 大数据处理基础 Big Data Analytics Fundamentals[1] 数据采集,数据模型 [Slides1];[Slides2]
5 大数据处理基础 Big Data Analytics Fundamentals[3] 数据探索性分析 国庆节放假
6 大数据分析算法[1](聚类) Big Data Analytics Algorithms (Clustering) 大数据处理基础 Big Data Analytics Fundamentals[2] 数据预处理 [Slides]
7 大数据分析算法[2](分类) Big Data Analytics Algorithms (Classification)
8 大数据分析算法[3](回归、关联分析) Big Data Analytics Algorithms (Regression and Association Analysis) 大数据分析算法[1](聚类) Big Data Analytics Algorithms (Clustering) [Slides]
9 大数据可视化 Big Data Visualization
10 专题1:城市大数据科学[1] Urban data science 大数据分析算法[2](分类) Big Data Analytics Algorithms (Classification) [Slides]
11 专题1:城市大数据科学[2] Urban data science [Slides]
12 专题2:图数据计算[1] Graph data computing 大数据分析算法[3](回归、关联分析) Big Data Analytics Algorithms (Regression and Association Analysis) [Slides]
13 专题2:图数据计算[2] Graph data computing 运动会放假
14 专题3:文本挖掘[1] Text Mining 专题1:城市大数据科学 Urban data science [Slides]
15 专题3:文本挖掘 [2] Text Mining 专题2:图数据计算 Graph data computing [Slides]
16 专题3:文本挖掘 [3] Text Mining
17 大数据处理平台、工具和数据存储 Big Data Platforms and Tools and Data Storage 专题3:文本挖掘 Text Mining [Slides]
18 复习与答疑

Experimental Project

[Python环境配置] [Python入门基础]

Numbers Topics Materials Submission
1 Python基础 [实验1] 1班上传点击此处】 【2班上传点击此处
2 数据预处理与探索性分析实验 [实验2] 1班上传点击此处】 【2班上传点击此处
3 数据可视化实验 [实验3] 1班上传点击此处】 【2班上传点击此处
4 聚类算法实验 [实验4] 1班上传点击此处】 【2班上传点击此处
5 分类算法实验 [实验5] 1班上传点击此处】 【2班上传点击此处
6 回归算法实验 [实验6] 1班上传点击此处】 【2班上传点击此处
7 城市大数据分析与实践 [实验7] 1班上传点击此处】 【2班上传点击此处
8 图数据计算实验 [实验8] 1班上传点击此处】 【2班上传点击此处
9 文本挖掘实验 [实验9] 1班上传点击此处】 【2班上传点击此处

 

Meet your instructor

曹劲舟