数据采集与处理

高职大二第一学期 | 56学时

课程简介

《数据采集与处理》是商务数据分析与应用专业的核心课程,主要面向高职大二第一学期学生。本课程在学生已掌握Python基础的基础上,学习如何从各种数据源获取数据并进行预处理。

课程注重实践,通过真实案例和项目实战,培养学生的数据采集能力和数据预处理技能,为后续的数据分析课程打下坚实的基础。

先修课程

Python基础

掌握Python基本语法

课程大纲

模块1:数据采集概述

学时:8学时

  • 数据采集的概念与重要性
  • 数据源类型与特点
  • 数据采集的伦理与法律问题
  • 数据采集工具与技术

模块2:网络爬虫技术

学时:12学时

  • 网络爬虫原理
  • Python爬虫库(Requests, BeautifulSoup)
  • 动态网页爬取(Selenium)
  • 爬虫反爬策略

模块3:API接口调用

学时:8学时

  • API基本概念
  • RESTful API调用
  • API认证与授权
  • API数据处理

模块4:数据预处理

学时:12学时

  • 数据质量评估
  • 缺失值处理
  • 异常值检测与处理
  • 数据清洗与转换

模块5:数据存储

学时:8学时

  • 文件存储(CSV, JSON, Excel)
  • 数据库存储(SQLite, MySQL)
  • 数据序列化
  • 数据备份与恢复

模块6:综合项目实战

学时:8学时

  • 项目选题与规划
  • 数据采集全流程实践
  • 数据预处理与存储
  • 项目展示与答辩

学习资源

推荐教材

《Python网络爬虫实战》

Python库

Requests, BeautifulSoup, Selenium

在线教程

Scrapy官方文档, API文档

练习平台

Kaggle, UCI机器学习库

课程信息

课程性质 专业核心课
总学时 56学时
学分 3.5学分
授课对象 大二第一学期
考核方式 考试+项目

学习目标

掌握网络爬虫的基本原理和技术

能够使用Python进行数据采集

掌握API接口调用方法

能够进行数据预处理和清洗

掌握数据存储和管理方法

考核方式

平时成绩 30%

包括出勤、作业、课堂表现

实验项目 40%

包括爬虫项目和数据处理项目

期末考试 30%

包括理论知识和实操技能