配套资源:微课视频、电子课件、习题答案、教学大纲、教案、源代码
本书特色:
本书在内容选材上,旨在为读者提供一套全面、实用且前沿的数据处理知识体系,特别是针对数据分析与神经网络训练前的数据处理流程。
1.涵盖了数据采集、数据清洗和数据标注的基本步骤,还对这些步骤进行了深入的解析和全过程介绍。
2.特别注重真实采集场景的介绍,如工业产线上的图像采集和自动驾驶过程中的图像及视频采集。
3.紧跟技术发展前沿,介绍了最新的光学仪器设备、传感器、清洗软件和自动标注工具等。
本书配套资源、样书均可在本页下载申请,也可联系微信13146070618索取

本书围绕数据采集、清洗和标注三个环节展开,旨在为读者提供全面而深入的数据处理知识。首先介绍了数据采集的基础,从原始数据采集与互联网数据采集两个角度,阐述了数据采集的常用技术和方法。其次介绍了数据清洗的知识要点,针对结构化和非结构化两种数据组织形式,展现了如何通过有效的清洗技巧提升数据质量。接着通过文本、图像、视频、语音,以及点云等多种数据类型的标注实践,详述了不同类型数据的标注方法。最后,通过两个综合案例,将上述三个关键环节贯穿起来,并借助机器学习模型的性能指标来评估数据处理的效果,帮助读者建立起对整个数据处理链条的全局理解。 全书力求理实并重,在阐述概念与方法的同时,辅以丰富的实战案例,确保内容既具可操作性,又易于消化吸收。本书可作为高职高专大数据技术、人工智能技术应用、物联网应用技术等专业相关课程的教材,也可作为“人工智能训练师”职业技能认证培训的参考书。
配套资源:微课视频、电子课件、习题答案、教学大纲、教案、源代码
本书特色:
本书在内容选材上,旨在为读者提供一套全面、实用且前沿的数据处理知识体系,特别是针对数据分析与神经网络训练前的数据处理流程。
1.涵盖了数据采集、数据清洗和数据标注的基本步骤,还对这些步骤进行了深入的解析和全过程介绍。
2.特别注重真实采集场景的介绍,如工业产线上的图像采集和自动驾驶过程中的图像及视频采集。
3.紧跟技术发展前沿,介绍了最新的光学仪器设备、传感器、清洗软件和自动标注工具等。
本书配套资源、样书均可在本页下载申请,也可联系微信13146070618索取

本书围绕数据采集、清洗和标注三个环节展开,旨在为读者提供全面而深入的数据处理知识。首先介绍了数据采集的基础,从原始数据采集与互联网数据采集两个角度,阐述了数据采集的常用技术和方法。其次介绍了数据清洗的知识要点,针对结构化和非结构化两种数据组织形式,展现了如何通过有效的清洗技巧提升数据质量。接着通过文本、图像、视频、语音,以及点云等多种数据类型的标注实践,详述了不同类型数据的标注方法。最后,通过两个综合案例,将上述三个关键环节贯穿起来,并借助机器学习模型的性能指标来评估数据处理的效果,帮助读者建立起对整个数据处理链条的全局理解。 全书力求理实并重,在阐述概念与方法的同时,辅以丰富的实战案例,确保内容既具可操作性,又易于消化吸收。本书可作为高职高专大数据技术、人工智能技术应用、物联网应用技术等专业相关课程的教材,也可作为“人工智能训练师”职业技能认证培训的参考书。
曾敏,上海电子信息职业技术学院副教授、通信与信息工程学院专任教师,上海交通大学计算机系统与结构专业工学博士,韩国延世大学电子信息工程学院博士后。以一作在IEEE Transactions on Information、IEEE Transactions on Communication、Designs,Codes and Cryptography、IEEE International Symposium of Information Theory、Applied Optics 和J. Opt. Soc. Am. A.等国际重要期刊和会议上发表论文14篇;在通信学报、上海交通大学学报、计算机工程等国内核心期刊和会议上发表论文4篇;出版教材3本。主要研究兴趣有通信编码、序列分析和计算机视觉。
前言
第 1 章 数据采集基础
1.1 何为数据采集
1.2 初识数据采集基础
1.2.1 数据组织形式
1.2.2 数据采集工具
1.2.3 数据采集场景
1.2.4 数据安全与隐私保护
1.3 搭建数据采集环境
1.3.1 安装配置 Python 软件包
1.3.2 安装配置 MySQL 软件包
习题 1
第 2 章 文件类型与编码
2.1 文件类型与编码相关概念
2.2 文本文件与编码
2.2.1 TXT 格式
2.2.2 CSV 格式
2.2.3 XLS 和 XLSX 格式
2.2.4 JSON 格式
2.2.5 HTML 和 XML 格式
2.3 图像文件与编码
2.3.1 JPEG 和 JPG 格式
2.3.2 PNG 格式
2.3.3 BMP 格式
2.3.4 GIF 格式
2.4 视频文件与编码
2.4.1 AVI 格式
2.4.2 MP4 格式
2.4.3 MOV 格式
2.4.4 WMV 格式
2.5 语音文件与编码
2.5.1 WAV 格式
2.5.2 MP3 格式
2.5.3 AAC 格式
2.5.4 FLAC 格式
习题 2
第 3 章 原始数据采集
3.1 原始数据采集相关概念
3.1.1 原始数据常见类型
3.1.2 原始数据采集常用方法
3.1.3 原始数据采集工具
3.2 传感器数据采集
3.2.1 传感器与传感器网络
3.2.2 传感器数据采集流程及技术手段
3.3 使用温湿度传感器采集数据
3.3.1 温湿度传感器
3.3.2 树莓派
3.3.3 采集温湿度传感器数据
3.4 使用图像传感器采集数据
3.4.1 图像传感器
3.4.2 光源
3.4.3 焦距、光圈和曝光时间
3.4.4 FOV 和 ROI
3.4.5 采集图像传感器数据
习题 3
第 4 章 互联网数据采集
4.1 互联网数据采集相关概念
4.1.1 数据来源及组织方式
4.1.2 静态网页与动态网页
4.1.3 网络爬虫基本过程
4.2 使用 Python 库采集数据
4.2.1 请求库
4.2.2 解析库
4.2.3 存储库
4.2.4 数据采集实例
4.3 使用 Scrapy 框架采集数据
4.3.1 认识 Scrapy
4.3.2 创建 Scrapy 项目
4.3.3 定义 Items
4.3.4 编写 Spiders
4.3.5 定义 Pipelines
4.3.6 设置 Settings
4.3.7 运行 Spiders 采集数据
习题 4
第 5 章 数据清洗
5.1 何为数据清洗
5.2 清洗质量控制
5.2.1 数据清洗流程
5.2.2 数据清洗的质量评估
5.3 ETL 技术
5.3.1 ETL 架构
5.3.2 ETL 工具
5.3.3 OpenRefine 工具的使用
习题 5
第 6 章 数据清洗任务实施
6.1 文本数据清洗
6.1.1 文本清洗的相关概念
6.1.2 文本清洗工具
6.1.3 文本清洗案例
6.2 图像数据清洗
6.2.1 图像清洗的相关概念
6.2.2 图像清洗工具
6.2.3 图像清洗案例
6.3 视频数据清洗
6.3.1 视频清洗的相关概念
6.3.2 视频清洗工具
6.3.3 视频清洗案例
6.4 语音数据清洗
6.4.1 语音清洗的相关概念
6.4.2 语音清洗工具
6.4.3 语音清洗案例
习题 6
第 7 章 数据标注
7.1 何为数据标注
7.2 数据标注质量控制
7.2.1 数据标注流程
7.2.2 标注质量检测
7.2.3 标注质量与机器学习
7.3 数据标注的现状与未来
7.3.1 数据标注主要应用领域
7.3.2 数据标注的未来趋势
习题 7
第 8 章 数据标注任务实施
8.1 文本数据标注
8.1.1 文本标注的相关概念
8.1.2 文本标注工具
8.1.3 文本标注案例
8.2 图像数据标注
8.2.1 图像标注的相关概念
8.2.2 图像标注工具
8.2.3 图像标注案例
8.3 视频数据标注
8.3.1 视频标注的相关概念
8.3.2 视频标注工具
8.3.3 视频标注案例
8.4 语音数据标注
8.4.1 语音标注的相关概念
8.4.2 语音标注工具
8.4.3 语音标注案例
8.5 点云数据标注
8.5.1 点云标注的相关概念
8.5.2 点云标注工具
8.5.3 点云标注案例
习题 8
第 9 章 数据处理全过程案例
9.1 客户评论情感分析
9.1.1 客户评论数据采集
9.1.2 客户评论数据清洗
9.1.3 客户评论数据标注
9.1.4 文本情感分类模型训练
9.2 智能货柜商品检测
9.2.1 智能货柜数据采集
9.2.2 智能货柜数据清洗
9.2.3 智能货柜数据标注
9.2.4 图像检测模型训练
参考文献
					随手扫一扫~了解多多