智能汽车数据工程
作者:汪成亮
ISBN:978-7-111-80683-7
申请样书,扫描二维码
在人工智能与大数据浪潮下,数据已成为驱动算法迭代与智能应用落地的核心。但原始数据杂乱无序、充满噪声,如何通过系统工程将其转化为高质量、可信赖、能被算法高效利用的“数据资产”,正是数据工程的核心。本书旨在全面探讨面向人工智能的数据工程全流程,为读者构建从理论基础到前沿实践的完整知识框架。
本书先从数据工程的基础—多模态数据处理入手,系统介绍文本、图像、音频、视频等各类数据的采集、预处理、存储架构(如数据湖与数据仓库)及全生命周期管理策略。接着深入数据标注环节,涵盖分类、检测、分割等多种标注范式,重点阐述科学的质量控制(QC)与质量保证(QA)体系,确保标注数据的准确性和一致性。
随后进入数据挖掘与分析领域,讲解如何运用统计分析、机器学习等方法,从海量数据中洞察数据分布和发现潜在偏差,挖掘对模型训练关键的“黄金数据”与“疑难样本”(Hard Case)。针对高质量数据稀缺,尤其是长尾场景数据不足的痛点,重点介绍前沿数据增强技术,包括3D建模生成任意场景组合的虚拟数据、生成式AI(如GAN、扩散模型)制作逼真合成数据,以丰富数据集多样性与稳健性。
本书以自动驾驶领域中先进的BEVFormer感知模型为核心案例,贯穿全书所讲授的各项技术,从多传感器(摄像头、激光雷达)数据的融合处理,到BEV视角下的高精度标注,再到利用生成式技术增强极端场景数据,最终将处理好的高质量数据集输入模型进行训练与评估,让读者直观了解数据工程对尖端AI应用的赋能作用。本书兼具理论与实践价值,适合AI、数据科学领域相关专业高校师生阅读,也可作为工程师、相关行业从业者的实践指南。