题 名:数据架构之道:数据模型设计与管控
责任者:王琤主编
出版社:电子工业出版社
索书号:TP274/1017
摘 要:本书全面介绍了数据架构与数据建模的相关知识。全书分为四篇:第一篇为数据架构基础篇, 介绍了企业架构、数据架构及数据模型的基础概念;第二篇为数据模型设计篇, 介绍了如何通过数据模型记分卡规范化数据模型设计, 以及经典数据建模方法论, 包括范式建模、维度建模、Data Vault建模、统一星型建模;第三篇为数据模型落地篇, 介绍了在企业中如何实现多人协作构建模型、如何管控数据模型、数据模型数据与数据标准, 以及元数据如何形成数据治理闭环;第四篇为行业数据模型篇, 分别介绍了证券、保险、教育、航空业的数据架构及数据模型。
题 名:大数据技术入门:Hadoop+Spark
责任者:于海浩, 刘志坤主编
出版社:清华大学出版社
索书号:TP274/1033
摘 要:本书将基础理论、应用开发以及实际案例相结合, 围绕Hadoop、Spark生态圈循序渐进介绍关于大数据技术领域中的基础知识、应用开发技术和基于Spark的常见机器学习算法, 最后以两个实战案例全面、系统地应用了本书介绍的基础知识和应用开发方法。书中的每个知识点都有相应的实现代码和实例。
题 名:隐私保护机器学习
责任者:王力, 张秉晟, 陈超超著
出版社:电子工业出版社
索书号:TP274/1040
摘 要:随着社会数字化和信息化的程度越来越高, 数据资源作为一种互联网时代的新能源所表现出的数据流动价值越来越得到人们的重视。在大数据背景下, 机器学习技术正被广泛应用在各个领域, 充分发挥数据的价值。与此同时, 在对数据隐私的担忧声中, 政府开始行动制定数据使用合规法案。传统的机器学习方法受到了制约, 大量的数据因为需要依法保护而无法被联合在一起进行建模, 隐私保护机器学习的概念应运而生。本书将介绍隐私保护机器学习的原理、方法和应用, 主要介绍机器学习和隐私保护技术的基础知识, 并讲解隐私保护机器学习的应用, 包括隐私求交、安全多方计算、线性模型、树模型、神经网络。同时本书还介绍隐私保护机器学习的具体应用场景, 深入讲解其技术原理。
题 名:Spark 3.0大数据分析与挖掘:基于机器学习
责任者:王晓华, 罗凯靖编著
出版社:清华大学出版社
索书号:TP274/1062
摘 要:Spark作为新兴的、应用范围最为广泛的大数据处理开源框架引起了广泛的关注,吸引了大量的大数据分析与挖掘从业人员进行相关内容的学习与开发, 其中ML是Spark 3.0机器学习框架使用的核心。本书从Spark 3.0大数据分析概述、基础安装和配置开始, 依次介绍ML的DataFrame、ML基本概念, 以及协同过滤、线性回归、分类、决策树与随机森林、聚类、关联规则、数据降维、特征提取和转换等数据处理方法; 最后通过经典的鸢尾花分析实例, 回顾了前面的学习内容, 实现了一个完整的数据分析与挖掘过程。
题 名:数海行舟:走进数据时代的北京
责任者:张伯旭, 汪礼俊著
出版社:电子工业出版社
索书号:TP274/1224
摘 要:写作组历时半年多时间, 收集梳理了大量北京市历年来大数据发展的资料及大数据相关政策、标准、论文等, 利用文献分析、专家座谈、企业调研等研究方法, 以5章19节的笔墨, 系统梳理了从全球到全国、到北京, 从技术发展到产业萌芽、到治理探索, 全方位、立体化的大数据发展历程, 一是聚焦关键技术, 不仅整理大数据技术的演进与发展, 还梳理物联网、云计算、数字孪生等与大数据发展息息相关、紧密相连的新技术融合发展; 二是聚焦数据共享, 溯流大数据在一地、一城、一市、一时的“源头活水”, 探寻北京市在大数据领域的领头羊作用; 三是聚焦治理能力, 在全球层面, 对比各国的领先做法和前沿应用; 在国家层面, 分析我国将大数据上升为战略高度和审慎规制立法的考虑; 在区域层面, 梳理北京市大数据发展历程和经验; 四是聚焦应用价值, 全球发展主要集中在三大重点领域和两大关键词, 我国各省市强调区域特色路径, 北京成为大数据全面发展的高地; 五是畅想未来发展, 围绕技术、产业、治理、安全四大领域互相促进、共同发展, 描绘未来城市与产业发展图景。
题 名:大数据环境下的科技信息潜在语义挖掘技术优化与比较研究
责任者:崔运鹏著
出版社:科学技术文献出版社
索书号:TP274/2237
摘 要:本研究通过算法改进实现了大规模科技信息文档语料的潜在语义挖掘, 并通过收集不同数量语料所对应的概念主题准确率、语义检索查准率数据, 精确揭示了大数据环境下科技信息语料数量变化对潜在语义挖掘概念主题准确率和语义检索查准率的影响。研究通过实验证明, 用于大规模数据的潜在语义分析比小样本下的语义分析与传统小样本数据下的技术相比较, 能够揭示更多蕴藏在科技信息当中的知识, 为大数据环境下的深度语义挖掘研究与应用提供了可靠依据。
题 名:业务架构·应用架构·数据架构实战
责任者:温昱著
出版社:电子工业出版社
索书号:TP274/3660
摘 要:多年来, 全球业界已在业务架构、应用架构、数据架构、技术架构方面积累了大量经验。近几年, 数字化转型更是呼唤“懂行人”打通四种架构, 确保技术支撑业务、业务支撑战略。本书的主要内容即在于此。首先, 解读战略、业务架构、应用架构、数据架构、技术架构五者的对应岗位、产物、脉络关系。然后, 结合大案例, 详探下列实战法: 战略驱动的业务架构设计; 业务驱动的应用架构设计; 业务驱动的数据架构设计; 业务和技术趋势双轮驱动的技术架构设计。最后, 分享业界较为稀缺的《业务架构书》《技术方案书》优秀模板和ToG/ToB解决方案规划。
题 名:大数据导论
责任者:李昆仑等编著
出版社:清华大学出版社
索书号:TP274/4068
摘 要:本书基础理论和案例分析相结合, 全面介绍了大数据技术的基础知识, 以提升读者对大数据的认知。内容包括:大数据概述、大数据时代的思维变革、大数据的采集与存储、数据可视化、支撑大数据的技术、商业大数据、民生大数据、工业大数据、政务大数据、安全大数据、大数据的未来。
题 名:统计挖掘与机器学习:大数据预测建模和分析技术
责任者:(美) 布鲁斯·拉特纳(Bruce Ratner)著;郑磊等译
出版社:机械工业出版社
索书号:TP274/5022
摘 要:本书创造性地汇编了数据挖掘技术, 将统计数据挖掘和机器学习数据挖掘进行了区分, 对经典和现代统计方法框架进行了扩展, 以用于预测建模和大数据分析。本书为数据挖掘领域新晋的数据科学家所面临的共同问题提供了适当的解决方案, 并侧重于数据科学家的需求, 提供了实用且强大、简单而富有洞察力的量化技术。本书在第2版的基础上新增了13章, 内容涵盖数据科学发展历程、市场份额估算、无抽样调研数据预测钱包份额、潜在市场细分、利用缺失数据构建统计回归模型、十分位分析评估数据的预测能力, 以及一个无须精通自然语言处理就能使用的文本挖掘工具。
题 名:大数据与人工智能
责任者:郏东耀主编
出版社:清华大学出版社, 北京交通大学出版社
索书号:TP274/5749
摘 要:全书首先讲述了大数据的来源与发展, 大数据技术的重要概念和大数据处理框架, 重点介绍了分布式存储系统、MapReduce的概念和应用, 以及分布式数据库的概念及其与传统数据库的区别和优势, 并以示例的方式讲述了大数据技术在生活中的应用;然后讲述了人工智能的来源、发展、相关算法和应用, 主要讲述了特征提取和自然语言的处理方法, 并以案例的形式讲述了人工智能在人脸识别和视频检测中的应用, 介绍了人工神经网络的结构、神经网络在图像识别中的应用。最后结合案例讲解大数据与人工智能的关系, 并列出了一系列的实例, 生动详细地讲解了大数据与人工智能如何改变生活。