数据挖掘论文的参考文献(经典3篇)

时间:2015-08-09 03:44:28
染雾
分享
WORD下载 PDF下载 投诉

数据挖掘论文的参考文献 篇一

在进行数据挖掘研究时,参考文献的选择是非常重要的。合适的参考文献不仅可以提供理论和方法的支持,还可以为研究者提供灵感和思路。本篇将介绍两篇相关的参考文献,它们对于数据挖掘领域的研究具有重要的意义。

第一篇参考文献是《An Introduction to Statistical Learning》,由Gareth James、Daniela Witten、Trevor Hastie和Robert Tibshirani等人合著。这本书是一本经典的统计学习教材,对于数据挖掘的理论和方法有着广泛的涵盖。书中介绍了数据挖掘的基本概念和技术,包括回归分析、分类、聚类、特征选择和模型评估等内容。此外,书中还提供了大量的实例和案例研究,帮助读者更好地理解和应用数据挖掘技术。因此,这本书可以作为数据挖掘研究的参考文献,对于初学者和专业人士都是一本不可或缺的教材。

第二篇参考文献是《Pattern Recognition and Machine Learning》,由Christopher M. Bishop编写。这本书也是一本经典的机器学习教材,涵盖了数据挖掘领域的许多重要概念和方法。书中详细介绍了模式识别和机器学习的基本原理和算法,包括贝叶斯决策理论、支持向量机、神经网络和深度学习等。此外,书中还介绍了模型选择和模型评估的方法,以及数据预处理和特征工程的技术。这本书不仅提供了理论知识,还包含了大量的实例和案例研究,帮助读者更好地理解和应用机器学习技术。因此,这本书也是进行数据挖掘研究的重要参考文献之一。

综上所述,选择合适的参考文献对于数据挖掘论文的写作和研究是非常重要的。《An Introduction to Statistical Learning》和《Pattern Recognition and Machine Learning》这两本经典教材是进行数据挖掘研究不可或缺的参考文献,它们对于数据挖掘领域的理论和方法具有重要的意义。

数据挖掘论文的参考文献 篇二

在进行数据挖掘研究时,选择合适的参考文献是非常关键的。合适的参考文献不仅可以为研究者提供理论和方法的支持,还可以为研究者提供思路和灵感。本篇将介绍两篇与数据挖掘相关的参考文献,它们对于数据挖掘领域的研究具有重要的意义。

第一篇参考文献是《Data Mining: Concepts and Techniques》,由Jiawei Han、Micheline Kamber和Jian Pei等人合著。这本书是一本经典的数据挖掘教材,详细介绍了数据挖掘的概念、方法和技术。书中涵盖了数据预处理、数据挖掘模型、聚类、分类、关联规则挖掘和异常检测等内容。此外,书中还介绍了数据挖掘的应用领域和最新的研究进展。这本书不仅提供了理论知识,还包含了大量的实例和案例研究,帮助读者更好地理解和应用数据挖掘技术。因此,这本书是进行数据挖掘研究的重要参考文献之一。

第二篇参考文献是《Mining Massive Datasets》,由Jure Leskovec、Anand Rajaraman和Jeffrey D. Ullman等人合著。这本书主要讲述了大规模数据集的挖掘方法和技术。书中介绍了大规模数据处理的基本原理和技术,包括分布式计算、并行算法和数据流处理等。此外,书中还详细介绍了大规模图数据挖掘、社交网络分析和推荐系统等应用领域。这本书提供了大量的实例和案例研究,帮助读者更好地理解和应用大规模数据挖掘技术。因此,这本书也是进行数据挖掘研究的重要参考文献之一。

综上所述,选择合适的参考文献对于数据挖掘论文的写作和研究是非常重要的。《Data Mining: Concepts and Techniques》和《Mining Massive Datasets》这两本经典教材是进行数据挖掘研究不可或缺的参考文献,它们对于数据挖掘领域的理论和方法具有重要的意义。

数据挖掘论文的参考文献 篇三

  [1]刘莹。基于数据挖掘的商品销售预测分析[J].科技通报.2014(07)

  [2]姜晓娟,郭一娜.基于改进聚类的电信客户流失预测分析[J].太原理工大学学报.2014(04)

  [3]李欣海.随机森林模型在分类与回归分析中的应用[J].应用昆虫学报.2013(04)

  [4]朱志勇,徐长梅,刘志兵,胡晨刚。基于贝叶斯网络的客户流失分析研究[J].计算机工程与科学.2013(03)

  [5]翟健宏,李伟,葛瑞海,杨茹。基于聚类与贝叶斯分类器的网络节点分组算法及评价模型[J].电信科学.2013(02)

  [6]王曼,施念,花琳琳,杨永利。成组删除法和多重填补法对随机缺失的二分类变量资料处理效果的比较[J].郑州大学学报(医学版).2012(05)

  [7]黄杰晟,曹永锋。挖掘类改进决策树[J].现代计算机(专业版).2010(01)

  [8]李净,张范,张智江。数据挖掘技术与电信客户分析[J].信息通信技术.2009(05)

  [9]武晓岩,李康。基因表达数据判别分析的随机森林方法[J].中国卫生统计.2006(06)

  [10]张璐。论信息与企业竞争力[J].现代情报.2003(01)

  [11]杨毅超。基于Web数据挖掘的作物商务平台分析与研究[D].湖南农业大学2008

  [12]徐进华。基于灰色系统理论的数据挖掘及其模型研究[D].北京交通大学2009

  [13]俞驰。基于网络数据挖掘的客户获取系统研究[D].西安电子科技大学2009

  [14]冯军。数据挖掘在自动外呼系统中的应用[D].北京邮电大学2009

  [15]于宝华。基于数据挖掘的高考数据分析[D].天津大学2009

  [16]王仁彦。数据挖掘与网站运营管理[D].华东师范大学2010

  [17]彭智军。数据挖掘的若干新方法及其在我国证券市场中应用[D].重庆大学2005

  [18]涂继亮。基于数据挖掘的智能客户关系管理系统研究[D].哈尔滨理工大学2005

  [19]贾治国。数据挖掘在高考填报志愿上的应用[D].内蒙古大学2005

  [20]马飞。基于数据挖掘的航运市场预测系统设计及研究[D].大连海事大学2006

  [21]周霞。基于云计算的太阳风大数据挖掘分类算法的研究[D].成都理工大学2014

  [22]阮伟玲。面向生鲜农产品溯源的基层数据库建设[D].成都理工大学2015

  [23]明慧。复合材料加工工艺数据库构建及数据集成[D].大连理工大学2014

  [24]陈鹏程。齿轮数控加工工艺数据库开发与数据挖掘研究[D].合肥工业大学2014

  [25]岳雪。基于海量数据挖掘关联测度工具的设计[D].西安财经学院2014

  [26]丁翔飞。基于组合变量与重叠区域的SVM—RFE方法研究[D].大连理工大学2014

  [27]刘士佳。基于MapReduce框架的频繁项集挖掘算法研究[D].哈尔滨理工大学2015

  [28]张晓东。全序模块模式下范式分解问题研究[D].哈尔滨理工大学2015

  [29]尚丹丹。基于虚拟机的Hadoop分布式聚类挖掘方法研究与应用[D].哈尔滨理工大学2015

  [30]王化楠。一种新的混合遗传的基因聚类方法[D].大连理工大学2014

  拓展阅读

  什么是大数据?

  “大数据”到底有多大?根据研究机构统计,仅在2011年,全球数据增量就达到了1.8ZB(即1.8万亿GB),相当于全世界每个人产生200GB以上的数据。这种增长趋势仍在加速,据保守预计,接下来几年中,数据将始终保持每年50%的增长速度。

  纵观人类历史,每一次划时代的变革都是以新工具的出现和应用为标志的。蒸汽机把人们从农业时代带入了工业时代,计算机和互联网把人们从工业时代带入了信息时代,而如今大数据时代已经到来,它源自信息时代,又是信息时代全方位的深化应用与延伸。大数据时代的生产原材料是数据,生产工具则是大数据技术,是对信息时代所产生的海量数据的挖掘和分析,从而快速地获取有价值信息的技术和应用。

  概括来讲,大数据有三个特征,可总结归纳为“3V”,即量(Volume)、类(Variety)、时(Velocity)。量,数据容量大,现在数据单位已经跃升至ZB级别。类,数据种类多,主要来自业务系统,例如社交网络、电子商务和物联网应用。时,处理速度快,时效性要求高,从传统的事务性数据到实时或准实时数据。

  什么是数据挖掘?

  数据挖掘,又称为知识发现(Knowledge Discovery),是通过分析每个数据,从大量数据中寻找其规律的技术。知识发现过程通常由数据准备、规律寻找和规律表示3个阶段组成。数据准备是从数据中心存储的数据中选取所需数据并整合成用于数据挖掘的数据集;规律寻找是用某种方法将数据集所含规律找出来;规律表示则是尽可能以用户可理解的方式(如可视化)将找出的规律表示出来。

  “数据海量、信息缺乏”是相当多企业在数据大集中之后面临的尴尬问题。目前,大多数事物型数据库仅实现了数据录入、查询和统计等较低层次的功能,无法发现数据中存在的有用信息,更无法进一步通过数据分析发现更高的价值。如果能够对这些数据进行分析,探寻其数据模式及特征,进而发现某个客户、群体或组织的兴趣和行为规律,专业人员就可以预测到未来可能发生的变化趋势。这样的数据挖掘过程,将极大拓展企业核心竞争力。例如,在网上购物时遇到的提示“浏览了该商品的人还浏览了如下商品”,就是在对大量的购买者“行为轨迹”数据进行记录和挖掘分析的基础上,捕捉总结购买者共性习惯行为,并针对性地利用每一次购买机会而推出的销售策略。

  数据挖掘在供电企业的应用前景

  随着社会的进步和信息通信技术的发展,信息系统在各行业、各领域快速拓展。这些系统采集、处理、积累的数据越来越多,数据量增速越来越快,以至用“海量、爆炸性增长”等词汇已无法形容数据的增长速度。

  2011年5月,全球知名咨询公司麦肯锡全球研究院发布了一份题为《大数据:创新、竞争和生产力的.下一个新领域》的报告。报告中指出,数据已经渗透到每一个行业和业务职能领域,逐渐成为重要的生产因素;而人们对于大数据的运用预示着新一波生产率增长和消费者盈余浪潮的到来。2012年3月29日,美国政府在白宫网站上发布了《大数据研究和发展倡议》,表示将投资2亿美元启动“大数据研究和发展计划”,增强从大数据中分析萃取信息的能力。

  在电力行业,坚强智能电网的迅速发展使信息通信技术正以前所未有的广度、深度与电网生产、企业管理快速融合,信息通信系统已经成为智能电网的“中枢神经”,支撑新一代电网生产和管理发展。目前,国家电网公司已初步建成了国内领先、国际一流的信息集成平台。随着三地集中式数据中心的陆续投运,一级部署业务应用范围的拓展,结构化和非结构化数据中心的上线运行,电网业务数据从总量和种类上都已初具规模。随着后续智能电表的逐步普及,电网业务数据将从时效性层面进一步丰富和拓展。大数据的“量类时”特性,已在海量、实时的电网业务数据中进一步凸显,电力大数据分析迫在眉睫。

  当前,电网业务数据大致分为三类:一是电力企业生产数据,如发电量、电压稳定性等方面的数据;二是电力企业运营数据,如交易电价、售电量、用电客户等方面的数

据;三是电力企业管理数据,如ERP、一体化平台、协同办公等方面的数据。如能充分利用这些基于电网实际的数据,对其进行深入分析,便可以提供大量的高附加值服务。这些增值服务将有利于电网安全检测与控制(包括大灾难预警与处理、供电与电力调度决策支持和更准确的用电量预测),客户用电行为分析与客户细分,电力企业精细化运营管理等等,实现更科学的需求侧管理。

  例如,在电力营销环节,针对“大营销”体系建设,以客户和市场为导向,省级集中的95598客户服务、计量检定配送业务属地化管理的营销管理体系和24小时面向客户的营销服务系统,可通过数据分析改善服务模式,提高营销能力和服务质量;以分析型数据为基础,优化现有营销组织模式,科学配置计量、收费和服务资源,构建营销稽查数据监控分析模型;建立各种针对营销的系统性算法模型库,发现数据中存在的隐藏关系, 为各级决策者提供多维的、直观的、全面的、深入的分析预测性数据, 进而主动把握市场动态,采取适当的营销策略,获得更大的企业效益,更好地服务于社会和经济发展。此外,还可以考虑在电力生产环节,利用数据挖掘技术,在线计算输送功率极限,并考虑电压等因素对功率极限的影响,从而合理设置系统输出功率,有效平衡系统的安全性和经济性。

  公司具备非常好的从数据运维角度实现更大程度信息、知识发现的条件和基础,完全可以立足数据运维服务,创造数据增值价值,提供并衍生多种服务。以数据中心为纽带,新型数据运维的成果将有可能作为一种新的消费形态与交付方式,给客户带来全新的使用体验,打破传统业务系统间各自为阵的局面,进一步推动电网生产和企业管理,从数据运维角度对企业生产经营、管理以及坚强智能电网建设提供更有力、更长远、更深入的支撑。

  数据挖掘专业就业方向

  1.数据挖掘主要是做算法还是做应用?分别都要求什么?

  这个问题太笼统,基本上算法和应用是两个人来做的,可能是数据挖掘职位。做算法的比较少,也比较高级。

  其实所谓做算法大多数时候都不是设计新的算法(这个可以写论文了),更多的是技术选型,特征工程抽取,最多是实现一些已经有论文但是还没有开源模块的算法等,还是要求扎实的算法和数据结构功底,以及丰富的分布式计算的知识的,以及不错的英文阅读和写作能力。但即使是这样也是百里挑一的,很难找到。

  绝大读书数据挖掘岗位都是做应用,数据清洗,用现成的库建模,如果你自己不往算法或者架构方面继续提升,和其他的开发岗位的性质基本没什么不同,只要会编程都是很容易入门的。

  2.北上广以外的普通公司用的多吗?待遇如何?

  实际情况不太清楚,由于数据挖掘和大数据这个概念太火了,肯定到处都有人招聘响应的岗位,但是二线城市可能仅仅是停留在概念上,很多实际的工作并没有接触到足够大的数据,都是生搬硬套框架(从我面试的人的工作经验上看即使是在北上广深这种情况也比较多见)。

  只是在北上广深,可能接触到大数据的机会多一些。而且做数据挖掘现在热点的技术比如Python,Spark,Scala,R这些技术除了在一线城市之外基本上没有足够的市场(因为会的人太少了,二线城市的公司找不到掌握这些技术的人,不招也没人学)。

  所以我推测二线城市最多的还是用JAVA+Hadoop,或者用JAVA写一些Spark程序。北上广深和二线城市程序员比待遇是欺负人,就不讨论了。

  3.和前端后端程序员比有什么区别?有什么优缺点?

  和传统的前后端程序员相比,最主要的去别就是对编程水平的要求。从我招聘的情况来看,做数据挖掘的人编程水平要求可以降低一个档次,甚至都不用掌握面向对象。

  但是要求技术全面,编程、SQL,Linux,正则表达式,Hadoop,Spark,爬虫,机器学习模型等技术都要掌握一些。前后端可能是要求精深,数据挖掘更强调广博,有架构能力更好。

  4.目前在学习机器学习,如果想找数据挖掘方面的工作应该学习哪些内容?

  打基础是最重要的,学习一门数据挖掘常用的语言,比如Python,Scala,R;学习足够的Linux经验,能够通过awk,grep等Linux命令快速的处理文本文件。掌握SQL,MySQL或者PostgreSQL都是比较常用的关系型数据库,搞数据的别跟我说不会用数据库。

  补充的一些技能,比如NoSQL的使用,Elasticsearch的使用,分词(jieba等模块的使用),算法的数据结构的知识。

  5.hadoop,hive之类的需要学习吗?

  我觉得应当学习,首先Hadoop和Hive很简单(如果你用AWS的话你可以开一台EMR,上面直接就有Hadoop和Hive,可以直接从使用学起)。

  我觉得如果不折腾安装和部署,还有Linux和MySQL的经验,只要半天到一天就能熟悉Hadoop和Hive的使用(当然你得有Linux和MySQL的基础,如果没有就先老老实实的学Linux和MySQL,这两个都可以在自己的PC上安装,自己折腾)。

  Spark对很多人来说才是需要学习的,如果你有JAVA经验大可以从JAVA入门。如果没有那么还是建议从Scala入门,但是实际上如果没有JAVA经验,Scala入门也会有一定难度,但是可以慢慢补。

  所以总的来说Spark才足够难,以至于需要学习。

  最后的最后我有一些建议。第一要对自己有一个系统的认知,自己的编程水平够么,SQL会用么,Linux会用么,能流畅的看英文文档么?

  如果上面任何一个问题的答案是No,我都不建议直接转行或者申请高级的数据挖掘职位(因为你很难找到一个正经的数据挖掘岗位,顶多是一些打擦边球的岗位,无论是实际干的工作还是未来的成长可能对你的帮助都不大)。

  无论你现在是学生还是已经再做一些前段后端、运维之类的工作你都有足够的时间补齐这些基础知识。

  补齐了这些知识之后,第一件事就是了解大数据生态,Hadoop生态圈,Spark生态圈,机器学习,深度学习(后两者需要高等数学和线性代数基础,如果你的大学专业学这些不要混)。

数据挖掘论文的参考文献(经典3篇)

手机扫码分享

Top