防灾科技学院与山东建筑大学哪个好

时间:2021-11-01 19:00:08 200字

【第一篇】防灾科技学院与山东建筑大学哪个好

防灾科技学院数据挖掘期末考试复习资料

数据挖掘考点总结版本号2.0.0.1

第一章 介绍

1. 数据挖掘的定义

Hand等人200年给了简明定义:数据挖掘就是从大型数据集合里挖掘出有用的信息。 还有一个定义来源于一家信息技术研究公司——加特那集团:数据挖掘是从大量的存储数据里进行筛选,采用模式识别技术以及统计和数学技巧,发现有意义的新的相互关系、模式以及趋势的过程。

2. 数据挖掘处于统计学和机器学习(也称人工智能)领域的交叉点上。

3. 经典统计学的两个核心难点——计算复杂、数据稀少。

4. DarylPregibon把数据挖掘描述为“建立在规模和速度上的统计学”。有人把这一说法推广:数据挖掘是“建立在规模、速度和简单化上的统计学”。

5. 过度拟合

过度拟合指的是现有样本跟一个模型拟合太过,以至于模型不仅描述数据的根本特性,而且也描述了其随机特性。按工程上的术语指这个模型不光是拟合信号,还拟合噪声。

6. 算法

算法指的是用于实现某一数据挖掘技术——如分类树、辨识分析等的特定程序。

7. 有约束学习

有约束学习指的是用已有记录得到算法(逻辑回归、回归树等)的过程。

8. 无约束学习

无约束学习指的是人们试图从数据中了解一些东西的分析,而不是预测感兴趣的输出值(例如输出结果是否属于某个聚类)。

9. 或许挖动数据挖掘发展的最重要的因素是数据的增长。

10. 数据仓库——一个把企业的决策系统结合在一起的大型综合数据存储系统。

11. 计算能力方面的持续迅速的改进是数据挖掘发展的一个基本动力。

12. 大数据的特征:数据量大<volume>、种类多<variety>、读取速率快<velocity>、价值密度小<value>

第二章 数据挖掘过程概览

1. 数据挖掘的一项基本任务就是用类别已知的数据找出规则,然后把这些规则用在未进行分类的数据上。

2. 预测和分类相似,差别在于我们是预测一个变量的数值,而不是一个类别。当然,在分类时我们试图去预测一个类别,而“预测”(在本书)是指预测一个连续变量的数值。

3. 各数据挖掘技术之间的一个基本区别在于是否采用了有约束学习方法。

训练数据是分类和预测算法用来“学习”预测变量和结果变量之间的关系(或称为模型)。 验证数据以检验其是否比其他模型好。

测试数据用于检测最后选择的模型的优劣。

4. 无约束学习算法是在没有结果变量去预测或者分类时的算法。关联分析、数据精简和聚类技术都是无约束学习方法。

5. 当算法涉及到有约束学习时,我们要把总的数据集合分成训练、验证和测试数据三个子集合。

6. SEMMA

Sample采样

Explore探索

Modify调整

Model建模

Assess评估

7. 多少变量和多大数据合适

一条经验法则认为对应每一个预测变量要有10条记录,这应该是合理的。Delmater和Hancock在其分类任务里使用的另一法则是,观测记录数量至少要有6*M*N。(M,输出变量类别的数目;N,变量的数目)

原则上,预测变量少是模型的一个好特征。

8. 奇异值

远离大块数据的数值称为奇异值。有的分析人员采用这样的经验法则“离均值3个标准差之外的点事奇异值”。

9. 数据标准化

标准化数据一般指的是从每一个值减去平均值,然后除以距离平均值的偏差的标准差。

10. 为什么即需要一个验证块还要一个测试块呢?(验证块与测试块异同点)

因为验证数据增强了所选择模型性能的现象是随机的,在模型被应用到新数据上时其好的性能将不存在,因此我们可能高估了模型的精度。我们测试的模型越多,就越有可能会选择那个把验证数据的噪声拟合得最好的模型。把模型用在以前未出现过的测试数据上将会产生模型在新数据上的无偏估计。分块的过程应该是随机的以避免产生偏差的划分。

11. 建立模型

1) 目的

2) 获取数据

3) 探索、清理和预处理数据

4) 精简数据和把它划分成训练、验证以及测试数据块

5) 决定数据挖掘任务

6) 选择技术

7) 用算法去执行这个任务

8) 解释结果

9) 应用模型

第三章 有约束学习——分类和预测

1. 判断一个分类法效果的自然标准是它错误分类的概率。

2. 在此,我们希望使用分类法的效果能比使用“粗暴”法则:“把所有记录划分到记录最多的类里去”得到的效果要好一点。

3. 一个分类法的精度特别依赖与这两个类(由分类法使用的预测变量而显示出)的间隔。

4. 贝叶斯法则的一个重要优点是,在给一个记录分类的同时,我们可以计算该记录属于每一个类的条件概率。它的好处是

1) 我们可以用这一个概率作为我们要分类的每一个记录的“分数”

2) 我们可以为任一记录计算期望的利益或者损失。防灾科技学院与山东建筑大学哪个好

5. 什么是三分Triage策略?【简答题】见书P37

第四章 多元线性回归

1. 经典的多元线性回归分析包括模型假设、系数估计和检验、方差分析、变量子集选择等许多方面。而数据挖掘中的多元线性回归放宽了模型的假设条件,模型对未来数据进行预测的误差估计由在验证数据上的误差分析直观给出。因此数据挖掘中的多元线性回归是“数据挖掘是简单化了的统计学”这一说法的一个体现。

2. 多元线性回归的模型和思想【重点、大题】

〈模型的建立〉

3. 对验证数据的每一个记录比较结果变量的预测值和实际观测值。这一误差平方的平均值可用来比较不同的模型和评价用模型进行预测的精度。

4. 4.3线性回归的自变量选择

对此一个经验法则是n>=5(k+2)(n=记录个数,k=自变量个数)

5. 线性回归分析的一般步骤【简答题、说清楚各部步骤】防灾科技学院与山东建筑大学哪个好

1) 获取模型系数和统计量

2) 诊断模型是否满足假设条件,如果有问题就要采取补救措施

3) 使用模型统计量评价模型拟合状况

4) 如果模型通过了一系列的评价测试,我们就可以用这个模型来解释各自变量的作用以及用这个模型产生预测。

第五章 Logistic回归

1. Logistic回归的思想由多元线性回归发展而来,它使用的情形是因变量(或称作被解释变量)y是二值(我们经常将这两个值编码为0和1)情况。

2. 用于描述选择行为的Logistic模型,是根据Manski提出的随机效用理论建立的,该理论是对标准的消费者行为理论的扩展。

3. 消费者行为理论是指当面临一组选择是,消费者选择的标准是效用最大化。

4. 系数的估计(估计值的计算)一般是根据极大似然原理,它能保证估计值具有良好的渐进(大样本)特征。一般条件下的极大似然法估计量(或称为极大似然法估计器)具有:

1) 一致性

2) 渐进有效性

3) 渐进正态分布

第六章 神经网络

1. 人工神经网络的基本构造块是一个数学模型神经元。

2. 人工神经元有三个基本组成部分:

1) 为输入值Xi提供权重Wj的突触或者连接,J=1,2,3,4,„,m;

2) 一个把加权的输入加到一起作为激活函数输入的加法器;权重和为V

3) 一个激活函数g(也经常被称为挤压函数),把V映射到该神经元的输出值g(v)

3. 逻辑函数的实用价值在于,它对很小和很大的v值有一个挤压效应,但当g(v)在0.1到0.9这个范围值内时几乎是线性的。

4. 神经网络的另一个缺点

神经网络的一个缺点是容易产生过分拟合,从而引起在验证数据上的误差率太大。因此限制训练的遍数而不让对数据过分拟合至关重要。

第七章 分类与回归树

1. 分类树包括两个关键的思想【简答题】

解释变量空间递归分区的思想(书上例子骑乘式割草机);

用验证数据进行剪枝的思想

2. 剪枝的思想是认为如果树非常大很可能是对训练数据的过分拟合。

第八章 判别分析

1. 判别分析的思想是:使用在不同群体上的连续变量测量值去彰显区分这些群体的特点,并且利用这些测量值为新纪录分类。

一个好的判别规则将数据分开,使得最少的点被错判;

2. 判别分析的两个重要目标是解决以下的两个问题:

在决定一个个个体的类别的自变量里面那些是最重要的?

分类的最佳线性法则是什么?

3. 因变量Y是类别型变量,自变量xi是那些可以描述该群体的属性,可以是任意类型的变量。

4. 线性可分指的是可以用属性的线性组合把这些类别区分开来。

5. Fisher判别法是根据方差分析的思想建立起来的一种能较好区分各个总体的线性判别法。它具体做法是:

利用M个指标的训练数据,借助于方差分析的思想构造一个线性判别函数

Y=d1X1+d2X2+….+dmXm

其中d1,d2,d3确定的原则是使两组间的组间离差平方和最大,而每个组的组内离差平方和最小

6. 测量记录和记录之间的距离,我们可以使用欧式距离,但欧式距离有两个缺点:

1) 首先,距离会依赖于我们测量变量所使用的单位防灾科技学院与山东建筑大学哪个好

2) 另外,变量之间的相关结构也不能体现出来。

7. 马氏距离〈见书P99〉

第九章 其他有约束学习方法

1. K——最近邻点算法的思想是,建立一个分类的方法,而不需要假定被解释变量y和解释变量,这是一个非参数的方法,它不需要我们像在线性回归中那样对线性函数进行参数估计。

2. 维数诅咒是所有的分类、预测和聚类方法都存在的根本性问题。

第十章 关联分析——关联法则

1. 第一个数被称作法则的支持度(在概率论领域,支持度指的是概率密度函数大于0的点集的闭包)。支持度是包括既在前提也在结果的所有物品的交易记录数量。另一个数被称为该法则的置信度。置信度是包括即在前提也在结果的所有物品的交易数除以包括前提的所有物品的交易数。防灾科技学院与山东建筑大学哪个好

第十一章 数据精简和探索

1. 主成分和原始数据相比,还有一个优点是它们互不相关。(相关系数等于0)

2. 标准化的好处是,测量单位的变化并不改变主成分的权重。

第十二章 聚类分析

1. 聚类分析的目的是根据对象几种属性的测量值组成相似对象的几个集合。关键的思想是把数据以一种有利于进行分析的方式归类。

2. 用距离大小进行分类的技术:其中最重要的有层次聚类、最优化聚类和混合模型聚类。

3. 两种主要的层次聚类技术:分类和聚合。

4. 测量类与类之间的距离:所有聚合方法都需要给定一个要分类的对象之间的距离测度。由对象之间的这一距离长测度构建类与类之间的距离测度。

5. 马氏距离〈见书P133〉

Xi和Xj是由变量组成的p维向量,当p=1时表示最大坐标距离,p=2时表示欧式距离

【第二篇】防灾科技学院与山东建筑大学哪个好

2010(2009)本科二批一、二志愿

2009年山东省投档情况统计表

2009年山东省投档情况统计表

2009年山东省投档情况统计表

2009年山东省投档情况统计表

2009年山东省投档情况统计表

【第三篇】防灾科技学院与山东建筑大学哪个好

院校线差待查询名单(文2组)

吴娟

刘伟娜

王会会王密

李晓贺

李晓兴

【第四篇】防灾科技学院与山东建筑大学哪个好

2010山东专科(高职)一批一志愿投档情况

山东省2010年院校投档情况统计表

【第五篇】防灾科技学院与山东建筑大学哪个好

报志愿参考

2009年 一本586 二本554 2010年 一本580 二本542 2011年 一本567 二本503

2012年 一本582 二本估计523、

山东省2010年院校投档情况统计表

[1] [2] [3] [4] [5] [6] [7] [8] [9]

山东省2010年院校投档情况统计表

[1] [2] [3] [4] [5] [6] [7] [8] [9]

2011山东理科生535报鲁东大学土木工程专业把握怎么样?其他还能报什么大学

检举 | 2011-7-14 07:50 提问者: 1259223887

| 悬赏分:20 | 浏览次数:165次

我来帮他解答

推荐答案

检举 | 2011-7-14 17:28

具体今年山东的二本线我不清楚,如果能过二本线稍高于3~5分的话应该没问题,正好压线的话估计这两年有点难了,现在鲁大有点火

2011山东理科考生535报鲁东大学土木工程录取把握大吗?聊城大学呢?

检举 | 2011-6-30 11:44 提问者: aqlhlz123

| 悬赏分:20 | 浏览次数:690次

我来帮他解答

推荐答案

检举 | 2011-6-30 12:30

鲁东大学是师范类大学转型过来的,它的生物类专业不错,而且第二学年有转专业的机会,也可以同时修2个专业,估计你的分数上鲁东大学是可以的但是土木这种热门专业挺玄的,你可以先考虑一个普通专业,到第二学年再转到土木的,鲁东大学的校风不错。不过具体的还是要看二本分数下来才能真正的确定 聊城大学也可以,但是分数报热门专业没把握。 专业个人回答!望采纳~

2011年理科分数535分想报鲁东大学,录取的机率是否大,我是山东考生

检举 | 2011-6-29 10:55 提问者: gao红霞

| 浏览次数:111次

我来帮他解答

检举 | 2011-6-29 11:21 满意回答

录取机会可能有50%,你填专业的时候填一个服从调剂!如果被录取了不喜欢下半年再转专业! 2011新生暖暖群欢迎你 160162964

科目 理科 文科

年份 2011 2011

最高 594.00 624.00

平均 535.00 582.00

录取人数 4068 239

录取批次 本科二批 本科一批

科目 理科 文科 理科 理科 理科 文科 文科 理科 理科 文科 理科 文科

年份 2011 2011 2010 2010 2010 2010 2010 2009 2009 2009 2009 2009

最高 618.00 586.00 564.00 615.00 623.00 620.00 647.00 652.00 631.00 611.00 552.00 638.00

平均 583.00 545.00 519.00 556.00 598.00 591.00 617.00 609.00 570.00 586.00 531.00 602.00

录取人数 259 2135 213 3388 386 1646 329 623 2187 1033 120 543

录取批次 本科一批 本科二批 本科三批 本科二批 本科一批 本科二批 本科一批 本科一批 本科二批 本科二批 本科三批 本科一批

聊城大学建筑专业怎么样 我是理科 今年高考490 想报聊城建筑系 不知道怎么样 知道的帮忙解释一下 谢谢了

检举 | 2011-6-13 11:38 提问者: 麥桐心

| 浏览次数:171次

聊城大学建筑专业怎么样 我是理科 今年高考490 想报聊城建筑系 不知道怎么样 知道的帮忙解释一下 谢谢了 我来帮他解答

检举 | 2011-6-13 21:19 满意回答

聊大最强的是化学和国防生。其他学院都差不多。 不过建筑是热门专业,也不好考

聊大学风适合考研学习,不适合毕业就业。

山东的学院普遍都是这个情况。山东的高校被称为考研基地。你懂得

你要是分高的话考山东建筑大学吧 0

【第六篇】防灾科技学院与山东建筑大学哪个好

山东省2009年本科二批二志愿投档情况

2009年山东省投档情况统计表