1
00:00:17,630 --> 00:00:24,750
大家好！这是Weka和数据挖掘的最后一部分。

2
00:00:24,750 --> 00:00:29,070
我们来回顾下，看看数据挖掘过程中的

3
00:00:29,070 --> 00:00:29,859
一些共有的问题。

4
00:00:29,859 --> 00:00:38,400
这部分比较短，只有四次课：数据挖掘过程，数据挖掘失误和缺陷，

5
00:00:38,400 --> 00:00:41,730
数据挖掘和道德规范，最后，课程总结。

6
00:00:42,760 --> 00:00:45,760
我们来学习课程5.1。

7
00:00:45,760 --> 00:00:50,570
这幅图可能是你对数据挖掘过程的想象。

8
00:00:50,570 --> 00:00:53,100
你手头有数据，或者别人给你一些数据。

9
00:00:53,100 --> 00:00:54,860
你拿到Weka。

10
00:00:54,860 --> 00:01:00,720
你应用Weka分析数据，得到一些很酷的结果。每个人都很满意。

11
00:01:02,820 --> 00:01:05,509
如果是这样，告诉你个坏消息，

12
00:01:05,509 --> 00:01:08,500
事情完全不会那样。

13
00:01:08,500 --> 00:01:11,579
说实话，这是对它的更好想象。

14
00:01:11,579 --> 00:01:15,650
整个过程会是一个循环，你会不停的循环。

15
00:01:15,650 --> 00:01:19,770
Weka是很重要 -- 它是圆圈的中心。

16
00:01:19,770 --> 00:01:26,069
尽管它重要，它只是你要做的事的一小部分。

17
00:01:26,069 --> 00:01:30,590
或许最大的问题是提出合适的问题。

18
00:01:30,590 --> 00:01:37,380
你需要做的是回答这个问题，而不是盲目地处理数据。

19
00:01:38,420 --> 00:01:44,680
然后，你需要收集些你能收集到的，能用数据挖掘技术

20
00:01:44,689 --> 00:01:49,329
帮助你回答这个问题的数据。

21
00:01:49,329 --> 00:01:50,950
收集数据是很难的。

22
00:01:50,950 --> 00:01:56,670
你可能有一个初始数据集，但是你可能需要增加一些人口数据、

23
00:01:56,670 --> 00:02:00,319
气候数据、或者其它数据。

24
00:02:00,319 --> 00:02:05,079
你可以上网搜索一些信息来补充你的数据集。

25
00:02:05,079 --> 00:02:11,819
然后，你可以把所有这些组合起来：创建一个数据集，它包含了

26
00:02:11,819 --> 00:02:17,410
你认为有必要（ 或Weka需要）的属性。

27
00:02:17,410 --> 00:02:19,069
然后你需要清理数据。

28
00:02:19,069 --> 00:02:24,890
坏消息是现实生活中的数据总是非常杂乱。

29
00:02:24,890 --> 00:02:29,610
研究数据、理解数据、找出异常、确定是否剔出些数据

30
00:02:29,610 --> 00:02:35,390
是一个漫长而痛苦的过程。

31
00:02:35,390 --> 00:02:37,260
这会花费一些时间。

32
00:02:37,260 --> 00:02:40,550
然后你或许会需要定义一些新的特征。

33
00:02:40,550 --> 00:02:44,810
这是特征工程的过程，是数据挖掘能够成功的关键步骤。

34
00:02:44,810 --> 00:02:49,030
最后，当然，你需要使用Weka.

35
00:02:49,030 --> 00:02:54,860
你可能需要重复这个循环几次，才能得到好的分类算法。

36
00:02:54,860 --> 00:03:00,420
然后你需要在现实世界中使用算法。

37
00:03:00,420 --> 00:03:03,340
这个过程中的每一步都不容易。

38
00:03:04,340 --> 00:03:08,340
你需要思考想回答的问题

39
00:03:08,440 --> 00:03:13,330
“发现这组数据中酷的地方”并不是一个很好的问题。

40
00:03:13,330 --> 00:03:17,890
你需要知道通过数据你想得到什么。

41
00:03:17,890 --> 00:03:19,660
然后你需要收集数据。

42
00:03:19,660 --> 00:03:23,110
就像我课程开始时说的，我们周围有很多数据，问题是

43
00:03:23,110 --> 00:03:30,110
我们需要已分类数据以便在数据挖掘中使用分类技术。

44
00:03:30,290 --> 00:03:36,080
我们需要专家对数据的判断，专家的分类，但有专家分类，

45
00:03:36,080 --> 00:03:42,810
或准确结果的数据并不多。

46
00:03:42,810 --> 00:03:45,680
人们说较多的数据会打败一个聪明的算法。

47
00:03:45,680 --> 00:03:49,910
因此，与其花时间优化你将在Weka中使用的算法，

48
00:03:49,910 --> 00:03:53,670
不如收集更多的数据。

49
00:03:53,670 --> 00:04:00,570
然后你需要清理数据，就像我之前说过，真正的数据非常杂乱。

50
00:04:00,570 --> 00:04:04,650
观察数据，找出异常是痛苦的过程。

51
00:04:04,650 --> 00:04:08,000
特征工程是下一步，数据挖掘的关键。

52
00:04:08,000 --> 00:04:12,930
一会我们会谈及Weka如何帮助你。

53
00:04:12,930 --> 00:04:16,340
然后你就要利用结果。

54
00:04:16,340 --> 00:04:18,490
实施，这是容易的部分。

55
00:04:18,490 --> 00:04:24,430
困难的部分是说服你的老板使用数据挖掘过程的结果。

56
00:04:24,430 --> 00:04:29,620
也许他会觉得这很神秘，而不太信认。

57
00:04:29,620 --> 00:04:36,620
在现实世界中付诸实施是很棘手的问题。

58
00:04:37,060 --> 00:04:43,370
所有这些中主要的技术部分是特征工程，Weka中有许多过滤器

59
00:04:43,370 --> 00:04:44,200
可以帮助我们。

60
00:04:44,200 --> 00:04:46,150
这里有一些过滤器。

61
00:04:46,150 --> 00:04:53,150
或许值得定义一个新的特征，一个新的属性，它是集合了

62
00:04:54,530 --> 00:04:56,120
现有属性的数学表达。

63
00:04:56,120 --> 00:04:59,890
或者你会想修改一个现有属性。

64
00:04:59,890 --> 00:05:05,240
通过AddExpression，你可以使用任何数学公式在现有属性基础上

65
00:05:05,240 --> 00:05:08,050
创建新属性。

66
00:05:08,050 --> 00:05:13,730
你或许想规范化、中心化或者标准化你的数据。

67
00:05:13,730 --> 00:05:18,210
把数值属性的均值转换为零( 这就是“中心化”)。

68
00:05:18,210 --> 00:05:21,830
或者是转化到给定的数值区间 （这就是“规范化”）。

69
00:05:21,830 --> 00:05:28,830
或者转化成零均值和单位方差，这种在统计上叫做“标准化”。

70
00:05:30,530 --> 00:05:37,500
你也许想把数值属性离散为名词性值。

71
00:05:37,500 --> 00:05:43,440
Weka有监督和无监督属性离散过滤器。

72
00:05:44,790 --> 00:05:46,000
还有许多其他的转换方法。

73
00:05:46,000 --> 00:05:51,480
例如，主分量转换方法（ PrincipalComponents transformation），它用矩阵分析数据

74
00:05:51,480 --> 00:05:54,150
来在线性空间选择主分量

75
00:05:54,150 --> 00:05:58,920
这是关于数学的。Weka有很好的实现。

76
00:05:58,920 --> 00:06:04,220
RemoveUseless可以删除一成不变或变化过多的属性。

77
00:06:04,220 --> 00:06:07,800
实际上，我想我们在一个练习中见过。

78
00:06:07,800 --> 00:06:14,800
然后，这里有几个过滤器可以帮助你处理时间序列，

79
00:06:14,830 --> 00:06:17,300
当你的实例是随时间推移的一系列数据，

80
00:06:17,300 --> 00:06:21,080
你或许希望找到实例之间的区别，

81
00:06:21,080 --> 00:06:27,680
或者有一定间隔的实例的区别 （ 一个实例和在它之前5个实例，或者之前10个的区别）。

82
00:06:27,680 --> 00:06:33,650
这只是Weka的几个Weka的能帮你做特征工程的过滤器。

83
00:06:33,650 --> 00:06:39,250
这节课的主旨是Weka只是整个数据挖掘的一小部分，

84
00:06:39,250 --> 00:06:41,810
最简单的部分。

85
00:06:41,810 --> 00:06:46,310
这门课中，我们选择讲解了整个过程的最容易部分！

86
00:06:46,310 --> 00:06:46,780
对不起。

87
00:06:46,780 --> 00:06:50,230
在实践中，其它的部分会难得多。

88
00:06:50,230 --> 00:06:56,270
这是一个老程序员的祝福：“希望你所有的问题都是技术问题”。

89
00:06:56,270 --> 00:07:01,170
其它问题 （ 获取数据所涉及的政治问题，以及实施结果的问题）

90
00:07:01,170 --> 00:07:06,610
这些是在整个数据挖掘过程中艰巨得多的

91
00:07:06,610 --> 00:07:07,330
任务。

92
00:07:07,330 --> 00:07:09,920
祝好运！

93
00:07:09,920 --> 00:07:12,400
教材中有一些相关内容。

94
00:07:12,400 --> 00:07:17,810
第1.3是关于现场应用的，为了能够在现实中应用，

95
00:07:17,810 --> 00:07:24,480
它们都经历了这样的过程。

96
00:07:24,480 --> 00:07:26,200
这节课有一个课后练习。

97
00:07:26,200 --> 00:07:29,180
请完成它。下节课见。

98
00:07:29,180 --> 00:07:36,180
再见！