﻿1
00:00:17,480 --> 00:00:26,320
大家好！这是Weka与数据挖掘的最后一节课，课程5.4 , 总结。

2
00:00:26,320 --> 00:00:31,300
我们来对所学的知识做个小结。

3
00:00:31,300 --> 00:00:36,839
我想表达的要点之一是数据挖掘中没有魔法。

4
00:00:36,839 --> 00:00:42,710
数据挖掘包含很多不同的方法，他们都是非常直接的算法。

5
00:00:42,710 --> 00:00:45,170
我们学习了许多算法的原理。

6
00:00:45,170 --> 00:00:50,170
或许我们没有理解细节，但是我们学到了数据挖掘中

7
00:00:50,170 --> 00:00:53,329
机器学习主要方法的基本思想。

8
00:00:53,329 --> 00:00:57,620
这里没有一个万能的方法。

9
00:00:57,620 --> 00:01:00,899
数据挖掘是一门实验科学。

10
00:01:00,899 --> 00:01:06,070
你需要找出针对问题的最好方法。

11
00:01:06,070 --> 00:01:07,780
Weka使事情变得容易。

12
00:01:07,780 --> 00:01:11,210
使用Weka,你可以尝试不同的方法，使用不同的过滤器，

13
00:01:11,210 --> 00:01:12,960
不同的学习方法。

14
00:01:12,960 --> 00:01:14,910
你可以尝试不同的数据集。

15
00:01:14,910 --> 00:01:17,160
在Weka中做实验是非常容易的。

16
00:01:17,160 --> 00:01:22,030
或许你会说这太容易。不过重要的是明白自己所做的事情，

17
00:01:22,030 --> 00:01:25,729
而不是到处乱点，查看结果。

18
00:01:25,729 --> 00:01:30,569
这就是我这门课要强调的事情： 理解、评价

19
00:01:30,569 --> 00:01:31,660
自己所做的事。

20
00:01:31,660 --> 00:01:36,759
如果你不能真正理解后台的算法，就会落入

21
00:01:36,759 --> 00:01:38,030
陷阱，

22
00:01:38,030 --> 00:01:43,649
而不仅是在工作平台上盲目地应用工具的问题。

23
00:01:43,649 --> 00:01:48,550
我们在课程中已经强调了评估，评估你所做的事，

24
00:01:48,550 --> 00:01:54,950
以及结果的显著性。

25
00:01:54,950 --> 00:01:57,679
我们已经看到，不同的算法有不同的性能。

26
00:01:57,679 --> 00:02:00,789
对于很多问题，这区别不大。

27
00:02:00,789 --> 00:02:06,060
算法的不同在很多情况下并不十分重要，

28
00:02:06,060 --> 00:02:12,080
你应该把时间花在研究特征，问题描述和

29
00:02:12,080 --> 00:02:19,340
你工作的操作环境上，而不是浪费在

30
00:02:19,349 --> 00:02:21,680
寻找最佳算法上。

31
00:02:21,680 --> 00:02:25,280
在实践中，这不会有太大的不同。

32
00:02:25,280 --> 00:02:29,080
明智地使用你的时间。

33
00:02:29,080 --> 00:02:31,709
还有很多东西，我们没有讲。

34
00:02:31,709 --> 00:02:35,569
很遗憾我未能讲解这些。

35
00:02:35,569 --> 00:02:41,299
过滤分类器技术，你可以用来过滤训练数据，

36
00:02:41,299 --> 00:02:43,099
而不是测试数据。

37
00:02:43,099 --> 00:02:49,230
尤其是当你使用监督过滤器时，过滤器的结果取决于

38
00:02:49,230 --> 00:02:53,760
训练实例的类值。

39
00:02:53,760 --> 00:02:59,069
你想要的是过滤训练数据，而不是测试数据，有时把一个为训练数据

40
00:02:59,069 --> 00:03:04,650
设计的过滤器，原封不动地用在测试数据上，

41
00:03:04,650 --> 00:03:06,590
这可能是欺骗。

42
00:03:08,800 --> 00:03:11,290
你经常需要在交叉验证时这么做。

43
00:03:11,290 --> 00:03:15,639
使用Weka的问题是你无法知道交叉验证的折，

44
00:03:15,639 --> 00:03:17,469
所有运算都在内部完成。

45
00:03:17,469 --> 00:03:21,819
过滤分类器是解决这个问题的简单方法。

46
00:03:21,819 --> 00:03:25,680
我们没有提到不同决定和不同种错误的成本，

47
00:03:25,680 --> 00:03:29,510
但在现实生活中，不同错误会带来不同成本。

48
00:03:29,510 --> 00:03:35,999
我们已经谈到了优化误差率，或分类准确率，但在现实生活中，

49
00:03:35,999 --> 00:03:40,310
大多数情况下，我们应该谈及成本，而不是原始准确率，

50
00:03:40,310 --> 00:03:43,519
这是不同的。

51
00:03:43,519 --> 00:03:48,290
Weka Explorer中有一整个控制面板用于属性选择，帮你选择

52
00:03:48,290 --> 00:03:55,099
在学习中使用的属性子集。在很多情况下，学习前，

53
00:03:55,099 --> 00:04:00,209
选择一个合适的小属性子集，是很值得的。

54
00:04:01,950 --> 00:04:04,170
Weka中有许多聚类技术。

55
00:04:04,170 --> 00:04:07,529
聚类是你想发现一些东西，即使没有类值，

56
00:04:07,529 --> 00:04:12,060
你想要根据属性值聚合实例。

57
00:04:12,060 --> 00:04:16,380
关联规则是另一种学习技术，我们要找到属性之间的

58
00:04:16,380 --> 00:04:17,630
联系。

59
00:04:17,630 --> 00:04:22,770
没有特定的类别，但我们在找属性之间的任何

60
00:04:22,770 --> 00:04:23,960
很强的联系。

61
00:04:23,960 --> 00:04:27,639
同样，在Explorer中有另一个控制面板，

62
00:04:27,639 --> 00:04:29,000
文本分类（text classification）。

63
00:04:29,000 --> 00:04:35,740
Weka中有一些很棒的文本过滤器，可以帮助你处理文本数据，

64
00:04:35,740 --> 00:04:41,010
如单词、字符、或n-grams短语（三、四或五个连续的字符序列）。

65
00:04:42,200 --> 00:04:45,060
你可以使用Weka做文本挖掘。

66
00:04:45,060 --> 00:04:52,000
最后，我们只讲解了Weka Explorer，但是Weka Experimenter

67
00:04:52,000 --> 00:04:54,340
也值得学习。

68
00:04:54,340 --> 00:04:59,880
我们做了相当数量的枯燥、乏味的均值和标准差的计算，

69
00:04:59,880 --> 00:05:07,260
通过手工改变随机数种子和重复运行。

70
00:05:07,260 --> 00:05:09,400
手工去做是很乏味。

71
00:05:09,400 --> 00:05:12,840
Experimenter可以很容易的自动运行。

72
00:05:12,840 --> 00:05:19,900
所以，还有许多需要学习的东西，我在想你是否有兴趣学习高级版的

73
00:05:19,900 --> 00:05:21,200
Weka与数据挖掘课程。

74
00:05:21,200 --> 00:05:25,630
我有这个想法，我希望你告诉我们你的想法，

75
00:05:25,630 --> 00:05:29,350
你想学习什么。

76
00:05:30,940 --> 00:05:33,690
让我以最后一个话题来结束课程。

77
00:05:33,690 --> 00:05:37,550
我们谈到了数据，数据挖掘。

78
00:05:37,550 --> 00:05:43,380
数据是记录下来的事实，是世界的变化。

79
00:05:43,380 --> 00:05:48,360
这是我们数据挖掘的输入值，输出值是信息，是基于数据的模式

80
00:05:48,360 --> 00:05:54,050
（期望）：这些模式可以成为在现实世界中

81
00:05:54,050 --> 00:05:58,320
有益的应用。

82
00:05:58,320 --> 00:06:02,310
我们从数据得到信息。

83
00:06:02,310 --> 00:06:07,500
上升到人类的世界，而不是计算机的，知识是你所有期望的集合，

84
00:06:07,500 --> 00:06:14,500
你拥有的信息和信息的运作模式，大量的期望以及

85
00:06:14,680 --> 00:06:20,550
他们在不同情况下的应用。

86
00:06:20,550 --> 00:06:24,690
最后，我想以知识所含的价值来定义智慧。

87
00:06:24,690 --> 00:06:32,610
希望你能明智地使用数据挖掘技术。

88
00:06:32,610 --> 00:06:33,910
在这们课中你已经学习了很多知识。

89
00:06:33,910 --> 00:06:39,280
你已经有能力分析自己的数据集。

90
00:06:39,280 --> 00:06:44,420
请明智地使用技术为世界做好事。

91
00:06:44,420 --> 00:06:46,390
这就是我最后想对你说的。

92
00:06:47,470 --> 00:06:51,640
这节课有个小练习。

93
00:06:51,640 --> 00:07:00,460
请大家完成，然后去做期终测试。如果你做得足够好，

94
00:07:00,460 --> 00:07:02,060
我们会给你颁发证书。

95
00:07:02,060 --> 00:07:07,590
祝好运！很高兴能讲授这门课，也许我们会在高级讲座中

96
00:07:07,590 --> 00:07:09,680
再次见面。

97
00:07:09,680 --> 00:07:11,100
再见!
