﻿1
00:00:02,280 --> 00:00:09,280

2
00:00:17,880 --> 00:00:19,539
大家好! 欢迎学习

3
00:00:19,539 --> 00:00:24,489
“Weka在数据挖掘中的运用” 我是Ian Witten，来自新西兰怀卡托大学

4
00:00:24,489 --> 00:00:28,399
 这门课是怀卡托大学

5
00:00:28,399 --> 00:00:30,779
计算机科学学院开设课程。

6
00:00:30,779 --> 00:00:35,940
数据挖掘是一门成熟的技术，

7
00:00:35,940 --> 00:00:36,680
很多人已认识到了数据挖掘的重要性，

8
00:00:36,680 --> 00:00:40,540
而另一些人认为数据挖掘很神秘。

9
00:00:40,540 --> 00:00:44,739
这门课旨在揭示数据挖掘的神秘性。

10
00:00:44,739 --> 00:00:48,149
这是一门实用性的课程，主要讲述如何使用Weka数据挖掘工具包。

11
00:00:48,149 --> 00:00:51,469
作为课程的一部分，你可以直接下载Weka来尝试数据挖掘。

12
00:00:51,469 --> 00:00:55,890
我会讲述几个常见算法的基本原理

13
00:00:55,890 --> 00:00:59,629
以及他们的实际应用。

14
00:00:59,629 --> 00:01:03,440
在当今世界，我们被数据环绕：

15
00:01:03,440 --> 00:01:07,310
当我们刷信用卡， 
在超市

16
00:01:07,310 --> 00:01:08,229
结账，

17
00:01:08,229 --> 00:01:12,429
发短信、打电话、发邮件

18
00:01:12,429 --> 00:01:16,569
甚至敲击电脑按键，当我们走过摄像头，

19
00:01:16,569 --> 00:01:20,659
都会生成数据。 数据挖掘是

20
00:01:20,659 --> 00:01:21,290
为了

21
00:01:21,290 --> 00:01:25,310
从原始数据中找出有用的信息。 在现实世界中，信息

22
00:01:25,310 --> 00:01:26,189
可被用于

23
00:01:26,189 --> 00:01:30,970
做预测。 我来

24
00:01:30,970 --> 00:01:35,680
给大家举个例子。假如你正站在超市的收银台前， 

25
00:01:35,680 --> 00:01:39,820
收银机记录下了你买的每一件东西，

26
00:01:39,820 --> 00:01:44,299
最后，你出示优惠卡。超市工作人员会给你几个百分点的折扣， 

27
00:01:44,299 --> 00:01:45,200
但是

28
00:01:45,200 --> 00:01:48,770
你要提供姓名和住址。超市间接地得到了

29
00:01:48,770 --> 00:01:50,579
你以及诸多和你一样的顾客的

30
00:01:50,579 --> 00:01:54,110
个人信息。谁都希望少花钱。

31
00:01:54,110 --> 00:01:58,149
今天得到了实惠，是因为上周商家

32
00:01:58,149 --> 00:01:59,109
通过邮件发给你的优惠劵。

33
00:01:59,109 --> 00:02:02,149
因为打折，

34
00:02:02,149 --> 00:02:07,310
你会买一些平常不会买的东西。下星期，

35
00:02:07,310 --> 00:02:08,690
商家还会发给你更多的优惠券。

36
00:02:08,690 --> 00:02:13,160
而你优惠去购物，去买更多的东西。你知道吗？

37
00:02:13,160 --> 00:02:16,150
商家在做试验。 超市想知道如果价格稍微降一些，

38
00:02:16,150 --> 00:02:17,989
你会多买多少东西。

39
00:02:17,989 --> 00:02:22,250
那些优惠劵只是一种个性化定价的手段。

40
00:02:22,250 --> 00:02:25,540
超市掌握了众多像你一样的顾客的数据，

41
00:02:25,540 --> 00:02:29,940
就可以知道不同促销策略的

42
00:02:29,940 --> 00:02:30,519
实际效果。

43
00:02:30,519 --> 00:02:34,970
双方都会受益: 你得到了实惠, 商家卖出了更多的货物。

44
00:02:34,970 --> 00:02:38,139
我个人认为这是一件好事。再给大家举一个例子。

45
00:02:38,139 --> 00:02:41,810
假设你和你的伴侣想要一个孩子，但却怀不上。

46
00:02:41,810 --> 00:02:45,480
尽管尝试的过程美好，但结果却令人沮丧，

47
00:02:45,480 --> 00:02:49,510
最后变得非常沮丧，甚至悲剧。

48
00:02:49,510 --> 00:02:52,590
人工授精

49
00:02:52,590 --> 00:02:58,100
可以从女性的卵巢中提取卵子，然后使卵子与伴侣或捐精者的精子结合。

50
00:02:58,100 --> 00:03:03,669
之后选择合适的受精卵，

51
00:03:03,669 --> 00:03:06,680
重新植入子宫。

52
00:03:06,680 --> 00:03:10,090
你希望选择那些成活率高的受精卵，

53
00:03:10,090 --> 00:03:13,310
却不希望同时生出太多的婴儿。

54
00:03:13,310 --> 00:03:18,260
胚胎学家们掌握着各种受精卵的数据。

55
00:03:18,260 --> 00:03:22,150
在我看来，针对每个受精卵，他们都要记录50到100条数据。

56
00:03:22,150 --> 00:03:26,430
而且他们还存储了

57
00:03:26,430 --> 00:03:27,190
成活受精卵的

58
00:03:27,190 --> 00:03:31,120
历史数据。

59
00:03:31,120 --> 00:03:35,079
这就是一个典型的数据挖掘的实例。

60
00:03:35,079 --> 00:03:36,290
在历史数据

61
00:03:36,290 --> 00:03:40,209
和现实数据的基础上选择

62
00:03:40,209 --> 00:03:44,540
成活率最高的受精卵，

63
00:03:44,540 --> 00:03:45,419
让不孕不育的夫妇

64
00:03:45,419 --> 00:03:49,310
得到梦寐以求的孩子。

65
00:03:49,310 --> 00:03:55,859
我提到了数据挖掘和机器学习两个概念。数据挖掘

66
00:03:55,859 --> 00:03:56,989
侧重应用。

67
00:03:56,989 --> 00:04:00,970
而机器学习偏重算法。我们要使用

68
00:04:00,970 --> 00:04:02,690
机器学习中的算法

69
00:04:02,690 --> 00:04:06,430
来实现数据挖掘的目的。

70
00:04:06,430 --> 00:04:09,579
这就是Weka和数据挖掘。那么，下一个问题是什么是Weka?

71
00:04:09,579 --> 00:04:13,130
Weka是一种小鸟，

72
00:04:13,130 --> 00:04:18,030
一种不会飞的小鸟，长得多少像它那有名的Kiwi鸟亲戚。
73
00:04:18,030 --> 00:04:21,470
Weka是新西兰特有的物种，

74
00:04:21,470 --> 00:04:27,090
鸟名取自它的叫声，

75
00:04:27,090 --> 00:04:30,180
来自新西兰的叫声。

76
00:04:30,180 --> 00:04:34,780
在我们这门课中，Weka是数据挖掘的工具包，

77
00:04:34,780 --> 00:04:35,610
是

78
00:04:35,610 --> 00:04:40,150
Waikato Environment for Knowledge Analysis的首字母缩略词。

79
00:04:40,150 --> 00:04:43,719
Weka包含了针对数据分类、

80
00:04:43,719 --> 00:04:47,590
数据预处理、特性选择、

81
00:04:47,590 --> 00:04:48,689
聚类分析、

82
00:04:48,689 --> 00:04:51,969
相关性分析等的大量经典算法，是一个非常全面的工具包。

83
00:04:51,969 --> 00:04:55,800
而且Weka是免费、开源软件，

84
00:04:55,800 --> 00:04:59,110
下一次可我们会学习如何下载Weka.

85
00:04:59,110 --> 00:05:02,289
Weka可以在任何计算机上运行。

86
00:05:02,289 --> 00:05:06,819
Weka的程序设计语言是Java，可以在Linux，Windows，Mac系统中运行。

87
00:05:06,819 --> 00:05:10,110
你可以下载Weka，在你的工作站运行，并在我们的课程中使用。

88
00:05:10,110 --> 00:05:15,650
在这门课中，你会学到数据导入，

89
00:05:15,650 --> 00:05:19,419
预处理（利用筛选器来过滤数据），

90
00:05:19,419 --> 00:05:24,069
可视化分析，分类算法应，

91
00:05:24,069 --> 00:05:27,620
解释结果以及评估方法。

92
00:05:27,620 --> 00:05:32,300
在这个领域，评估是非常重要的，可以了解不同模型的代表性，

93
00:05:32,300 --> 00:05:33,879
和机器学习常见算法的准确度，

94
00:05:33,879 --> 00:05:37,810
以及避免数据挖掘的常见错误。

95
00:05:37,810 --> 00:05:42,550
课程的最终目的是使你能够应用Weka分析自己的数据，

96
00:05:42,550 --> 00:05:46,610
最重要的是，理解你所做的事。

97
00:05:46,610 --> 00:05:51,210
这是第一次课。在这次课中，

98
00:05:51,210 --> 00:05:54,860
我们要开始接触Weka。你要学习安装Weka,

99
00:05:54,860 --> 00:05:58,400
熟悉Weka的界面

100
00:05:58,400 --> 00:06:02,449
和数据集，创建分类器，

101
00:06:02,449 --> 00:06:05,669
分析分类器的数据， 使用筛选器

102
00:06:05,669 --> 00:06:08,729
和数据可视化功能。 在这门课中，我们要学习很多东西。

103
00:06:08,729 --> 00:06:11,879
这是课程的大纲，

104
00:06:11,879 --> 00:06:16,090
共包括五大部分，

105
00:06:16,090 --> 00:06:20,360
每部分由六次课组成。

106
00:06:20,360 --> 00:06:24,340
第一部分帮助我们了解Weka。第二部分侧重Weka的

107
00:06:24,340 --> 00:06:26,159
评估。

108
00:06:26,159 --> 00:06:30,249
第三部分讲解简单的分类器。第四部分阐述更多的分类器

109
00:06:30,249 --> 00:06:30,840
第五部分

110
00:06:30,840 --> 00:06:34,370
总结整个课程。第一部分

111
00:06:34,370 --> 00:06:39,189
有六节课。每节课都是一段5到10分钟的视频， 

112
00:06:39,189 --> 00:06:42,879
就像这个视频。视频结束后有一个练习，

113
00:06:42,879 --> 00:06:46,300
每个练习都引导你自己动手。

114
00:06:46,300 --> 00:06:49,800
要学习，只听讲是不够的，还得动手去做。 

115
00:06:49,800 --> 00:06:51,680
于是，我们设计了很多

116
00:06:51,680 --> 00:06:55,800
使用Weka工具包的练习。课程包含一个期中测试

117
00:06:55,800 --> 00:06:57,680
和期末测试。

118
00:06:57,680 --> 00:07:02,150
如果你能打到70%以上的综合成绩，

119
00:07:02,150 --> 00:07:05,830
就可以拿到怀卡托大学颁发的 

120
00:07:05,830 --> 00:07:07,199
毕业证书，

121
00:07:07,199 --> 00:07:10,309
证明你学完了这门课程。

122
00:07:10,309 --> 00:07:13,330
练习是课程的重要组成部分，但不是

123
00:07:13,330 --> 00:07:14,159
考试内容。

124
00:07:14,159 --> 00:07:17,409
做练习是十分必要的，只是这回你不需要为了考试而

125
00:07:17,409 --> 00:07:18,800
强制做题。

126
00:07:18,800 --> 00:07:22,809
这主要取决于你自己。这门课的教材是一本名为

127
00:07:22,809 --> 00:07:26,759
“数据挖掘”的书。这本书详细介绍了

128
00:07:26,759 --> 00:07:30,620
数据挖掘和Weka工具包。这是一本很不错的书，

129
00:07:30,620 --> 00:07:31,400
是我和

130
00:07:31,400 --> 00:07:35,460
几个朋友一起编辑的。书的出版商非常慷慨地

131
00:07:35,460 --> 00:07:37,330
允许在线阅读大部分章节，

132
00:07:37,330 --> 00:07:41,080
因此你可以通过这本书来了解一些背景知识。 

133
00:07:41,080 --> 00:07:45,069
只是了解，你不需要把整本书都读完。

134
00:07:45,069 --> 00:07:48,860
除非你打算钻研其中的一些观点和

135
00:07:48,860 --> 00:07:49,559
算法。

136
00:07:49,559 --> 00:07:52,610
这就是这本书的价值所在。

137
00:07:52,610 --> 00:07:55,659
你只需要看视频、做练习

138
00:07:55,659 --> 00:07:59,939
和参加考试。 突然想起我应该告诉大家我在哪里。

139
00:07:59,939 --> 00:08:03,629
我在新西兰，Weka的故乡。

140
00:08:03,629 --> 00:08:07,699
这是我坐的地方。 这是从新西兰人眼中看到的世界。

141
00:08:07,699 --> 00:08:10,729
我们在上方，你呢？也许在下方某处。

142
00:08:10,729 --> 00:08:14,749
我们在正上方。这个箭头指向新西兰北岛，

143
00:08:14,749 --> 00:08:18,529
怀卡托大学所在的地方。

144
00:08:18,529 --> 00:08:22,139
就到这里吧。这次课有一个练习，

145
00:08:22,139 --> 00:08:26,710
建议大家去做。当然，这节课我们只做了一个简单的介绍，

146
00:08:26,710 --> 00:08:28,589
因此练习也不是很重要。

147
00:08:28,589 --> 00:08:31,599
别担心，做这个练习也不需要大量的

148
00:08:31,599 --> 00:08:32,539
阅读。

149
00:08:32,539 --> 00:08:35,669
练习主要是为了自我检验。

150
00:08:35,669 --> 00:08:40,099
期待下次课 

151
00:08:40,099 --> 00:08:44,460
再见。
