﻿1
00:00:18,470 --> 00:00:25,470
大家好！欢迎回到Weka与数据挖掘。我是Ian,这里是新西兰。

2
00:00:25,720 --> 00:00:32,259
这是讲座1.2。我们这门课共分五部分，

3
00:00:32,259 --> 00:00:37,409
每部分又包括六次课。这是第一部分的第二次课。 在这次课中，

4
00:00:37,409 --> 00:00:43,100
我们要学习Weka的用户界面。首先，我们要下载Weka系统。

5
00:00:43,100 --> 00:00:46,820
这是必须的步骤。

6
00:00:46,820 --> 00:00:53,820
我们需要从这个网址下载。让我们直接打开网页，

7
00:00:57,900 --> 00:01:03,530
www. cs.waikato.ac.nz/ml/weka. 你可以在线阅读Weka的相关内容。

8
00:01:03,530 --> 00:01:11,330
我们来直接点击下载，下载并安装Weka到我的电脑。我使用的是Windows系统，

9
00:01:11,360 --> 00:01:16,030
但是在网页下部我们可以看到Mac OS X，

10
00:01:16,030 --> 00:01:23,030
Linux等系统的下载版. 我们需要下载适合的版本。

11
00:01:23,030 --> 00:01:33,760
下载Weka 3.6.10，最新的版本。我要下载的是 "a self-extracting

12
00:01:33,760 --> 00:01:38,040
executable without the Java Virtual Machine"。我的电脑上已经安装了Java虚拟机。

13
00:01:38,040 --> 00:01:43,909
我要点击这里，但是你要选择适合你电脑的

14
00:01:43,909 --> 00:01:46,320
版本。

15
00:01:46,320 --> 00:01:55,380
趁着下载，我们来谈谈Weka这个词的发音。

16
00:01:55,380 --> 00:02:02,380
请读Weh-kuh。我们不希望把它叫做'weaker'（较弱的）系统，不是'weaker'，是

17
00:02:02,520 --> 00:02:07,310
‘Weka’，读作'Mecca'。这才是Weka鸟和这个软件的名称。

18
00:02:07,310 --> 00:02:21,230
我想下载已经完成了。我们来打开它。这是一个标准的安装向导。

19
00:02:21,230 --> 00:02:28,180
我们来安装Weka 3.6.10。点击next。

20
00:02:28,180 --> 00:02:35,180
同意GNU公共许可协议。下载整个文件包。

21
00:02:36,930 --> 00:02:40,870
安装到默认文件夹。一定要记住默认地址的名称。

22
00:02:40,870 --> 00:02:46,550
过一会我们需要访问那里。我们要安装整个系统。

23
00:02:46,550 --> 00:02:53,550
需要等一两分钟。 我去取杯咖啡，马上回来。

24
00:02:56,270 --> 00:02:56,780
 

25
00:02:56,780 --> 00:03:02,560
已经安装好了，让我们继续。点击完成就会启动Weka。

26
00:03:02,560 --> 00:03:06,160
在这之前还需要做一两件准备工作，我暂不打开Weka,不选取启动，然后点击完成。

27
00:03:06,160 --> 00:03:13,160
我们先找到已下载的Weka文件。 在我的电脑

28
00:03:16,200 --> 00:03:28,670
程序文件夹中。应该就在这里—Weka3.6。因为课程中会经常用到Weka,

29
00:03:28,670 --> 00:03:34,960
我们来建立一个快捷方式，并把它放在桌面上。

30
00:03:38,260 --> 00:03:44,330
还需要做一件事，打开这个文件夹，

31
00:03:44,330 --> 00:03:52,190
找到名为Data的文件夹。这个文件夹包含了很多我们要用到的数据集。

32
00:03:52,190 --> 00:03:59,190
我们来复制，粘贴这个文件夹到便捷的地方，

33
00:04:00,360 --> 00:04:15,160
到我的文档。重新命名为Weka datasets。

34
00:04:21,029 --> 00:04:33,229
准备就绪，安装了Weka，建立了快捷方式。

35
00:04:33,850 --> 00:04:41,340
我将快捷方式连到了错误的地方，它应该指向这里，需要创建一个新的快捷方式。

36
00:04:41,340 --> 00:04:54,330
在桌面上创建快捷方式。这就对了。现在，如果我点击这里，

37
00:04:54,330 --> 00:05:01,330
就会打开Weka。让我们回到幻灯片。Weka有四个界面。Explorer

38
00:05:01,900 --> 00:05:05,470
是我们这门课要用到的界面，我们只用Explorer。

39
00:05:05,470 --> 00:05:12,470
Experimenter界面是针对基于不同数据集的不同机器学习方法的

40
00:05:12,810 --> 00:05:18,240
大规模性能比较。KnowldgeFlow界面

41
00:05:18,240 --> 00:05:24,110
是Weka的图形界面。还有命令行界面。

42
00:05:24,110 --> 00:05:30,960
但我们只讲解Explorer界面。点击Explorer。

43
00:05:30,960 --> 00:05:37,960
正上方有五个不同的面板: 预处理面板，

44
00:05:42,090 --> 00:05:54,139
分类面板，你可以对数据进行分类，聚类面板，尽管我们不讲解聚类，

45
00:05:54,139 --> 00:05:59,639
这也是Weka所长之处，关联规则，属性选择和

46
00:05:59,639 --> 00:06:04,990
可视化面板。这门课中，我们只学习使用预处理面板打开文件，

47
00:06:04,990 --> 00:06:09,759
用分类面板做数据分类，用可视化面板

48
00:06:09,759 --> 00:06:16,509
来可视化数据。我要打开一个数据集。我现在打开的是

49
00:06:16,509 --> 00:06:22,210
天气数据，我们这门课常会用到小数据集。

50
00:06:22,210 --> 00:06:29,210
数据集包含14个样本，14天的天气，每天又包括

51
00:06:29,600 --> 00:06:34,580
五个属性。其中四个与天气相关:阴晴属性、温度属性、湿度属性和刮风属性。

52
00:06:34,580 --> 00:06:41,580
第五个属性，玩，是指此天气是否适宜某种游戏。

53
00:06:43,020 --> 00:06:47,940
我们需要做的是通过其他属性来预测玩游戏的可能性。

54
00:06:47,940 --> 00:06:51,729
先不必担心这点。我们来用Weka打开这个数据集。

55
00:06:51,729 --> 00:06:58,729
找到我的文档，Weka数据集，即我备份的数据。

56
00:07:00,910 --> 00:07:07,910
打开文件weather.nominal.arff。所有的Weka数据文件都是ARFF文件。

57
00:07:09,560 --> 00:07:17,460
我们之后会进一步说明。这就是天气数据。先不看这些彩色的柱状图。

58
00:07:19,990 --> 00:07:26,990
在幻灯片中，有14个样本，也就是我们在数据集中看到的14天的天气。

59
00:07:27,350 --> 00:07:33,630
每一天都对应五个属性：阴晴属性、温度属性、湿度属性、刮风属性和是否能玩游戏的属性。

60
00:07:33,630 --> 00:07:39,600
选择一个属性，如阴晴，就可以看到相应数值。

61
00:07:39,600 --> 00:07:45,970
阴晴属性的数值为晴朗、多云和有雨。

62
00:07:45,970 --> 00:07:51,470
每个数值在数据集中出现的次数为:晴天5天，多云4天，雨天3天，共14天，14个样本。

63
00:07:51,470 --> 00:07:58,470
我们来看温度属性，炎热、温和、凉爽是

64
00:07:59,479 --> 00:08:04,300
常见的数值。我们也可以看到他们在数据集中出现的次数。

65
00:08:04,300 --> 00:08:11,300
再来看是否能玩游戏的属性，只有两个数值，yes与no。

66
00:08:12,349 --> 00:08:19,349
好，我们现在来看这两个柱状图。蓝色柱状图代表yes，红色代表no。

67
00:08:21,419 --> 00:08:28,410
如果我们点击其他的属性，如阴晴属性，就可以看到

68
00:08:28,410 --> 00:08:35,410
当数值是晴朗时，3天不适宜玩游戏，2天适合玩游戏。

69
00:08:37,680 --> 00:08:43,949
当数值为多云时，4天适合玩游戏，没有不适合的情况。

70
00:08:43,949 --> 00:08:49,940
这就是属性值的柱状图，我们可以根据属性值做预测。

71
00:08:49,940 --> 00:08:56,940
数据可视化是非常有用的。我们已经在Weka中打开了

72
00:08:57,829 --> 00:09:04,829
天气数据weather.nominal.arff，看到了不同属性和它们的值。

73
00:09:08,970 --> 00:09:13,069
在结束前，还有最后一点需要说明。点击

74
00:09:13,069 --> 00:09:19,610
编辑面板，就会看到之前我们在幻灯片中看到的数据表，

75
00:09:19,610 --> 00:09:26,269
14天的样本，5个属性。这是另一种读取数据的方式。

76
00:09:26,269 --> 00:09:33,269
实际上，我可以在这里更改数值。点这里，

77
00:09:34,239 --> 00:09:41,239
可以把no变成yes。点这里，可以把雨天变成晴天。

78
00:09:46,089 --> 00:09:51,839
真希望现实生活中雨变晴也这么容易。点击

79
00:09:51,839 --> 00:09:57,980
OK，我们就得到一份更改过的数据。我们可以保存，但我没有保存。

80
00:09:57,980 --> 00:10:01,739
硬盘中的数据集还和以前一样。我不打算保存，

81
00:10:01,739 --> 00:10:05,389
你也不要保存，因为我们今后还会多次用到这组数据。

82
00:10:05,389 --> 00:10:12,389
这就是今天的所有内容。我们安装了Weka，

83
00:10:13,769 --> 00:10:20,769
找到了数据集，打开了Explorer界面，
在Weka中读取了数据weather.nominal.arff。

84
00:10:21,720 --> 00:10:26,739
我们看了数值属性和数值，编辑了数值，

85
00:10:26,739 --> 00:10:32,850
但没有保存。你可以从阅读材料中了解更多相关内容。1.2主要讲解了

86
00:10:32,850 --> 00:10:39,850
天气数据，第10章是关于Weka的更多介绍。现在你可以

87
00:10:40,569 --> 00:10:45,239
做这节课的课后练习了。祝你成功！

88
00:10:45,239 --> 00:10:52,239
下次课见！
