﻿1 
00:00:00,640 --> 00:00:04,860
大家好！我叫Ian Witten，我来自新西兰的Waikato大学。

2 
00:00:04,860 --> 00:00:07,140
今天我向你们介绍一门新的免费的在线学习课程，

3 
00:00:07,140 --> 00:00:11,190
“Weka在数据挖掘中的运用”。

4 
00:00:11,190 --> 00:00:15,849
我们被当今世界各种各样的数据包围着。

5 
00:00:15,849 --> 00:00:19,130
当我们在超市购物时，

6 
00:00:19,130 --> 00:00:23,390
当我们使用信用卡时，
当我们发邮件时，

7 
00:00:23,390 --> 00:00:28,759
当我们在键盘上敲入字符时，

8 
00:00:28,759 --> 00:00:29,949
当我们打电话，发短讯，走过监视器时，

9 
00:00:29,949 --> 00:00:35,079
都会产生数据。数据挖掘就是从这些原始数据中

10
00:00:35,079 --> 00:00:37,579
找出有用的信息，

11 
00:00:37,579 --> 00:00:41,359
以预测将来可能发生的事，

12 
00:00:41,359 --> 00:00:45,230
在现实中运用这些预测。

13 
00:00:45,230 --> 00:00:51,829
我举个例子吧，
假如你正站在超市的收银台前，

14
00:00:51,829 --> 00:00:54,850
收银机记录下了你买的每一样东西，

15
00:00:54,850 --> 00:00:59,129
然后，你出示优惠卡， 

16
00:01:02,219 --> 00:01:05,250
得到2%的折扣。

17
00:01:05,250 --> 00:01:08,800
你提供姓名，地址，各种各样的资料，

18
00:01:08,800 --> 00:01:13,860
和一些关于你的私人信息，等等。
你今天得到了实惠，

19
00:01:13,860 --> 00:01:14,940
听起来很不错。

20
00:01:14,940 --> 00:01:18,760
这得感谢商家上星期通过邮件发给你的优惠券。

21
00:01:18,760 --> 00:01:22,350
你买了些通常不会买的东西， 

22
00:01:22,350 --> 00:01:24,860
因为今天打折扣。

23
00:01:24,860 --> 00:01:29,440
下星期，商家还会发给你更多的优惠券。

24
00:01:29,440 --> 00:01:30,610
商家们收集这些

25
00:01:30,610 --> 00:01:33,730
和你类似的成千上万的人的数据，

26
00:01:33,730 --> 00:01:36,910
进行分析和小规模的实验。

27
00:01:36,910 --> 00:01:41,080
如果他们对某件商品降点价，

28
00:01:41,080 --> 00:01:45,630
试探你是否会多买点？

29
00:01:45,630 --> 00:01:49,120
那些优惠券上的价格是专为你制定的。

30
00:01:53,220 --> 00:01:56,750
看起来各方都受益。你享受了实惠，人人喜欢实惠。

31
00:01:56,750 --> 00:01:58,790
商家卖出更多的东西。这一切得归功于数据挖掘。

32
00:01:58,790 --> 00:02:02,460
这是门关于数据挖掘的开放式网络课程（MOOC）。

33
00:02:02,460 --> 00:02:06,280
现在，我来说说什么是weka？
weka其实是一种鸟。

34
00:02:06,280 --> 00:02:09,759
就象它那有名的kiwi鸟亲戚，

35
00:02:09,759 --> 00:02:14,180
仅生活在新西兰的岛屿上。不会飞，象鸭子那么大。

36
00:02:14,180 --> 00:02:18,250
不知你能否在图像上看到鸭子。

37
00:02:18,250 --> 00:02:19,359
它就和我背后湖里的鸭子一样大。

38
00:02:19,359 --> 00:02:23,090
但我们这里说的weka

39
00:02:23,090 --> 00:02:27,489
是一个用于数据挖掘的工具包。

40
00:02:27,489 --> 00:02:31,340
它是Waikato Environment for Knowledge Analysis的缩写。

41
00:02:31,340 --> 00:02:35,349
是由Waikato大学研发的。

42
00:02:35,349 --> 00:02:37,189
我们的机器学习课题已进行了20多年，

44
00:02:40,659 --> 00:02:42,170
weka就是成果之一。

45
00:02:42,170 --> 00:02:47,510
现在，越来越多的人开始重视机器学习。

46
00:02:47,510 --> 00:02:49,390
你已知道海量数据，

47
00:02:49,390 --> 00:02:52,140
你或许也知道些元数据，

48
00:02:52,140 --> 00:02:53,260
和可从元数据中提取的信息。

49
00:02:53,260 --> 00:02:56,840
许多人认为数据挖掘很神秘。

50
00:02:56,840 --> 00:03:00,109
这门课向你揭开其神秘面纱。

51
00:03:00,109 --> 00:03:03,819
你将用weka工具和我们提供的数据集

52
00:03:03,819 --> 00:03:07,170
学到一些实用的数据挖掘方法。

53
00:03:07,170 --> 00:03:10,469
这样，你将来可将weka运用到你自己的数据集

54
00:03:10,469 --> 00:03:14,200
和数据挖掘问题中。

55
00:03:14,200 --> 00:03:17,790
这门课不涉及编程。

56
00:03:17,790 --> 00:03:19,519
你将学习如何使用weka。

57
00:03:19,519 --> 00:03:23,090
知道些统计的基础知识，

58
00:03:23,090 --> 00:03:27,700
象平均值，差异，标准差，等会有些帮助。

59
00:03:27,700 --> 00:03:31,950
有可能你会遇到些数学公式。但我会解释他们，所以不用担心。

60
00:03:31,950 --> 00:03:35,209
你不需要具备特别的数学知识。

61
00:03:35,209 --> 00:03:41,500
这门课将提供些象这个一样的5-10分钟的视频。

62
00:03:41,500 --> 00:03:45,480
每个视频后有个练习。

63
00:03:45,480 --> 00:03:47,870
你将用安装在你计算机上的weka来完成。

64
00:03:47,870 --> 00:03:50,959
weka是免费的开源软件。

65
00:03:50,959 --> 00:03:54,959
它可在任何操作系统上运行--Windows，Mac，和Linux。

66
00:03:54,959 --> 00:03:59,280
每个练习后可能还会有一段5-10分钟的视频。

67
00:03:59,280 --> 00:04:03,169
我们把这些叫做一节课。

68
00:04:03,169 --> 00:04:06,489
一节课大概要15-20分钟

69
00:04:06,489 --> 00:04:11,829
每段有6节课，总共有6段。

70
00:04:11,829 --> 00:04:15,209
我们希望你每星期能完成一段。

71
00:04:15,209 --> 00:04:18,669
这大约是每星期3小时的工作量。

72
00:04:18,669 --> 00:04:22,090
一共持续5个星期。学习这门课，

73
00:04:22,090 --> 00:04:26,110
你需要一台电脑，能上网（所有的视频在优酷上）。

74
00:04:26,110 --> 00:04:28,479
你需要时间，

75
00:04:28,479 --> 00:04:32,229
你需要个Google的帐户，

76
00:04:32,229 --> 00:04:35,949
你需要动机和兴趣

77
00:04:35,949 --> 00:04:37,729
这门课使用的教科书叫

78
00:04:37,729 --> 00:04:41,360
“数据挖掘”

79
00:04:41,360 --> 00:04:44,620
这是一本非常好的关于数据挖掘的书。

80
00:04:44,620 --> 00:04:47,960
我知道它非常好，因为这是我和我的朋友们写的。

81
00:04:47,960 --> 00:04:52,320
这本书的出版商Morgan Kaufmann

82
00:04:52,320 --> 00:04:56,650
非常慷慨地允许在线阅读大部分章节。

83
00:04:56,650 --> 00:05:00,159
为了拿到结业证书，

84
00:05:00,159 --> 00:05:04,139
你必须完成一个期中和一个期末的测试。

85
00:05:04,139 --> 00:05:07,860
如果你取得令人满意的成绩，

86
00:05:07,860 --> 00:05:09,020
你将获得

87
00:05:09,020 --> 00:05:12,520
由Waikto大学颁发的结业证书。

88
00:05:12,520 --> 00:05:15,919
“Weka在数据挖掘中的运用”的开放式网络课程即将开学，

89
00:05:15,919 --> 00:05:19,599
期待您的加入。

90
00:05:19,599 --> 00:05:26,599
再见。

