1
00:00:16,160 --> 00:00:19,950
大家好！欢迎来到数据挖掘与Weka第5.3节！

2
00:00:19,950 --> 00:00:23,369
在我们开始前，我想给大家看一下我住的地方。

3
00:00:23,369 --> 00:00:28,669
我告诉过你，我许多年前搬到了新西兰。

4
00:00:28,669 --> 00:00:29,939
我住在一个叫做哈密尔顿的城市。

5
00:00:29,939 --> 00:00:35,220
让我们放大地图，看是否能看到新西兰北岛

6
00:00:35,220 --> 00:00:37,670
中心的的哈密尔顿。

7
00:00:37,670 --> 00:00:44,030
这就是坏卡托大学。

8
00:00:44,030 --> 00:00:47,660
这是大学，这是我的家。

9
00:00:47,660 --> 00:00:52,160
这是上班的路线：我每天早上骑车穿过乡野。

10
00:00:52,160 --> 00:00:53,930
就像你看到的那样，这真是美好啊。

11
00:00:53,930 --> 00:00:55,390
我住在市郊这里。

12
00:00:55,390 --> 00:01:02,390
我是一个牧羊人！我有四只羊，三只在小围场里，一只在冰箱里。

13
00:01:02,500 --> 00:01:05,780
我骑车（花半个小时）到大学。

14
00:01:05,780 --> 00:01:11,970
我周周都不见到交通信号灯，

15
00:01:11,970 --> 00:01:16,090
因为我住在和大学一个方向的城镇的边缘。

16
00:01:16,090 --> 00:01:21,500
当我到达坏卡托大学校园，那真是一个非常美丽的校园。

17
00:01:21,500 --> 00:01:23,060
我们有三个湖。

18
00:01:23,060 --> 00:01:27,349
那里有两个湖，另一个湖在这儿。

19
00:01:27,349 --> 00:01:32,330
这真是一个工作的好地方！所以，我在这儿很开心。

20
00:01:32,330 --> 00:01:39,330
让我们回到主题：数据发掘中的道德规范。

21
00:01:39,530 --> 00:01:46,530
在欧洲，有很多关于保护隐私权的严格的法律。

22
00:01:47,000 --> 00:01:51,450
例如，如果你收集任何有关于某人的个人信息，

23
00:01:51,450 --> 00:01:52,860
必须声明你的目的。

24
00:01:52,860 --> 00:01:57,750
不经过同意，信息不应该对别人公开。

25
00:01:57,750 --> 00:02:01,390
个人信息的记录必须准确和即时。

26
00:02:01,390 --> 00:02:03,920
人们应该可以评审关于他们的数据。

27
00:02:03,920 --> 00:02:08,110
当不再需要时，数据应该被删除。

28
00:02:08,110 --> 00:02:12,690
个人信息不允许被传送到其他地方。

29
00:02:12,690 --> 00:02:17,390
有的数据因太敏感而不能收集，除非是特殊情况。

30
00:02:17,390 --> 00:02:20,489
这是欧洲的现状，特别是斯堪的纳维亚（半岛）。

31
00:02:20,489 --> 00:02:24,230
当然，在美国不是这样的。

32
00:02:24,230 --> 00:02:29,750
数据挖掘是收集和使用记录的信息，

33
00:02:29,750 --> 00:02:32,600
知道这些道德问题是很有必要的。

34
00:02:32,600 --> 00:02:39,000
人们通常匿名化数据，以便安全地分发给其他人使用，

35
00:02:39,000 --> 00:02:42,790
但是，匿名化比你认为的更难。

36
00:02:42,790 --> 00:02:44,760
可以给你讲一个小故事。

37
00:02:44,760 --> 00:02:49,500
90年代中期，当马萨诸塞州发布公务员的医疗记录总结时，

38
00:02:49,500 --> 00:02:54,780
州长向公众保证它是匿名的，已移除了所有的识别信息

39
00:02:54,780 --> 00:02:59,950
（名字，地址和社会安全号码）。

40
00:02:59,950 --> 00:03:06,040
之后不久，他惊讶地收到的自己的健康记录（包括很多私人信息）

41
00:03:06,040 --> 00:03:11,040
的邮件！人们还可以从剩余的信息中

42
00:03:11,040 --> 00:03:13,490
再次被识别出。

43
00:03:13,490 --> 00:03:18,220
有相当多的关于再识别技术的研究。

44
00:03:18,220 --> 00:03:24,370
例如，利用在互联网上的公开记录，50%的美国人

45
00:03:24,370 --> 00:03:28,010
可以从他们的城市，出生日期，性别识别出来。

46
00:03:28,010 --> 00:03:34,470
如果你还有他们的邮政编码，85%的人可以被识别出来。

47
00:03:34,470 --> 00:03:40,140
有人用电影数据库做了一些有趣的研究。

48
00:03:40,140 --> 00:03:47,140
Netflix发布了有一亿个电影评级记录的数据库。

49
00:03:47,290 --> 00:03:51,810
他们让每个人把电影分级（1到5级），有一大堆人

50
00:03:51,810 --> 00:03:56,100
来做这件事情——总共一亿个电影评级记录。

51
00:03:56,100 --> 00:04:02,060
结果是，你可以识别出数据库中99%的人，如果你知道他们

52
00:04:02,060 --> 00:04:06,420
对6部电影的评级结果和他们看电影的大致时间。

53
00:04:06,420 --> 00:04:11,650
即使你仅仅知道他们对2部电影的评级结果，你也可以识别出70%的人。

54
00:04:11,650 --> 00:04:16,349
这就是说，你可以利用数据库找出这些人看过的其他电影。

55
00:04:16,349 --> 00:04:19,300
他们也许不想让你知道。

56
00:04:19,300 --> 00:04:25,500
再识别是非常强大的，在不破坏整个数据集的

57
00:04:25,500 --> 00:04:30,660
数据挖掘的价值的前提下，进行匿名化是

58
00:04:30,660 --> 00:04:33,310
很困难的。

59
00:04:33,310 --> 00:04:37,540
当然，数据挖掘的目的是辨别：这就是我们努力做的！

60
00:04:37,540 --> 00:04:42,070
我们想知道能把一类数据从另一类辨别出来的规则（谁

61
00:04:42,070 --> 00:04:48,000
获得贷款）？谁得到一个特价？但是，当然，有一些辨别

62
00:04:48,000 --> 00:04:50,720
是不道德的，甚至是违法的。

63
00:04:50,720 --> 00:04:56,570
例如，种族，性别，信仰识别肯定是不道德的，

64
00:04:56,570 --> 00:04:59,550
在许多地方是违法的。

65
00:04:59,550 --> 00:05:01,910
但是，这取决于辨别的内容。

66
00:05:01,910 --> 00:05:06,500
性别辨别经常是违法的......除了对医生以外。

67
00:05:06,500 --> 00:05:11,350
医生在诊断时，会考虑（患者的）性别。

68
00:05:11,350 --> 00:05:16,400
比如，他们不想告诉一个男人，他怀孕了。

69
00:05:16,400 --> 00:05:20,010
同样，看上去无害的信息，可能并不是那样。

70
00:05:20,010 --> 00:05:26,880
例如，地区代码（美国的邮政编码）和种族有很强关联；

71
00:05:26,880 --> 00:05:29,100
某些组织的会籍和性别相关。

72
00:05:29,100 --> 00:05:34,260
所以你也许已经从你的数据库删除了明确的种族和性别信息，

73
00:05:34,260 --> 00:05:37,880
还是可以从其他的信息推断出来种族和性别。

74
00:05:37,880 --> 00:05:48,550
数据处理是非常困难的：它用意想不到的方式揭示自己的秘密。

75
00:05:48,550 --> 00:05:55,550
一个和数据挖掘有关的道德问题是相关性并不意味着因果关系。

76
00:05:56,610 --> 00:06:02,169
这是一个经典的例子：冰淇淋的销售与溺水率同时增长。

77
00:06:02,169 --> 00:06:06,970
是否可以说，冰淇淋的消费导致溺水？应该不能。

78
00:06:06,970 --> 00:06:12,320
它们大概都是由高温引起的，人们去海滩。

79
00:06:12,320 --> 00:06:17,800
数据挖掘显示出的是简单的相关性，不是因果关系。

80
00:06:17,800 --> 00:06:20,010
其实，我们想要因果关系。

81
00:06:20,010 --> 00:06:25,550
我们希望能够预测我们行为的影响，但我们

82
00:06:25,550 --> 00:06:27,919
利用数据挖掘技术得到的只是相关性。

83
00:06:27,919 --> 00:06:34,919
要了解原因，你需要更深层次的模型。

84
00:06:36,340 --> 00:06:40,150
我只是想提醒你一些问题，一些数据挖掘中的道德问题，

85
00:06:40,150 --> 00:06:46,790
在你离开之前，在你把课程中学到的知识应用到自己的数据集之前：

86
00:06:46,790 --> 00:06:51,270
关于个人信息的隐私问题；事实上，匿名是比你想象的困难；

87
00:06:51,270 --> 00:06:57,650
从已匿名的数据重新识别出个体比你想象的容易；

88
00:06:57,650 --> 00:07:03,699
数据挖掘和辨别（这毕竟是关于辨别）；

89
00:07:03,699 --> 00:07:08,250
相关性并不意味着因果关系的事实。

90
00:07:08,250 --> 00:07:13,729
课本里有一节，数据挖掘中的道德，你可以从中了解到

91
00:07:13,729 --> 00:07:18,030
更多的背景知识。你现在应该去完成

92
00:07:18,030 --> 00:07:20,190
本课课后的小练习。

93
00:07:20,190 --> 00:07:23,900
下节课将是我们的最后一节课，下次见。

94
00:07:23,900 --> 00:07:26,500
再见！