正交变换与数据保密(听吴尚武老师报告的感想)


线性回归模型回归系数估计表达式(矩阵形式):

\[B = (X'X)^{-1}(X'Y)\]

如果我们把X和Y同时左乘一个正交矩阵A(A’A=E),得到:

\[((AX)'(AX))^{-1}((AX)'(AY))=(X'A'AX)^{-1}(X'A'AY)\] \[= (X'EX)^{-1}(X'EY) = (X'X)^{-1}(X'Y) = B\]

等式结果意味着,将原始数据经过正交变换后,估计结果没有发生变化。

以上结论有什么意义呢?统计调查人员在调查数据时候,因为隐私或其他原因,被调查者可能不愿意把真实数据告诉调查人员。他们害怕调查人员可能把这些数据用于非法的目的,他们的担心不是多余的。虽然调查人员的承诺与职业道德有助于保证调查数据的保密性,但是有必要设计一种大家都认同的办法来确保数据不会被泄露。

而数据的正交变换(或其他,依问题性质而定)为设计这种机制提供了一种方法。我们知道,其实原始的信息并不是统计分析人员所关心的,他们所关心的是隐藏在这些原始数据背后的某些关系。在统计中,我们把这些所谓的关系称之为统计量。举个例子,我们想要获取某学校学生身高与体重的关系,其实每个学生的具体身高和体重并不是我们所关心的(我们也不考虑求平均身高和体重这类问题),我们所关心的是身高体重之间的关系。如果我们用线性回归模型来描述这种关系的话,

\[y_{i} = b_{1} + b_{2} \times x_{i}\]

说白了,统计人员就是想知道 $ b_{1} $ , $ b_{2} $ 这两个参数值。而估计这两个参数值就是依靠这个统计量:

\[B = (X'X)^{-1}(X'Y)\]

文章最前面的推导告诉我们,如果把X,Y都左乘一个正交矩阵,以上参数估计值不会变化。也就是说,我们不须知道真正的身高和体重数据,如果我们知道的是把这些数据左乘正交矩阵的结果,我们利用这些结果也可以求出参数估计值,也就是得到身高和体重的关系。

比如,大家信赖的某机构设计了一个正交矩阵A,并颁发给统计人员,但统计人员并不知道A真正的值。统计人员在向被调查者调查数据时,从被调查者反馈的每条记录都会自动左乘A。也就是说,统计人员得到的并不是原始的身高体重数据,而是经过转换后的数据。但是因为统计人员所关心的统计量仍然可以计算出来,所以这种设计仍然满足了统计人员的要求。与此同时,被调查者也不用担心自己的数据被窃取了,因为最终给分析人员的数据并不是原始私人信息。

一个简单的例子,代码在此,结果如下图,右图是转换后的数据并估计得到的回归直线线,该直线和未经转换(左图)直接得到的回归直线相同。


上篇: 如何将googleVis结果嵌入网页中 下篇: 如何为散点图添加一个强调的标志