地址:北京市密云區(qū)高嶺鎮(zhèn)政府辦公樓
王經(jīng)理 13393261468
Q Q:514468705/1049705527
郵箱:[email protected]
毫無(wú)疑問(wèn),,作為技術(shù)概念的"大數(shù)據(jù)"擁有光明的前途,,它是人工智能的基石,,是未來(lái)世界的"石油",。但作為生意的"大數(shù)據(jù)",,在中國(guó)正走到一個(gè)關(guān)鍵的轉(zhuǎn)折點(diǎn),。
從業(yè)者都很焦慮,。對(duì)大眾來(lái)說(shuō),,2019年3月以來(lái),,圍繞著"大數(shù)據(jù)"而密集發(fā)生的丑聞似乎是一種監(jiān)管加緊的信號(hào)——前有"315"晚會(huì)上集中曝光的大數(shù)據(jù)黑色產(chǎn)業(yè)鏈,后有號(hào)稱(chēng)擁有8億國(guó)人真實(shí)信息的"大數(shù)據(jù)公司"——巧達(dá)科技被查,。但對(duì)于一向嗅覺(jué)靈敏的中國(guó)大數(shù)據(jù)行業(yè)的從業(yè)者們來(lái)說(shuō),,這并不突然。
從2017年底開(kāi)始,,中央網(wǎng)信辦,、工信部、公安部和國(guó)家標(biāo)準(zhǔn)委等部門(mén)就開(kāi)始密集合作,,針對(duì)國(guó)內(nèi)大數(shù)據(jù)行業(yè)野蠻生長(zhǎng)中的各種亂象展開(kāi)各種行動(dòng),。進(jìn)入2018年,相關(guān)工作組先后多次對(duì)微信和淘寶等"國(guó)民級(jí)"應(yīng)用進(jìn)行隱私保護(hù)評(píng)估,,提出整改意見(jiàn),。同時(shí),重點(diǎn)垂直行業(yè)和地方監(jiān)管機(jī)構(gòu)也明顯提高了約談?lì)l率,。2019年2月,,銀監(jiān)會(huì)和保監(jiān)會(huì)約談銀行高管,談及app收集信息的問(wèn)題,;上海網(wǎng)信辦連續(xù)約談?shì)爡^(qū)內(nèi)應(yīng)用程序,,而北京市公安部門(mén)也在"凈網(wǎng)2019"行動(dòng)中將"非法爬取數(shù)據(jù)"作為整治重點(diǎn)。
2019年1月,,中央網(wǎng)信辦,、工信部和公安部牽頭的多個(gè)機(jī)構(gòu)開(kāi)始對(duì)違規(guī)收集數(shù)據(jù)信息進(jìn)行專(zhuān)項(xiàng)治理,,被業(yè)內(nèi)形容為"史上力度最大"的治理行動(dòng)。此后,,相關(guān)部門(mén)還著手制定"大眾化應(yīng)用基本業(yè)務(wù)功能及必要信息規(guī)范",,3月,工作組更直接在微信上開(kāi)通公眾號(hào)"App 個(gè)人信息舉報(bào)",,直接接受用戶(hù)的侵權(quán)舉報(bào),,并在4月就對(duì)30多款應(yīng)用提出整改要求。
在PingWest品玩與近10名來(lái)自大型互聯(lián)網(wǎng)公司數(shù)據(jù)部門(mén)以及"大數(shù)據(jù)公司"的從業(yè)者的接觸中,,他們普遍認(rèn)為,,315晚會(huì)"抓典型"和"巧達(dá)數(shù)據(jù)"被整治,更像是一系列行動(dòng)的結(jié)果,,而非開(kāi)始,。
"其實(shí)能感受到所有的環(huán)境都跟兩年前不同了,美國(guó)有Facebook出的事,,歐洲又有GDPR(《通用數(shù)據(jù)保護(hù)條例》(General Data Protection Regulation,,簡(jiǎn)稱(chēng)GDPR,為歐盟條例——PingWest品玩注),,以前覺(jué)得這都不影響我們國(guó)內(nèi)的業(yè)務(wù),,但去年以來(lái)一扭頭卻發(fā)現(xiàn),國(guó)內(nèi)管得也更嚴(yán)了,。"一家總部在杭州的電商公司相關(guān)數(shù)據(jù)算法部門(mén)的團(tuán)隊(duì)高層對(duì)PingWest品玩說(shuō),。
然而,無(wú)比焦慮的從業(yè)者們似乎仍然沒(méi)有意識(shí)到,,監(jiān)管層面的變化背后,,本質(zhì)還是國(guó)內(nèi)廣大用戶(hù)們數(shù)據(jù)隱私意識(shí)的覺(jué)醒。
"我們最近的政策法規(guī)研究以及行動(dòng)的節(jié)奏很大程度是受到大眾對(duì)隱私保護(hù)的意識(shí)覺(jué)醒的影響,。"一名接近公安第三研究所網(wǎng)絡(luò)安全法律研究中心的人士對(duì)PingWest品玩透露,。他們正參與到多部委聯(lián)合推進(jìn)的個(gè)人信息保護(hù)法律法規(guī)研究中。3月上線的"App 個(gè)人信息舉報(bào)"微信公號(hào)投訴平臺(tái),,某種意義上就是在幫助法規(guī)制定者們更直接的感受大眾的態(tài)度,。新華社的一篇報(bào)道介紹這個(gè)公眾號(hào)處理投訴的方式:"對(duì)于用戶(hù)實(shí)名舉報(bào)的信息,工作組逐一與舉報(bào)人溝通,。"
很明顯,,在監(jiān)管者以及廣大用戶(hù)看來(lái),"大數(shù)據(jù)"在中國(guó)作為一門(mén)生意,,如今在各個(gè)環(huán)節(jié)都已出現(xiàn)必須糾正的問(wèn)題。
誰(shuí)的數(shù)據(jù),,被誰(shuí)拿走了,?
2018年4月23日晚,,北京市公安部門(mén)公布了此前"巧達(dá)數(shù)據(jù)"被查案件的細(xì)節(jié)。這也與PingWest品玩與多位從業(yè)者探討時(shí)的判斷接近:一家被巧達(dá)數(shù)據(jù)爬取過(guò)簡(jiǎn)歷數(shù)據(jù)的公司,,向公安舉報(bào)了巧達(dá),。之后北京警方在數(shù)個(gè)月的調(diào)查取證后,將其作為"凈網(wǎng)2019"行動(dòng)中的典型,,予以處理并拘捕了公司實(shí)際控制人,。
根據(jù)警方通報(bào):"嫌疑人通過(guò)利用大量代理IP地址、偽造設(shè)備標(biāo)識(shí)等技術(shù)手段,,繞過(guò)該公司服務(wù)器防護(hù)策略,,大量竊取存放在服務(wù)器上的用戶(hù)數(shù)據(jù)…… 經(jīng)初步查明,巧達(dá)科技公司采用技術(shù)手段在未經(jīng)授權(quán)的情況下,,惡意竊取上述報(bào)案公司的用戶(hù)數(shù)據(jù),,并將其用于自身經(jīng)營(yíng)。"
也就是說(shuō),,巧達(dá)的問(wèn)題首先出在其過(guò)激的"爬蟲(chóng)"行為上,。
"爬蟲(chóng)"指的是開(kāi)發(fā)者設(shè)計(jì)一套程式讓它按照一定規(guī)則,自動(dòng)抓取互聯(lián)網(wǎng)上的海量信息,。一位曾在巧達(dá)數(shù)據(jù)短暫工作的員工對(duì)PingWest品玩表示,,他們的團(tuán)隊(duì)有不少來(lái)自主流招聘平臺(tái)的員工,他們往往對(duì)前公司的系統(tǒng)比較熟悉,,能夠更高效地爬取平臺(tái)上的簡(jiǎn)歷,,在反爬蟲(chóng)措施出現(xiàn)之前完成足夠多的抓取。據(jù)他介紹,,這種爬取招聘網(wǎng)站簡(jiǎn)歷的方式,,在所謂的"簡(jiǎn)歷大數(shù)據(jù)"公司是一種常態(tài)。
與巧達(dá)數(shù)據(jù)收集數(shù)據(jù)方式相似的還有許多,,比如總部位于上海的e成數(shù)據(jù),。e成數(shù)據(jù)的員工對(duì)PingWest品玩透露:這家公司的數(shù)據(jù)來(lái)自獵聘和智聯(lián)招聘等網(wǎng)站爬取,其官方網(wǎng)站聲稱(chēng)"積累了1.3億份有效簡(jiǎn)歷",。今年3月,,e成再次獲得C輪8000萬(wàn)人民幣的融資。
總部在武漢的"簡(jiǎn)尋",,同樣主打爬取公開(kāi)簡(jiǎn)歷的生意,,其官網(wǎng)顯示"產(chǎn)品可通過(guò)自然語(yǔ)義處理的技術(shù)爬取簡(jiǎn)歷",實(shí)質(zhì)也是通過(guò)爬蟲(chóng)技術(shù)爬取幾家主要的招聘網(wǎng)站,,這家公司在去年完成千萬(wàn)級(jí)A輪融資,。
此外從事類(lèi)似生意的創(chuàng)業(yè)公司還有很多,多數(shù)處于天使輪階段,。
"從這個(gè)角度看,,巧達(dá)數(shù)據(jù)像是被當(dāng)作典型給抓了,。或者也是因?yàn)樗龅奶罅恕?quot;上述員工說(shuō),。
此外,,雖然此次的公告中沒(méi)有提及,但據(jù)PingWest品玩了解,,巧達(dá)數(shù)據(jù)還涉及購(gòu)買(mǎi)"非法獲取的數(shù)據(jù)"的問(wèn)題,。上述員工對(duì)PingWest品玩透露:他多次參與過(guò)團(tuán)隊(duì)在一些業(yè)務(wù)領(lǐng)域的競(jìng)標(biāo)活動(dòng),也就是多家"大數(shù)據(jù)公司"競(jìng)爭(zhēng)同一個(gè)服務(wù)客戶(hù),,嘗試為其提供數(shù)據(jù)分析等服務(wù),。而在競(jìng)標(biāo)前,他們往往會(huì)密集從黑市上買(mǎi)進(jìn)大批數(shù)據(jù),。
"巧達(dá)自己有許多接口能拿到簡(jiǎn)歷,,并不會(huì)將大部分精力放到撞庫(kù)等做法上。但那些數(shù)據(jù)中介可就不是了,,他們每天就是撞庫(kù),,什么數(shù)據(jù)都有。"
"撞庫(kù)"指的是利用已經(jīng)泄露的用戶(hù)信息,,去嘗試批量破解用戶(hù)在其他網(wǎng)站上的賬號(hào),。據(jù)巧達(dá)離職員工介紹,在特定的招標(biāo)前,,他們會(huì)購(gòu)買(mǎi)與此次競(jìng)標(biāo)貼合的特定類(lèi)型的數(shù)據(jù),,用于提供更多維度的交叉驗(yàn)證,讓自己的數(shù)據(jù)能力在競(jìng)標(biāo)時(shí)看起來(lái)更強(qiáng),。
根據(jù)多家媒體此前的報(bào)道,,這類(lèi)提供敏感數(shù)據(jù)的"數(shù)據(jù)掮客"大量活躍在暗網(wǎng)中,鏈條大致是"黑客通過(guò)攻擊獲取數(shù)據(jù),,之后在暗網(wǎng)賣(mài)給一些數(shù)據(jù)中介,,數(shù)據(jù)中介再轉(zhuǎn)手多次,賣(mài)到那些需要這些數(shù)據(jù)進(jìn)行精準(zhǔn)營(yíng)銷(xiāo)的公司手里,。"一位從事數(shù)據(jù)埋點(diǎn)的工程人員表示,。
"所以,當(dāng)你看到最后這些公司花了多少錢(qián)買(mǎi)來(lái)這些高度隱私的真實(shí)數(shù)據(jù)時(shí),,其實(shí)價(jià)格已經(jīng)翻了幾倍,,而且這些數(shù)據(jù)只是露出水面的冰山一角,下面藏著的被獲取和交易的數(shù)據(jù),,隱私和敏感度還要更高,。"
這種生意隨著"精準(zhǔn)營(yíng)銷(xiāo)"和"個(gè)性推送"的走紅而需求大增,一些"明星公司"也開(kāi)始做起類(lèi)似的生意。最典型的當(dāng)屬新三板上市的數(shù)據(jù)公司"數(shù)據(jù)堂",。
2018年7月,,新華社報(bào)道,山東省破獲的"特大侵犯公民個(gè)人信息案"中,,數(shù)據(jù)堂"在8個(gè)月時(shí)間內(nèi),日均傳輸公民個(gè)人信息1億3000萬(wàn)余條,,累計(jì)傳輸數(shù)據(jù)壓縮后約為4000G",,這些數(shù)據(jù)包括手機(jī)號(hào)碼、上網(wǎng)基站代碼等40余項(xiàng)信息要素,,"記錄手機(jī)用戶(hù)具體的上網(wǎng)行為,,甚至部分?jǐn)?shù)據(jù)能夠直接進(jìn)入公民個(gè)人賬號(hào)主頁(yè)"。 而將這些數(shù)據(jù)以產(chǎn)品的形式出售,,是數(shù)據(jù)堂這類(lèi)"大數(shù)據(jù)公司"的重要業(yè)務(wù)形式和收入來(lái)源,。
據(jù)上述巧達(dá)員工透露,巧達(dá)數(shù)據(jù)自己其實(shí)也在扮演著"數(shù)據(jù)中介"的角色,,其CEO曾高調(diào)地表示:"簡(jiǎn)歷是最有價(jià)值的自然人數(shù)據(jù),。巧達(dá)數(shù)據(jù)通過(guò)大數(shù)據(jù)及人工智能技術(shù)研發(fā)的認(rèn)知引擎,能夠快速還原網(wǎng)上自然人的清晰畫(huà)像,。"本質(zhì)上這部分生意就是在販賣(mài)"真實(shí)數(shù)據(jù)",,這與大部分的"數(shù)據(jù)中介"所從事的地下業(yè)務(wù)十分相似。
隨著大數(shù)據(jù)概念的興起,,中國(guó)誕生了一大批自稱(chēng)為大數(shù)據(jù)公司的初創(chuàng)企業(yè),,它們?yōu)槟切┎痪邆鋽?shù)據(jù)采集、分析能力的大量的中小互聯(lián)網(wǎng)企業(yè)提供數(shù)據(jù)服務(wù),,并借此積累起自己的數(shù)據(jù),。這種長(zhǎng)尾效應(yīng)讓他們的數(shù)據(jù)庫(kù)也十分可觀,他們往往像巧達(dá)數(shù)據(jù)一樣,,一邊會(huì)從其他渠道購(gòu)買(mǎi)數(shù)據(jù),,一邊也會(huì)以同樣方式銷(xiāo)售自己收集來(lái)的數(shù)據(jù)。這些大數(shù)據(jù)公司和以BAT為代表的本身?yè)碛泻A坑脩?hù)數(shù)據(jù)的公司一同,,成為數(shù)據(jù)最主要的歸處,。
而據(jù)PingWest品玩接觸的包括百分點(diǎn)和同盾等在近幾年高調(diào)地將自己定義為"大數(shù)據(jù)公司"的數(shù)名現(xiàn)員工以及前員工證實(shí),他們普遍都購(gòu)入過(guò)來(lái)自"黑市"的數(shù)據(jù),,且多發(fā)生在一些競(jìng)標(biāo)之前,。
這種事實(shí)上違法的獲取方式,在這些大數(shù)據(jù)公司的PPT中,,搖身一變以"外部購(gòu)買(mǎi)"的名義曖昧呈現(xiàn),。"其實(shí)業(yè)內(nèi)的人都知道這是什么意思,你能從哪買(mǎi)啊,最大的數(shù)據(jù)要么就在BAT手里,,人家沒(méi)必要賣(mài)給你賺這點(diǎn)錢(qián),,要么在政府手里,不會(huì)賣(mài)給你,。你能買(mǎi)到的有用的數(shù)據(jù),,就只有那些渠道。"
對(duì)此,,同盾科技對(duì)PingWest品玩表示,,同盾的"合法合規(guī)始終貫穿于全業(yè)務(wù)流程??蛻?hù)向同盾提交的涉及用戶(hù)個(gè)人信息的分析服務(wù)需求,、數(shù)據(jù)收集、使用等均經(jīng)最終用戶(hù)授權(quán)(未經(jīng)授權(quán)的同盾一律拒絕等),,后經(jīng)同盾在云端分析后向客戶(hù)反饋分析結(jié)果,,主要是返回一個(gè)概率的分值,及一些通過(guò)脫敏的標(biāo)簽,。"
這背后的數(shù)據(jù)歸屬明顯存在嚴(yán)重問(wèn)題,。黑產(chǎn)市場(chǎng)的數(shù)據(jù)掮客,一向是警方嚴(yán)打的對(duì)象,,他們?cè)诜欠ㄊ圪u(mài)公民個(gè)人信息上的犯罪事實(shí)比較明顯,,尤其在《網(wǎng)絡(luò)安全法》發(fā)布并實(shí)施之后,整治和懲罰都更加嚴(yán)格,。與此同時(shí),,通過(guò)爬蟲(chóng)進(jìn)行數(shù)據(jù)爬取的行為,在近些年也在產(chǎn)生越來(lái)越多的糾紛,,監(jiān)管者也在處理過(guò)程中逐漸建立應(yīng)對(duì)的邏輯,。
2015年,新浪微博將職場(chǎng)社交app脈脈告上法庭,,指責(zé)后者在合作協(xié)議之外爬取了大量微博平臺(tái)上用戶(hù)數(shù)據(jù),,并在合作終止后拒絕刪除數(shù)據(jù)。案件經(jīng)過(guò)近兩年審理后,,在2017年初終審判決,,脈脈被判"不正當(dāng)競(jìng)爭(zhēng)"。這起案件被許多律師視作標(biāo)桿性的判罰,。其中明確的爬取其他平臺(tái)用戶(hù)數(shù)據(jù)時(shí)的"三原則",,在之后貫穿于國(guó)內(nèi)的各類(lèi)判罰中——當(dāng)兩個(gè)平臺(tái)希望就數(shù)據(jù)進(jìn)行分享合作時(shí),數(shù)據(jù)提供方應(yīng)首先取得自己用戶(hù)的同意,,之后當(dāng)數(shù)據(jù)獲取方收集數(shù)據(jù)時(shí),,應(yīng)獲得數(shù)據(jù)提供分的授權(quán),,并且還需要再次告知用戶(hù),并再次獲得他們的授權(quán),。也就是"用戶(hù)授權(quán)+平臺(tái)授權(quán)+用戶(hù)再授權(quán)"三原則,。
在這種邏輯下,2017年大眾點(diǎn)評(píng)起訴百度爬取其網(wǎng)站數(shù)據(jù)的案子中,,百度敗訴,;2019年3月,天津市濱海新區(qū)人民法院就微信起訴抖音擅自獲取微信用戶(hù)數(shù)據(jù)一案,,給出一份臨時(shí)禁令,,要求抖音停止將微信/QQ開(kāi)放平臺(tái)授權(quán)登錄服務(wù)提供給多閃,停用此前獲得的微信用戶(hù)頭像和昵稱(chēng)等,。而今日頭條對(duì)PingWest品玩表示,"此案目前沒(méi)正式進(jìn)入實(shí)體審理,,并沒(méi)有判決,。"
盡管沒(méi)有直接對(duì)爬蟲(chóng)行為進(jìn)行約束的法律法規(guī),但在這些案例中,,最常用到的法規(guī)包括《反不正當(dāng)競(jìng)爭(zhēng)法》中,,第十二條第二款規(guī)定的"經(jīng)營(yíng)者不得利用技術(shù)手段……破壞其他經(jīng)營(yíng)者合法提供的網(wǎng)絡(luò)產(chǎn)品或服務(wù)正常運(yùn)行的行為"。而涉及刑事犯罪時(shí),,往往觸犯了《刑法》第285條規(guī)定的"非法入侵計(jì)算機(jī)系統(tǒng)"罪,。
爬蟲(chóng)的問(wèn)題在美國(guó)互聯(lián)網(wǎng)界也屢屢成為爭(zhēng)議的焦點(diǎn),其中《1986年計(jì)算機(jī)欺詐與濫用法》(CFAA)是經(jīng)常被援引的條款,。CFAA規(guī)定,,未經(jīng)授權(quán)及超過(guò)授權(quán)故意訪問(wèn)計(jì)算機(jī),并從有保護(hù)的計(jì)算機(jī)獲取信息,,都構(gòu)成犯罪,。嚴(yán)重者甚至可能是刑事犯罪。
不過(guò),,2017年著名的"hiQ VS Linkedin" 的判決,,卻顯示出與國(guó)內(nèi)大部分判決不同的思路。Linkedin指責(zé)創(chuàng)業(yè)公司hiQ爬取其網(wǎng)站數(shù)據(jù)時(shí)違法其使用條款,,但hiQ認(rèn)為其爬取的都是公開(kāi)數(shù)據(jù),。最終加州法院"站"在了爬蟲(chóng)方一邊,認(rèn)為L(zhǎng)inkedin被爬取的數(shù)據(jù)都是網(wǎng)站上的"公開(kāi)數(shù)據(jù)",,且單靠Linkedin單方面的條款和事后發(fā)出的警告,,都不足以觸發(fā)《計(jì)算機(jī)欺詐與濫用法》,反而是LinkedIn有利用市場(chǎng)領(lǐng)先地位不正當(dāng)競(jìng)爭(zhēng)的嫌疑,法院要求它解除對(duì)hiQ爬蟲(chóng)設(shè)置的臨時(shí)禁令和IP封鎖,。
研究個(gè)人信息數(shù)據(jù)保護(hù)的公眾號(hào)"Martin的讀書(shū)筆記"在分析這些爬蟲(chóng)判例時(shí)認(rèn)為:美國(guó)對(duì)爬蟲(chóng)"正在慢慢突破合同法思維和CFAA的限制,,開(kāi)始更多考量公共利益的優(yōu)先性,。"
但仔細(xì)觀察這些案例會(huì)發(fā)現(xiàn),無(wú)論是在國(guó)內(nèi)的案例還是美國(guó)案例中,,更多的關(guān)注點(diǎn)在于平臺(tái)之間的數(shù)據(jù)歸屬爭(zhēng)議,,卻往往有意無(wú)意回避了一個(gè)更重要的問(wèn)題:在平臺(tái)彼此爭(zhēng)奪數(shù)據(jù)歸屬的背后,真正產(chǎn)生數(shù)據(jù)的用戶(hù)對(duì)數(shù)據(jù)的歸屬擁有怎樣的權(quán)利,?
要回答這個(gè)問(wèn)題,,就需要弄明白用戶(hù)的數(shù)據(jù)究竟是如何被互聯(lián)網(wǎng)公司獲取的。
用戶(hù)知情權(quán)與"低隱私社會(huì)"之爭(zhēng)
"如果需要,,其實(shí)我們可以還原你使用我們app時(shí)在屏幕上的所有操作,。"一名總部在上海的O2O公司數(shù)據(jù)部門(mén)相關(guān)負(fù)責(zé)人對(duì)PingWest品玩表示。"你先點(diǎn)了哪里后點(diǎn)了哪里,,你上下滑動(dòng)屏幕的速度,,你停留在哪個(gè)產(chǎn)品時(shí)間較久,我們?cè)诤笈_(tái)都知道,。相當(dāng)于給你的所有操作錄屏,,并且傳回了我們這里。"
當(dāng)然,,這些app并沒(méi)有真的給你錄屏,,實(shí)現(xiàn)這種"恐怖"的數(shù)據(jù)收集,依靠的是"埋點(diǎn)"技術(shù),。也就是在特定的位置加入相應(yīng)代碼,,收集用戶(hù)在這些位置的操作行為,并發(fā)回到后端進(jìn)行收集分析,。這種技術(shù)早已是互聯(lián)網(wǎng)公司的標(biāo)配,,如今常常以一個(gè)SDK(軟件開(kāi)發(fā)工具包)的形式添加在應(yīng)用程序里。用戶(hù)在使用應(yīng)用的過(guò)程中,,不知不覺(jué)地就被應(yīng)用收集了所有數(shù)據(jù),。
而隨著精準(zhǔn)推薦的需求越來(lái)越高,采集數(shù)據(jù)的需求也跟著增加,。"到最后,,數(shù)據(jù)采集的埋點(diǎn)越來(lái)越多,幾乎成了全范圍的埋點(diǎn),,管它有用沒(méi)用都先采集回來(lái)再說(shuō),。"上述O2O公司員工說(shuō)。而在這樣的思路下,,許多對(duì)用戶(hù)來(lái)說(shuō)十分敏感的數(shù)據(jù)信息,,也成了采集信息的目標(biāo)。據(jù)兩名知情人士對(duì)PingWest品玩稱(chēng),,今日頭條已經(jīng)開(kāi)始采集用戶(hù)安裝應(yīng)用的列表,,用于分析用戶(hù)的特征,。而這樣的權(quán)限在其他一些大廠的數(shù)據(jù)采集中是"不敢碰"的。
而對(duì)于那些沒(méi)有能力自己埋點(diǎn),,或自己埋點(diǎn)性?xún)r(jià)比不高的中小企業(yè)來(lái)說(shuō),,則普遍選擇使用第三方的SDK(軟件開(kāi)發(fā)工具包),這些SDK由近年來(lái)誕生的"大數(shù)據(jù)公司"提供,。
由于這些埋點(diǎn)和SDK的行為都是由互聯(lián)網(wǎng)應(yīng)用自己決定,,缺少技術(shù)知識(shí)的用戶(hù)很難反過(guò)來(lái)進(jìn)行監(jiān)督,無(wú)法搞明白自己到底哪些信息被收集,。更多時(shí)候,,是分發(fā)這些應(yīng)用的應(yīng)用商店來(lái)對(duì)應(yīng)用的程序包進(jìn)行審核。其中,,由于蘋(píng)果的封閉生態(tài),,iOS系統(tǒng)的應(yīng)用都只能通過(guò)蘋(píng)果App Store分發(fā),蘋(píng)果對(duì)應(yīng)用調(diào)取的權(quán)限等規(guī)定更加嚴(yán)格,,iOS系統(tǒng)向這些應(yīng)用分享的底層數(shù)據(jù)也較少,。但作為開(kāi)源的Android系統(tǒng),可以獲取的底層數(shù)據(jù)權(quán)限相對(duì)更多,。
"比如,同樣的一個(gè)應(yīng)用,,Android版的往往能更加準(zhǔn)確地獲得用戶(hù)的位置數(shù)據(jù),,就是因?yàn)樗讓拥腤i-Fi列表數(shù)據(jù)是可以獲得的,我通過(guò)分析Wi-Fi屬于哪個(gè)店鋪,,結(jié)合GPS就能獲得更準(zhǔn)確定位,,但iOS的Wi-Fi列表權(quán)限不開(kāi)放給第三方應(yīng)用。"一名資深A(yù)pp開(kāi)發(fā)人員表示,。
而且,,國(guó)內(nèi)各類(lèi)應(yīng)用商店也更加魚(yú)龍混雜,在審核上尺度不一,。這些因素在一起造成許多安卓應(yīng)用,,在獲取權(quán)限和收集數(shù)據(jù)上變得十分貪婪。而盡可能多的獲取用戶(hù)各種行為數(shù)據(jù),,也成了第三方大數(shù)據(jù)公司們競(jìng)爭(zhēng)的焦點(diǎn),。他們推出的SDK要求的權(quán)限不斷增加。
據(jù)了解Talking Data相關(guān)業(yè)務(wù)的人士介紹,,其提供的SDK 有能力收集與用戶(hù)藍(lán)牙配對(duì)的其他移動(dòng)設(shè)備的信息,,能夠收集Android用戶(hù)設(shè)備上的安裝程序列表,一方面可以用于借此分析用戶(hù)的喜好,,另一方面也借此統(tǒng)計(jì)各類(lèi)app的市場(chǎng)占有率,,后者是其數(shù)據(jù)分析業(yè)務(wù)的重要組成,。對(duì)此,Talking Data對(duì)PingWest品玩表示,,他們的sdk并沒(méi)有監(jiān)控與藍(lán)牙匹配設(shè)備的能力,。"我們提供的SDK是為應(yīng)用提供數(shù)據(jù)統(tǒng)計(jì)工具及分析服務(wù),通過(guò)在應(yīng)用中集成了SDK,,來(lái)分析這些數(shù)據(jù)以了解應(yīng)用在不同終端設(shè)備上,、使用平臺(tái)或應(yīng)用分發(fā)渠道的表現(xiàn)和用戶(hù)使用的情況。"Talking Data相關(guān)人士表示,。
類(lèi)似的模式普遍存在于這類(lèi)通過(guò)提供SDK而進(jìn)行數(shù)據(jù)采集和分析業(yè)務(wù)的公司中,。關(guān)注移動(dòng)互聯(lián)網(wǎng)行業(yè)的人會(huì)經(jīng)常看到如TalkingData,、易觀和個(gè)推等企業(yè)發(fā)布的行業(yè)份額類(lèi)的數(shù)據(jù)報(bào)告,,這背后就是基于它們廣泛提供的SDK。
而近幾年,,這些公司都開(kāi)始主打"可視化無(wú)埋點(diǎn)SDK"技術(shù),,讓購(gòu)買(mǎi)服務(wù)的公司可以通過(guò)直觀的可視化操作頁(yè)面完成數(shù)據(jù)采集——"使用者不需要有太多代碼知識(shí)"。
但這也引起一些技術(shù)人員的質(zhì)疑,。"所謂無(wú)埋點(diǎn),,其實(shí)是全埋點(diǎn),能埋的都埋了,,能收集的都先收集走再說(shuō),。"一家在杭州某電商類(lèi)創(chuàng)業(yè)公司從事數(shù)據(jù)分析的工程師對(duì)PingWest品玩表示。"而且,,我認(rèn)為這種傻瓜化的產(chǎn)品和宣傳,,其實(shí)造成的一個(gè)更危險(xiǎn)的問(wèn)題是,那些真的不懂或者不去關(guān)注這些第三方SDK的使用者,,一方面不知道自己平臺(tái)的哪些數(shù)據(jù)共享給了這些第三方公司,,另一方面甚至有時(shí)候不知道自己觸碰了用戶(hù)的哪些權(quán)限和數(shù)據(jù)。"
每個(gè)提供SDK服務(wù)的大數(shù)據(jù)公司,,都會(huì)把收集來(lái)的數(shù)據(jù)中的一些"占為己有",,從而豐富自己的數(shù)據(jù)資源,然后再把這些資源反過(guò)來(lái)集成到所謂的數(shù)據(jù)分析平臺(tái)上,,賣(mài)給客戶(hù),。也就是說(shuō),這些數(shù)據(jù)并不是只用于收集者自己的平臺(tái),,而是作為某種商品進(jìn)行了出售,。
大數(shù)據(jù)公司百分點(diǎn)為此提出一個(gè)新的概念——"第二方數(shù)據(jù)":"指企業(yè)和合作伙伴共同擁有的數(shù)據(jù),所有權(quán)如何分配是商談出來(lái)的,。在使用這些數(shù)據(jù)時(shí),,也要遵循雙方共同的利益",。
但在這過(guò)程中,用戶(hù)卻完全缺席,,這些數(shù)據(jù)采集過(guò)程中,,很多都沒(méi)有經(jīng)過(guò)用戶(hù)的同意授權(quán),甚至是沒(méi)有明確告知用戶(hù),。最近頻頻出現(xiàn)的懷疑app"監(jiān)聽(tīng)"自己,,指責(zé)輸入法泄露自己隱私等新聞,就都是來(lái)源于用戶(hù)的不知情,。
在2016年時(shí),,Google Play就曾集中下架一批使用TalkingData SDK的應(yīng)用,據(jù)Talking Data對(duì)PingWest品玩表示,,當(dāng)初是因?yàn)镚oogle更新了其隱私政策,,而使用了他們sdk的應(yīng)用開(kāi)發(fā)者并未能完全符合Google的隱私政策要求,因此造成暫時(shí)下架,。那之后TalkingData單獨(dú)為Google Play 設(shè)計(jì)了一個(gè)專(zhuān)屬版本來(lái)幫助應(yīng)用開(kāi)發(fā)者滿(mǎn)足Google隱私政策的要求,。而據(jù)上述知情人士介紹,對(duì)國(guó)內(nèi)各大Android應(yīng)用市場(chǎng)的版本,,依然可以獲取被視為高度隱私的權(quán)限,。"這樣的現(xiàn)象不只是TalkingData,類(lèi)似個(gè)推等其他提供SDK服務(wù)的第三方公司,,其實(shí)都有這樣的現(xiàn)象,。"而絕大多數(shù)國(guó)內(nèi)Android用戶(hù)的app正是來(lái)自這些應(yīng)用市場(chǎng)。
對(duì)于這些數(shù)據(jù)采集的行為,,大數(shù)據(jù)公司們的一個(gè)常用解釋是,數(shù)據(jù)已經(jīng)"脫敏",。但目前全行業(yè)并沒(méi)有關(guān)于脫敏的統(tǒng)一標(biāo)準(zhǔn),,也沒(méi)有相關(guān)詳細(xì)法規(guī)。脫敏與否,,完全成了大數(shù)據(jù)公司們的一種自覺(jué),,全靠一家公司的"底線"和價(jià)值觀來(lái)決定。
而與此同時(shí),,隨著各類(lèi)公司對(duì)精準(zhǔn)營(yíng)銷(xiāo)和個(gè)性化推送等效果的更高要求,,對(duì)"用戶(hù)畫(huà)像"的極度癡迷,客觀上形成了誰(shuí)越能無(wú)限逼近用戶(hù)的真實(shí)身份,,誰(shuí)的數(shù)據(jù)服務(wù)就更有吸引力的事實(shí),。這種商業(yè)上的動(dòng)力和脫敏的安全考量之間出現(xiàn)了明顯矛盾。很多漏洞也因此出現(xiàn)和被利用,。
比如,,在目前的許多第三方大數(shù)據(jù)公司的數(shù)據(jù)庫(kù)中,,在脫敏處理后,用戶(hù)數(shù)據(jù)也依然會(huì)被分配各自的獨(dú)立ID,。但是很多app其實(shí)同時(shí)都在收集用戶(hù)的設(shè)備號(hào),,其中主要的是手機(jī)的Mac地址和機(jī)器的IMEI號(hào)。前者全稱(chēng)Media Access Control,是手機(jī)網(wǎng)卡的ID,,用來(lái)定義網(wǎng)絡(luò)設(shè)備的位置,。后者是 International Mobile Equipment Identity,相當(dāng)于機(jī)器的身份證,。兩者都具有唯一性,。盡管第三方公司將自己分配的獨(dú)立ID形容為一種將用戶(hù)真實(shí)身份去掉的方式,但顯然,,只要將兩者對(duì)應(yīng),,這些ID本身依然是一種真實(shí)信息。
而在電信實(shí)名制的當(dāng)下,,想要讓ID直接變成真人,,只需要一步:當(dāng)這兩個(gè)數(shù)據(jù)與電話號(hào)數(shù)據(jù)對(duì)應(yīng)上時(shí),用戶(hù)的真實(shí)身份就會(huì)徹底暴露,。
今年315晚會(huì)上曝光的"探針盒子",,就是用來(lái)完成這最后一步。據(jù)央視的調(diào)查,,這個(gè)設(shè)備能在發(fā)現(xiàn)用戶(hù)手機(jī)信號(hào)后,,識(shí)別出用戶(hù)手機(jī)的MAC地址和IMEI號(hào),并利用背后的"大數(shù)據(jù)技術(shù)",,將這些設(shè)備號(hào)轉(zhuǎn)換成手機(jī)號(hào)碼,。
隨著用戶(hù)被收集的數(shù)據(jù)種類(lèi)越來(lái)越多,用戶(hù)的隱私變成了一張拼圖,,要不要把用戶(hù)的真實(shí)信息"拼"出來(lái),,完全取決手握這些拼圖的大數(shù)據(jù)公司們自己。
"目前很多案例都是集中在厘清平臺(tái)之間互相爭(zhēng)奪數(shù)據(jù)的問(wèn)題,,但之后肯定不可避免的要深入到,,用戶(hù)自己對(duì)個(gè)人數(shù)據(jù)的權(quán)利的問(wèn)題。" 接近公安部第三研究所的人士透露,。
最近一年,,各類(lèi)公司過(guò)度收集用戶(hù)數(shù)據(jù)成為整治的重點(diǎn)。據(jù)新華社報(bào)道,,中央網(wǎng)信辦,、工信部、公安部和市場(chǎng)監(jiān)管總局在今年年初成立app違法違規(guī)收集使用個(gè)人信息專(zhuān)項(xiàng)治理工作組,"截至4月16日,,舉報(bào)信息超過(guò)3480條,,涉及1300余款app。對(duì)于30款用戶(hù)量大,、問(wèn)題嚴(yán)重的app,,工作組已向其運(yùn)營(yíng)者發(fā)送了整改通知。"
這些舉動(dòng)像是一種鋪墊,,背后是相關(guān)部門(mén)對(duì)個(gè)人數(shù)據(jù)權(quán)利的思考,。
上述人士表示,在個(gè)人數(shù)據(jù)權(quán)利方面,,相關(guān)部門(mén)一直在密切研究歐盟的GDPR,,也就是歐盟去年5月開(kāi)始實(shí)行的《通用數(shù)據(jù)保護(hù)條例》,它是全球現(xiàn)行的最嚴(yán)格的數(shù)據(jù)保護(hù)法案,。而研究者對(duì)其過(guò)于嚴(yán)格的監(jiān)管仍存異議,。
比如,GDPR中提到用戶(hù)的數(shù)據(jù)可攜權(quán),,要求Facebook和Google等主要網(wǎng)絡(luò)將用戶(hù)的數(shù)據(jù)"還給"用戶(hù),,由用戶(hù)直接跨平臺(tái)掌握自己的所有數(shù)據(jù)。"這顯得過(guò)于激進(jìn),。"
"過(guò)去的那種寬松,,事實(shí)上是兩方面原因,一是監(jiān)管跟不上業(yè)內(nèi)的技術(shù),;另一個(gè)也是因?yàn)?,監(jiān)管方面還是有些傾向于管的太嚴(yán)會(huì)扼殺創(chuàng)新的觀點(diǎn)。"上述人士表示,,這種傾向依然會(huì)繼續(xù)存在下去,。
再比如,GDPR里的引言部分直接提出的"匿名化"的概念,,規(guī)定個(gè)人數(shù)據(jù)要移除可識(shí)別的個(gè)人信息,,與此同時(shí)在法案中對(duì)個(gè)人數(shù)據(jù)作出詳細(xì)羅列,位置數(shù)據(jù),、IP地址、MAC地址都屬于個(gè)人數(shù)據(jù),。這些數(shù)據(jù)在匿名化中必須抹去,。
但作為對(duì)比,2019年4月10日,,公安部第三研究所等機(jī)構(gòu)聯(lián)合發(fā)布的《互聯(lián)網(wǎng)個(gè)人信息安全保護(hù)指南》中,,在提到個(gè)人信息的保護(hù)時(shí),則避免了使用"匿名化"這個(gè)比較激進(jìn)的概念,。"我們的概念還是和歐盟GDPR的匿名化有些不同的,,最后我們只是直接引用《網(wǎng)絡(luò)安全法》里的概念,。" 相關(guān)人士表示。在這份指南中,,對(duì)個(gè)人信息的保護(hù)要求的描述為"經(jīng)過(guò)處理無(wú)法識(shí)別特定個(gè)人且不能復(fù)原" ,。
"總體上你能看到有兩個(gè)思路,保證用戶(hù)隱私肯定是第一位的,,二則是,,數(shù)據(jù)只在用戶(hù)手里是沒(méi)有價(jià)值的,所以還是要鼓勵(lì)公司對(duì)數(shù)據(jù)的合規(guī)處理,。"上述人士透露,。
最高人民法院司法案例研究院4月的一篇文章也透露出這樣的思路。文章指出,,解決用戶(hù)個(gè)人數(shù)據(jù)保護(hù)的關(guān)鍵在于"區(qū)分包含用戶(hù)個(gè)人信息的原始數(shù)據(jù)與處理加工形成數(shù)據(jù)產(chǎn)品后的衍生數(shù)據(jù),,并分別判斷歸屬"。文章認(rèn)為,,原始數(shù)據(jù)歸屬于用戶(hù),,而衍生數(shù)據(jù)則歸屬于運(yùn)營(yíng)公司。這樣不僅能合理平衡雙方利益,,更能"鼓勵(lì)網(wǎng)絡(luò)企業(yè)不斷進(jìn)行技術(shù)創(chuàng)新和產(chǎn)能創(chuàng)造,,促進(jìn)社會(huì)總體財(cái)富增加的需要。"
這些年這種客觀上"先發(fā)展再監(jiān)管"的環(huán)境,,導(dǎo)致許多互聯(lián)網(wǎng)公司根本的商業(yè)模式有很大一部分已經(jīng)是基于這種野蠻的數(shù)據(jù)收集以及分享的基礎(chǔ)上,。此外,人工智能發(fā)展中最為關(guān)鍵的算法模型,,也極度依賴(lài)這些數(shù)據(jù),。
海銀資本創(chuàng)始合伙人王煜全就認(rèn)為:在人工智能的競(jìng)爭(zhēng)中,焦點(diǎn)就落在數(shù)據(jù)上,,隨著企業(yè)越來(lái)越多的把數(shù)據(jù)拿出來(lái)給機(jī)器訓(xùn)練,,人類(lèi)正進(jìn)入一個(gè)低隱私社會(huì),這成為一種不可逆轉(zhuǎn)的趨勢(shì),。
而這就導(dǎo)致事到如今,,大數(shù)據(jù)從業(yè)者們對(duì)"隱私"的理解與用戶(hù)產(chǎn)生了差距,一提到保障隱私,,大數(shù)據(jù)行業(yè)給出的應(yīng)對(duì)往往是"不再和其他平臺(tái)分享數(shù)據(jù)",,而用戶(hù)希望的則是連你這個(gè)平臺(tái)自己也干脆不要收集我的數(shù)據(jù),出現(xiàn)了明顯的溝通障礙,。
在這種情況下,,監(jiān)管部門(mén)也不可避免的要面對(duì)兩難的處境。一個(gè)可能的方式是,首先讓用戶(hù)和大數(shù)據(jù)公司們回到一個(gè)能夠溝通的狀態(tài)中去,。比如要求這些大數(shù)據(jù)公司用普通人聽(tīng)得懂的話向用戶(hù)說(shuō)明白每個(gè)數(shù)據(jù)采集行為的目的,,獲得用戶(hù)的正式許可,并且通過(guò)一定的方式讓用戶(hù)分享利用他們數(shù)據(jù)生成的收益,。同時(shí),,在法律層面很難明確對(duì)數(shù)據(jù)歸屬進(jìn)行明確確權(quán)的情況下,可以通過(guò)更加嚴(yán)厲的事后懲罰機(jī)制,,來(lái)提高過(guò)度收取用戶(hù)信息以及販賣(mài)用戶(hù)信息等行為的成本,,也為用戶(hù)提供某種類(lèi)似遺忘權(quán)的權(quán)利,讓他們擁有更強(qiáng)的事后防御能力,。
在大數(shù)據(jù)時(shí)代,,數(shù)據(jù)的確是擁有巨大潛質(zhì)的新石油,但若在用戶(hù)權(quán)利和行業(yè)發(fā)展之間無(wú)法正確權(quán)衡,,這種新石油也一樣能帶來(lái)巨大的污染,。
來(lái)源:精密空調(diào) http://kugq.cn