<sub id="jhbjh"></sub><track id="jhbjh"><progress id="jhbjh"><listing id="jhbjh"></listing></progress></track>

    <address id="jhbjh"></address>

    <th id="jhbjh"></th>

      <track id="jhbjh"></track>
      <meter id="jhbjh"></meter>

        彭兰:数据与算法时代的新风险

        选择字号:   本文共阅读 1558 次 更新时间:2018-11-12 12:45:08

        进入专题: 数据时代   算法时代  

        彭兰 (进入专栏)  

          

           摘要:数据与算法的应用,扩张了人的能力,但也带来很多新问题与新风险。客观性数据可能成为后真相的另一种推手,因为数据生产环节的偏差可能导致客观性数据堆积成的假象,数据?#27835;?#20063;可能成为客观事物的干扰因素。个性化算法虽然带来了个人信息服务水平的提升,但也可能在几个方面将人们围困:一是信息茧房的围困;二是算法中的偏见或歧视对人们社会资源与位置的限制;三是算法在幸福的名义下对人们的无形操纵。数据时代个体面临的另一个风险,是相关权利保护受到更多挑战,特别是在隐私权和被遗忘权方面。要对抗这些风险,需要完善数据方面的基础建设,包括数据素养的培养、数据的“基础设施”建设、数据质量评估体系以及信息伦理规范的建立等。

          

           近年,我们似乎进入了一个数据的大跃进时代,?#38469;?#19981;断赋予我们新的想象力与探索能力,也打开了一些过去人的感官不能达及的新领域,基于数据的各类算法也开始在我们身边流行。但是,在这种大跃进中,?#33268;?#20239;着很多新风险。对数据与算法的风险的理性?#27835;?#19982;判断,可以帮助我们认识新?#38469;?#21487;能带来的新陷阱。


        “客观性”数据:“后真相”的另一种推手?


           “后真相(Post-truth)”这个词在近年进入中国研究者的视野,很大程度上缘于它被《牛津词典》选为2016年度词汇。在这个词里的“post”表示的是“超越?#20445;?#20063;就是“真相”不再那么重要。根据《牛津词典》的解释,后真相意味着,“客观事实的陈述,往往不及诉诸情感和煽动信仰更容易影响民意”。

           尽管《牛津词典》在解释后真相一词时强调的是情绪等对客观事实的“超越?#20445;?#20294;后真相成为一个显性的问题,还与2016年一些民意调查机构对美国大选等结果预测的失灵有关。因此,正如哲学研究者蓝江所?#36171;?#30340;,后真相时代是因为原来支撑真相的两大基础都崩溃了,即作为普世性的理性原则(以及与之相伴随的演绎推理逻辑,甚至连哈贝马斯所提倡的协商和交往理性也一并被质疑),以及作为经验性数据收集、统计、?#27835;?#30340;客观性结论。

           后真相现象提醒我们,数据与算法这些看上去客观的手段与方法,并不一定能带来更多真相,反而可能走向它的方面。

           为什么客观性数据也可能带来假象?

           数据往往被当作描述客观事物、揭示真相的一种手段,但是,数据应用本身有一整套的规范,如果不遵循这些规范,或者在数据应用中出现了漏洞而未能察觉,未?#27425;?#20204;或许会被更多由貌似客观的数据堆积成的假象所包围。从数据生产的角度看,每一个相关的步骤,都可能存在着导?#24405;?#35937;的因素。

           1. 数据样本偏差带来的“以偏概全”

           尽管已经进入到“大数据”时代,而大数据的卖点之一是“全样本?#20445;?#20294;事实上,在?#36136;?#20013;,获得“全样本”并不是一件容易的事。

           今天的数据,特别是互联网数据,被少数?#25945;?#22404;断,出于利益保护等因素考虑,?#25945;?#36890;常并不愿意将数据完全公开。他人从这些?#25945;ā?#25170;”数据时,会受到?#38469;?#33021;力和权限等限制,这可能一定程度上影响到数据的完整性。?#25945;?#26412;身,也可能因为各种原因,未必能保留全样本数据,例如,在社交?#25945;ǎ?#21024;贴必然会导致相关内容的不完整。

           大数据?#27835;?#20063;常常要依赖行业性数据,但在中国,由于历史性的原因,很多行业本身就缺乏完整、系统的数据积累,能提供的,常常也是残缺的数据。?#35789;?#26159;传统的小样本?#27835;觶?#26679;本的规模和代表性等方面的质量也越来越令人担忧。

           尽管今天人文社会科学都在强调问卷调查等经验性数据?#27835;?#26041;法,今天的本科和研?#21487;?#20063;受到了一定的方法训练,但是,在实际操作中,充斥着不规范、不严谨的现象,特别是在抽样方面。武汉大学学生会在农民工研究中问卷调查的造假?#24405;?#20063;许不是孤立的个案。客观的障碍是,今天的公众已经厌倦了各?#27835;示?#35843;查,对问卷调查的抵触、不配合或游戏心态,都会影响到问卷调查的开展。

           因此,无论是全样本数据,还是行业数据,或是传统抽样方法下的小数据等,都可能存在样本不完整的问题,这也必然对数据?#27835;?#32467;果的完整性、代表性产生影响。

           2. “脏数据”带来的污染

           除了样本的问题外,用各种方?#20132;?#21462;的数据,本身质量也可能存在问题。部分?#31508;?#30340;数据、重复的数据、失效的数据、造假的数据等,都被称为“脏数据”。尽管数据处理前都会要求数据清洗,但这未必能完全消除脏数据带来的污?#23613;?#26576;些数据?#27835;?#32773;也可能因为一些原因而无视脏数据的存在,甚至会制造一些脏数据、假数据。

           3. 数据?#27835;?#27169;?#25512;?#24046;带来的方向性错误

           完整、可用的数据只是数据?#27835;?#30340;前提,要利用数据来准确描述或解释客观现象,还需要有科学、合理的?#27835;?#27169;型。但是一些基于数据的实证?#27835;觶?#26377;可能建立的模型本身是有偏差的,?#34892;?#25968;据应用者,甚至是为了得到自?#21512;?#26395;的结果而在?#27835;?#27169;型的设计中进行人为的“扭曲?#20445;?#36825;些都必然导致结果的偏差。

           4. 数据挖掘能力有限带来的?#25170;?#23581;辄止”

           数据量愈大、数据种类愈丰富、数据应用目标愈多元,也就意味着对数据挖掘能力的要求愈高,然而当各种力量都在快马加鞭地涌入到数据应用领域,争做各类数据产品时,?#27425;?#24517;都拥有相应的数据挖掘能力。特别是在?#25945;?#34892;业,以往数据应用传统的缺乏、?#38469;?#33021;力的不足,都会限制其数据挖掘能力,然而外界压力却又在迫使?#25945;?#21147;不?#26377;?#22320;走向数据化,因此,数据应用多流于表层,其中的漏洞也越来越多。作为“拟态环境”的构建方式,?#25945;?#29983;产的过于简单的、浅层的数据,也可能会误导人们对?#36136;?#31038;会的认识。

           5.数据解读的偏差

           数据解读能力,是数据利用能力的另一个重要层面。而没有?#24049;?#30340;数据方面的训练,对数据的解读可能会出?#31181;?#35266;随意、简单化等种?#27835;?#39064;,例如,将数据的相关关系过度解读为因果关系,是?#23548;?#20013;常见的问题之一。数据解读往往也是横向或纵向比较中完成的,如果缺乏参照信息,或比较性数据出现了问题,解读自然也容易产生偏差。

           数据描述与?#27835;?#20559;差,不仅会给我们对环境的认识带?#27425;?#23548;,更大的风险是,它们可能带来的决策偏差。在大数据或其他数据?#27835;?#26041;法越来越多地用于公共决策和个人决策的指导时,这种风险将日益增加。

           这些数据的误用、滥用,一方面是因为数据应用能力的不足,另一方面则是数据应用者的价值导向和利益驱动的问题。一些数据?#27835;?#30340;出发点,本来就不是要获得对真相的完整认知,而是为了制造符合自己需要的“真相”或结果。错误导向或利益驱动的数据滥用,成为“后真相”现象更大的背景。

           数据会成为客观性的另一种干扰因素吗?

           2016年美国总统大选,多家民调机构的预测结果的失败,让人们质疑数据的客观性与准确性。而时隔两年之后曝出的Facebook数据门?#24405;?#22312;某种意义上是对民调结果失灵的一个回应,从中或许可以探究当时民调结果失灵的部分原因,尽管我们并不能?#33539;ā?#29275;津?#27835;觥?#23545;大选结果的干预究竟是否起了作用,或是起了多大作用。

           这一?#24405;?#36824;有着更深层的寓意,它提醒我们面临的一个新挑战:一方面,数据?#27835;?#30340;目标是追求客观地描述事物;另一方面,数据?#27835;?#20063;可能会成为对客观事物或客观进程的干预力量。而可以预见的是,未来两者之间的博弈可能会更成常态。

           大数据的应用方向之一,就是对事物的发展趋势做出判断,从而尽早对风险进行预警,对危险进程进行干预。但?#23548;?#20013;,对?#36136;?#36827;行干预的边界应该在?#27169;?#23545;大选投票进行干预,是否属于合理的大数据应用?2012年奥巴马在美国大选中获胜,一些研究者对其中的大数据应用津津?#20540;溃?#32780;2016年特朗普在大选中胜出后,一些?#25945;?#24320;始对数据?#27835;?#26426;构对选民态度的干预进行调查,Facebook数据门?#24405;?#25259;露后,研究者似乎更多地对“牛津?#27835;觥?#30340;做法持批评态度。这或许与人们对特朗普的态度相关,但从另一个角度看,这也表明,大数据应用进入深层后,人们对它的影响及应用伦理的认识也在深入。

           “牛津?#27835;觥鋇然?#26500;之所?#38405;?#29992;数据?#27835;?#24433;响人们的态度与立场,甚至影响人们对客观世界的认识,是因为他们可以通过数据?#27835;?#21028;断不同人群的心理定位,?#28304;?#20026;前提来定向推送信息,对人们感知到的信息环境进行控制,用有偏向的信息来影响人们的态度。

           哲学学者刘擎?#36171;觶?

           “后真相问题有其深刻的理论背景,最为相关的哲学渊?#35789;?#19968;个多?#20848;?#21069;,尼采对事实真相客观性的挑战。尼采曾在《超善恶》的序言?#34892;吹溃骸?#35270;角(perspective)是所有生活的基本条件。’而在其遗稿‘札记(Nachlass)’中,他留下了著名断言:‘没有事实,只有阐释。’这个被哲学界称为‘视角主义(perspectivism)’的观点是尼采哲学的核心思想之一,也为今天的后真相时代埋下了伏笔。”

           他还认为:

           “视角主义与后真相问题还具有一个重要的关联线索,可称之为‘视角制造事实’的思路。……如果所谓‘事实’就是满足了‘恰当证据’的事务,而恰当证据的标准又是视角所创立的,那?#30784;?#27809;有独立于视角的真实世界’意味着,‘事实’在一定意义上是视角所制造的。”

           今天的某些大数据?#27835;觶?#22312;某种意义就是在?#27835;?#29978;至“制造”人们的“视角?#20445;?#28982;后将符合视角的“事实”推送给他们,虽然推送的“事实”似乎是客观的,但是,当它们?#29615;?#32622;在人们的“视角”下时,就成为了影响主观判断和态度的重要手段。

           对于后真相问题的?#24179;猓?#21016;擎认为,真相的“客观性”依赖于“共同视角?#20445;?#28595;洲学者?#24049;病?#22522;恩也?#36171;觶?#26368;终关于真相的认同还是取决于人们的共识(agreement)和信?#21361;╰rust)。这些看法似乎也是多数学者在“后真相”问题上的共识。

           因此,从解决“后真相”危机的角度看,今天我们更需要用数据?#27835;?#26469;寻找人们的“共同视角”或“共识”。然而,在各种主体都在努力地?#25170;?#29992;数据?#27835;?#21644;算法的力量来制造符合自己需要的信息环境和意见格局时,当数据和算法成为一种权力博弈的武器时,共识的发现与形成,必然困难重重。


        算法下的个体:数据时代的?#25170;?#24466;?#20445;?/strong>


           从个体角度看,目前数据应用与他们最直接的关联,是各种个性化算法。通过对与个体相关的数据的?#27835;觶?#26469;提供与之适配的内容或服务,在今天已经成为普遍?#36136;怠?

        早在上个?#20848;?0年代,美国学者尼葛洛?#25317;?#23601;在他的《数字化生存》一书里预言了数字化时代个性化服务的可能,并将之命名为“我的日报?#20445;═he Daily Me)。 但由于?#38469;?#30340;限制,直到近几年,基于算法的个性化服务才变成?#36136;担?#20854;中,(点击此处阅读下一页)

        进入 彭兰 的专栏     进入专题: 数据时代   算法时代  

        本文责编:limei
        发信站:爱思想(http://www.6311915.com),栏目:天益学术 > 新闻传播学 > 传播学理论
        本文链接:http://www.6311915.com/data/113361.html
        文章来源:?#27573;鞅笔?#22823;学报(社会科学版) 》2018年第5期

        0 推荐

        在方框中输入电子?#22987;?#22320;址,多个?#22987;?#20043;间用半角逗号(,)分隔。

        爱思想(aisixiang.com)网站为公益纯学术网站,旨在推动学术?#27604;佟?#22609;造社会精神。
        凡本网首发及经作者授权但非首发的所有作品,版权归作者本人所?#23567;?#32593;络转载请注明作者、出处并保持完整,纸媒转载请经本网或作者本人书面授权。
        凡本网注明“来源:XXX(非爱思想网)”的作品,均转载自其它?#25945;澹?#36716;载目的在于分享信息、助推思想传播,并不代表本网赞同其观点和对其真实性负责。若作者或版权人不愿被使用,请来函?#36171;觶?#26412;网即予改正。
        Powered by aisixiang.com Copyright © 2019 by aisixiang.com All Rights Reserved 爱思想 京ICP备12007865号 京公网安备11010602120014号.
        易康网
        特码生肖表

          <sub id="jhbjh"></sub><track id="jhbjh"><progress id="jhbjh"><listing id="jhbjh"></listing></progress></track>

          <address id="jhbjh"></address>

          <th id="jhbjh"></th>

            <track id="jhbjh"></track>
            <meter id="jhbjh"></meter>

                <sub id="jhbjh"></sub><track id="jhbjh"><progress id="jhbjh"><listing id="jhbjh"></listing></progress></track>

                <address id="jhbjh"></address>

                <th id="jhbjh"></th>

                  <track id="jhbjh"></track>
                  <meter id="jhbjh"></meter>
                    08091nba开拓者vs湖人录象 美因茨对弗赖堡比分 体彩p3图谜第一版 深圳皇冠体育馆篮球场 勇士vs雄鹿 福建15选5走势图 古怪猴子怎么样爆出3个猴子 贝壳马赛克贴图 多特蒙德大学排名 急速赛车开奖号码