Shkenca e të dhënave është një fushë akademike ndërdisiplinore[1] që përdor statistika, llogaritje shkencore, metoda shkencore, përpunim, vizualizim shkencor, algoritme dhe sisteme për të nxjerrë ose ekstrapoluar njohuri dhe njohuri nga të dhëna potencialisht të zhurmshme, të strukturuara ose të pastrukturuara.[2]

Ekzistenca e kometës NEOWISE (këtu e përshkruar si një seri pikash të kuqe) u zbulua duke analizuar të dhënat e sondazhit astronomik të marra nga një teleskop hapësinor, Eksploruesi Infrared me fushë të gjerë .

Shkenca e të dhënave gjithashtu integron njohuritë e domenit nga fusha e aplikimit themelor (p.sh., shkencat natyrore, teknologjia e informacionit dhe mjekësia). Shkenca e të dhënave është e shumëanshme dhe mund të përshkruhet si një shkencë, një paradigmë kërkimore, një metodë kërkimi, një disiplinë, një rrjedhë pune dhe një profesion.[3]

Shkenca e të dhënave është "një koncept për të unifikuar statistikat, analizën e të dhënave, informatikën dhe metodat e lidhura me to" për "të kuptuar dhe analizuar fenomenet aktuale" me të dhëna.[4] Ai përdor teknika dhe teori të nxjerra nga shumë fusha brenda kontekstit të matematikës, statistikave, shkencave kompjuterike, shkencës së informacionit dhe njohurive të fushës.[5] Sidoqoftë, shkenca e të dhënave është e ndryshme nga shkenca kompjuterike dhe shkenca e informacionit. Fituesi i çmimit Turing, Jim Grey, e imagjinoi shkencën e të dhënave si një "paradigmë të katërt" të shkencës (empirike, teorike, llogaritëse dhe tani e drejtuar nga të dhënat) dhe pohoi se "çdo gjë rreth shkencës po ndryshon për shkak të ndikimit të teknologjisë së informacionit " dhe përmbytjes së të dhënave.[6][7]

Një shkencëtar i të dhënave është një profesionist që krijon kodin e programimit dhe e kombinon atë me njohuritë statistikore për të krijuar njohuri nga të dhënat.[8]

Themelet

Redakto

Shkenca e të dhënave është një fushë ndërdisiplinore[9] e fokusuar në nxjerrjen e njohurive nga grupe tipike të mëdha të të dhënave dhe zbatimin e njohurive dhe njohurive nga ato të dhëna për të zgjidhur problemet në një gamë të gjerë fushash aplikimi. Fusha përfshin përgatitjen e të dhënave për analizë, formulimin e problemeve të shkencës së të dhënave, analizimin e të dhënave, zhvillimin e zgjidhjeve të bazuara në të dhëna dhe paraqitjen e gjetjeve për të informuar vendimet e nivelit të lartë në një gamë të gjerë fushash aplikimi. Si i tillë, ai përfshin aftësi nga shkenca kompjuterike, statistika, shkenca e informacionit, matematika, vizualizimi i të dhënave, vizualizimi i informacionit, sonifikimi i të dhënave, integrimi i të dhënave, dizajni grafik, sistemet komplekse, komunikimi dhe biznesi.[10][11] Statisticiani Nathan Yau, duke u mbështetur në Ben Fry, gjithashtu lidh shkencën e të dhënave me ndërveprimin njeri-kompjuter : përdoruesit duhet të jenë në gjendje të kontrollojnë dhe eksplorojnë në mënyrë intuitive të dhënat.[12][13] Në vitin 2015, Shoqata Amerikane e Statistikave identifikoi menaxhimin e bazës së të dhënave, statistikat dhe mësimin e makinerive, si dhe shpërndau sisteme paralele si tre bashkësitë themelore profesionale në zhvillim.[14]

Shumë statisticient, duke përfshirë Nate Silver, kanë argumentuar se shkenca e të dhënave nuk është një fushë e re, por një emër tjetër për statistikat.[15] Të tjerë argumentojnë se shkenca e të dhënave është e dallueshme nga statistikat sepse fokusohet në problemet dhe teknikat unike për të dhënat dixhitale.[16] Vasant Dhar shkruan se statistikat theksojnë të dhënat dhe përshkrimin sasior. Në të kundërt, shkenca e të dhënave merret me të dhëna sasiore dhe cilësore (p.sh. nga imazhet, teksti, sensorët, transaksionet, informacioni i klientit, etj.) dhe thekson parashikimin dhe veprimin.[17] Andrew Gelman i Universitetit të Kolumbisë i ka përshkruar statistikat si një pjesë jo thelbësore të shkencës së të dhënave.[18]

Profesori i Stanford-it, David Donoho shkruan se shkenca e të dhënave nuk dallohet nga statistikat për nga madhësia e grupeve të të dhënave ose përdorimi i kompjuterit dhe se shumë programe të diplomimit reklamojnë në mënyrë mashtruese trajnimin e tyre analitik dhe statistikor si thelbin e një programi të shkencës së të dhënave. Ai e përshkruan shkencën e të dhënave si një fushë të aplikuar që rritet nga statistikat tradicionale.[19]

Etimologjia

Redakto

Përdorimi i hershëm

Redakto

Në vitin 1962, John Tukey përshkroi një fushë që ai e quajti " analiza e të dhënave ", e cila i ngjan shkencës moderne të të dhënave.[19] Në vitin 1985, në një leksion të dhënë në Akademinë Kineze të Shkencave në Pekin, C. F. Jeff Wu përdori termin "shkencë të të dhënave" për herë të parë si një emër alternativ për statistikat.[20] Më vonë, pjesëmarrës në një simpozium statistikash të vitit 1992 në Universitetin e Montpellier<span typeof="mw:Entity" id="mwhg"> </span>II pranoi shfaqjen e një disipline të re të fokusuar në të dhëna me origjinë dhe forma të ndryshme, duke kombinuar konceptet dhe parimet e vendosura të statistikave dhe analizës së të dhënave me kompjuterin.[21][22]

Termi "shkencë e të dhënave" është gjurmuar në vitin 1974, kur Peter Naur e propozoi atë si një emër alternativ për shkencën kompjuterike.[5] Në vitin 1996, Federata Ndërkombëtare e Shoqërive të Klasifikimit u bë konferenca e parë që prezantoi në mënyrë specifike shkencën e të dhënave si temë.[5] Megjithatë, përkufizimi ishte ende në fluks. Pas leksionit të vitit 1985 në Akademinë Kineze të Shkencave në Pekin, në vitin 1997 C. F. Jeff Wu sugjeroi përsëri që statistikat të riemërtoheshin shkencë e të dhënave. Ai arsyetoi se një emër i ri do të ndihmonte statistikat të largonin stereotipet e pasakta, të tilla si sinonimi i kontabilitetit ose i kufizuar në përshkrimin e të dhënave.[23] Në vitin 1998, Hayashi Chikio argumentoi për shkencën e të dhënave si një koncept të ri, ndërdisiplinor, me tre aspekte: hartimin, mbledhjen dhe analizën e të dhënave.[22]

Gjatë viteve 1990, termat popullorë për procesin e gjetjes së modeleve në grupet e të dhënave (të cilat ishin gjithnjë e më të mëdha) përfshinin "zbulimin e njohurive" dhe "minimin e të dhënave".[5][24]

Përdorimi modern

Redakto

Në vitin 2012, teknologët Thomas H. Davenport dhe DJ Patil deklaruan "Shkencëtari i të dhënave: Puna më seksi e shekullit të 21-të", një frazë tërheqëse që u përdor edhe nga gazetat e qyteteve kryesore si New York Times[25] dhe Boston Globe .[26] Një dekadë më vonë, ata e rikonfirmuan atë, duke u shprehur se "është puna më e kërkuar se kurrë te punëdhënësit".

Koncepti modern i shkencës së të dhënave si një disiplinë e pavarur ndonjëherë i atribuohet William S. Cleveland.[27] Në një punim të vitit 2001, ai mbrojti një zgjerim të statistikave përtej teorisë në fusha teknike; sepse kjo do të ndryshonte ndjeshëm fushën, ajo garantonte një emër të ri.[24] "Shkenca e të dhënave" u përdor më gjerësisht në vitet e ardhshme: në vitin 2002, Komiteti për të Dhënat për Shkencën dhe Teknologjinë lançoi Revistën e Shkencës së të Dhënave. Në vitin 2003, Universiteti i Kolumbisë lëshoi The Journal of Data Science .[24] Në vitin 2014, Sektori i Shoqatës Amerikane të Statistikave për Mësimin Statistikor dhe Minierat e të Dhënave ndryshoi emrin e tij në Seksionin mbi Mësimin Statistikor dhe Shkencën e të Dhënave, duke reflektuar popullaritetin në rritje të shkencës së të dhënave.[28]

Titulli profesional i "shkencëtarit të të dhënave" i është atribuar DJ Patil dhe Jeff Hammerbacher në 2008.[29] Megjithëse u përdor nga Bordi Kombëtar i Shkencës në raportin e tyre të vitit 2005 "Koleksionet e të dhënave dixhitale me jetë të gjatë: Mundësimi i kërkimit dhe arsimit në shekullin 21", ai i referohej gjerësisht çdo roli kyç në menaxhimin e një koleksioni të të dhënave dixhitale.[30]

Ende nuk ka një konsensus mbi përkufizimin e shkencës së të dhënave dhe nga disa konsiderohet si një fjalë kryesore .[31] Të dhënat e mëdha janë një term i lidhur marketing.[32] Shkencëtarët e të dhënave janë përgjegjës për zbërthimin e të dhënave të mëdha në informacione të përdorshme dhe krijimin e softuerëve dhe algoritmeve që ndihmojnë kompanitë dhe organizatat të përcaktojnë operacionet optimale.[33]

Shkenca dhe analiza e të dhënave

Redakto
 
Shembull për dobinë e analizës së të dhënave eksploruese siç tregohet duke përdorur grupin e të dhënave të dhjetëra Burimi të dhënash.

Shkenca e të dhënave dhe analiza e të dhënave janë të dyja disiplina të rëndësishme në fushën e menaxhimit dhe analizës së të dhënave, por ato ndryshojnë në disa mënyra kryesore. Ndërsa të dyja fushat përfshijnë punën me të dhënat, shkenca e të dhënave është më shumë një fushë ndërdisiplinore që përfshin aplikimin e metodave statistikore, llogaritëse dhe të mësimit të makinerive për të nxjerrë njohuri nga të dhënat dhe për të bërë parashikime, ndërsa analiza e të dhënave është më e fokusuar në ekzaminimin dhe interpretimin e të dhëna për të identifikuar modelet dhe tendencat.[34][35]

Analiza e të dhënave zakonisht përfshin punën me grupe të dhënash më të vogla dhe të strukturuara për t'iu përgjigjur pyetjeve specifike ose për të zgjidhur probleme specifike. Kjo mund të përfshijë detyra të tilla si pastrimi i të dhënave, vizualizimi i të dhënave dhe analiza eksploruese e të dhënave për të fituar njohuri mbi të dhënat dhe për të zhvilluar hipoteza rreth marrëdhënieve midis variablave. Analistët e të dhënave zakonisht përdorin metoda statistikore për të testuar këto hipoteza dhe për të nxjerrë përfundime nga të dhënat. Për shembull, një analist i të dhënave mund të analizojë të dhënat e shitjeve për të identifikuar tendencat në sjelljen e klientit dhe për të bërë rekomandime për strategjitë e marketingut.[34]

Shkenca e të dhënave, nga ana tjetër, është një proces më kompleks dhe përsëritës që përfshin punën me grupe të dhënash më të mëdha dhe më komplekse që shpesh kërkojnë metoda të avancuara llogaritëse dhe statistikore për t'u analizuar. Shkencëtarët e të dhënave shpesh punojnë me të dhëna të pastrukturuara si teksti ose imazhet dhe përdorin algoritme të mësimit të makinerive për të ndërtuar modele parashikuese dhe për të marrë vendime të bazuara në të dhëna. Përveç analizës statistikore, shkenca e të dhënave shpesh përfshin detyra të tilla si parapërpunimi i të dhënave, inxhinieria e veçorive dhe përzgjedhja e modeleve. Për shembull, një shkencëtar i të dhënave mund të zhvillojë një sistem rekomandimi për një platformë të tregtisë elektronike duke analizuar modelet e sjelljes së përdoruesit dhe duke përdorur algoritme të mësimit të makinerive për të parashikuar preferencat e përdoruesve.[35][36]

Ndërsa analiza e të dhënave fokusohet në nxjerrjen e njohurive nga të dhënat ekzistuese, shkenca e të dhënave shkon përtej kësaj duke përfshirë zhvillimin dhe zbatimin e modeleve parashikuese për të marrë vendime të informuara. Shkencëtarët e të dhënave shpesh janë përgjegjës për mbledhjen dhe pastrimin e të dhënave, zgjedhjen e teknikave të duhura analitike dhe vendosjen e modeleve në skenarë të botës reale. Ata punojnë në kryqëzimin e matematikës, shkencave kompjuterike dhe ekspertizës së fushës për të zgjidhur probleme komplekse dhe për të zbuluar modele të fshehura në grupe të dhënash të mëdha.[35]

Pavarësisht këtyre dallimeve, shkenca e të dhënave dhe analiza e të dhënave janë fusha të lidhura ngushtë dhe shpesh kërkojnë grupe të ngjashme aftësish. Të dyja fushat kërkojnë një bazë solide në statistikat, programimin dhe vizualizimin e të dhënave, si dhe aftësinë për të komunikuar gjetjet në mënyrë efektive si me audiencën teknike ashtu edhe me atë jo-teknike. Të dyja fushat përfitojnë nga të menduarit kritik dhe njohuritë e fushës, pasi të kuptuarit e kontekstit dhe nuancave të të dhënave është thelbësor për analizën dhe modelimin e saktë.[34][35]

Në përmbledhje, analiza e të dhënave dhe shkenca e të dhënave janë disiplina të dallueshme por të ndërlidhura brenda fushës më të gjerë të menaxhimit dhe analizës së të dhënave. Analiza e të dhënave fokusohet në nxjerrjen e njohurive dhe nxjerrjen e konkluzioneve nga të dhënat e strukturuara, ndërsa shkenca e të dhënave përfshin një qasje më gjithëpërfshirëse që kombinon analizën statistikore, metodat llogaritëse dhe mësimin e makinerive për të nxjerrë njohuri, për të ndërtuar modele parashikuese dhe për të nxitur vendimmarrjen e drejtuar nga të dhënat. Të dyja fushat përdorin të dhëna për të kuptuar modelet, për të marrë vendime të informuara dhe për të zgjidhur probleme komplekse në fusha të ndryshme.

Si një disciplinë akademike

Redakto

Siç është ilustruar në seksionet e mëparshme, ka në thelb disa dallime të konsiderueshme midis shkencës së të dhënave, analizës së të dhënave dhe statistikave. Rrjedhimisht, ashtu si statistikat u rritën në një fushë të pavarur nga matematika e aplikuar, në mënyrë të ngjashme shkenca e të dhënave është shfaqur si një fushë e pavarur dhe ka fituar tërheqje gjatë viteve të fundit. Kërkesa unike për aftësi profesionale për aftësitë e kompjuterizuara të analizës së të dhënave ka shpërthyer për shkak të rritjes së sasive të të dhënave që burojnë nga një sërë burimesh të pavarura. Ndërsa disa nga këto aftësi shumë të kërkuara mund të ofrohen nga statisticienët, mungesa e aftësive të larta të shkrimit algoritmik i bën ata më pak të preferuar se shkencëtarët e trajnuar të të dhënave që ofrojnë ekspertizë unike në aftësi të tilla si NoSQL, Apache Hadoop, platformat Cloud Computing dhe përdorimin e rrjeteve komplekse. Ky ndryshim i paradigmës ka parë që institucione të ndryshme të krijojnë programe akademike për të përgatitur fuqi punëtore të kualifikuar për treg. Disa nga institucionet që ofrojnë programe diplome në shkencën e të dhënave përfshijnë Universitetin Stanford, Universitetin e Harvardit, Universitetin e Oksfordit, ETH Cyrih, Universitetin Meru [1] ndër shumë të tjera.

Cloud computing

Redakto
 
Një arkitekturë e bazuar në cloud për të mundësuar analitikën e të dhënave të mëdha. Të dhënat rrjedhin nga burime të ndryshme, si kompjuterët personalë, laptopët dhe telefonat inteligjentë, përmes shërbimeve cloud për përpunim dhe analizë, duke çuar më në fund në aplikacione të ndryshme të të dhënave të mëdha .

Cloud computing mund të ofrojë akses në sasi të mëdha të fuqisë llogaritëse dhe ruajtjes .[37] Në të dhënat e mëdha, ku vëllime informacioni gjenerohen dhe përpunohen vazhdimisht, këto platforma mund të përdoren për të trajtuar detyra analitike komplekse dhe intensive me burime.[38]

Disa korniza të shpërndara kompjuterike janë krijuar për të trajtuar ngarkesat e punës me të dhëna të mëdha. Këto korniza mund t'u mundësojnë shkencëtarëve të të dhënave të përpunojnë dhe analizojnë paralelisht grupe të mëdha të dhënash, gjë që mund të zvogëlojë kohën e përpunimit.[39]

Konsiderata etike

Redakto

Shkenca e të dhënave përfshin mbledhjen, përpunimin dhe analizimin e të dhënave të cilat shpesh përfshijnë informacione personale dhe të ndjeshme. Shqetësimet etike përfshijnë shkeljet e mundshme të privatësisë, përjetësimin e paragjykimeve dhe ndikimet negative shoqërore.[40][41]

Modelet e mësimit të makinerive mund të përforcojnë paragjykimet ekzistuese të pranishme në të dhënat e trajnimit, duke çuar në rezultate diskriminuese ose të padrejta.[42][43]

Shih edhe

Redakto

Referime

Redakto
  1. ^ Donoho, David (2017). "50 Years of Data Science". Journal of Computational and Graphical Statistics (në anglisht). 26 (4): 745–766. doi:10.1080/10618600.2017.1384734.
  2. ^ Dhar, V. (2013). "Data science and prediction". Communications of the ACM (në anglisht). 56 (12): 64–73. doi:10.1145/2500499. Arkivuar nga origjinali më 9 nëntor 2014. Marrë më 2 shtator 2015.
  3. ^ Mike, Koby; Hazzan, Orit (2023-01-20). "What is Data Science?". Communications of the ACM (në anglisht). 66 (2): 12–13. doi:10.1145/3575663. ISSN 0001-0782.
  4. ^ Hayashi, Chikio (1998-01-01). "What is Data Science ? Fundamental Concepts and a Heuristic Example". përmbledhur nga Hayashi, Chikio; Yajima, Keiji; Bock, Hans-Hermann; Ohsumi, Noboru; Tanaka, Yutaka; Baba, Yasumasa (red.). Data Science, Classification, and Related Methods. Studies in Classification, Data Analysis, and Knowledge Organization (në anglisht). Springer Japan. fq. 40–51. doi:10.1007/978-4-431-65950-1_3. ISBN 9784431702085.
  5. ^ a b c d Cao, Longbing (2017-06-29). "Data Science: A Comprehensive Overview". ACM Computing Surveys (në anglisht). 50 (3): 43:1–43:42. arXiv:2007.03606. doi:10.1145/3076253. ISSN 0360-0300.
  6. ^ Tony Hey; Stewart Tansley; Kristin Michele Tolle (2009). The Fourth Paradigm: Data-intensive Scientific Discovery (në anglisht). Microsoft Research. ISBN 978-0-9825442-0-4. Arkivuar nga origjinali më 20 mars 2017.
  7. ^ Bell, G.; Hey, T.; Szalay, A. (2009). "Computer Science: Beyond the Data Deluge". Science (në anglisht). 323 (5919): 1297–1298. doi:10.1126/science.1170411. ISSN 0036-8075. PMID 19265007.
  8. ^ Davenport, Thomas H.; Patil, D. J. (tetor 2012). "Data Scientist: The Sexiest Job of the 21st Century". Harvard Business Review (në anglisht). 90 (10): 70–76, 128. PMID 23074866. Marrë më 2016-01-18.
  9. ^ Emmert-Streib, Frank; Dehmer, Matthias (2018). "Defining data science by a data-driven quantification of the community". Machine Learning and Knowledge Extraction (në anglisht). 1: 235–251. doi:10.3390/make1010015.
  10. ^ "1. Introduction: What Is Data Science?". Doing Data Science [Book] (në anglisht). O’Reilly. Marrë më 2020-04-03.
  11. ^ "the three sexy skills of data geeks". m.e.driscoll: data utopian (në anglisht). 27 maj 2009. Marrë më 2020-04-03.
  12. ^ Yau, Nathan (2009-06-04). "Rise of the Data Scientist". FlowingData (në anglisht). Marrë më 2020-04-03.
  13. ^ "Basic Example". benfry.com (në anglisht). Marrë më 2020-04-03.
  14. ^ "ASA Statement on the Role of Statistics in Data Science". AmStatNews (në anglisht). American Statistical Association. 2015-10-01. Arkivuar nga origjinali më 20 qershor 2019. Marrë më 2019-05-29.
  15. ^ "Nate Silver: What I need from statisticians". Statistics Views (në anglisht). 23 gusht 2013. Marrë më 2020-04-03.
  16. ^ "What's the Difference Between Data Science and Statistics?". Priceonomics (në anglisht). 13 tetor 2015. Marrë më 2020-04-03.
  17. ^ Vasant Dhar (2013-12-01). "Data science and prediction". Communications of the ACM (në anglisht). 56 (12): 64–73. doi:10.1145/2500499.
  18. ^ "Statistics is the least important part of data science « Statistical Modeling, Causal Inference, and Social Science". statmodeling.stat.columbia.edu (në anglisht). Marrë më 2020-04-03.
  19. ^ a b Donoho, David (18 shtator 2015). "50 years of Data Science" (PDF) (në anglisht). Marrë më 2 prill 2020.
  20. ^ Wu, C. F. Jeff (1986). "Future directions of statistical research in China: a historical perspective" (PDF). Application of Statistics and Management (në anglisht). 1: 1–7. Marrë më 29 nëntor 2020.
  21. ^ Escoufier, Yves; Hayashi, Chikio; Fichet, Bernard, red. (1995). Data science and its applications (në anglisht). Tokyo: Academic Press/Harcourt Brace. ISBN 0-12-241770-4. OCLC 489990740.
  22. ^ a b Murtagh, Fionn; Devlin, Keith (2018). "The Development of Data Science: Implications for Education, Employment, Research, and the Data Revolution for Sustainable Development". Big Data and Cognitive Computing (në anglisht). 2 (2): 14. doi:10.3390/bdcc2020014.
  23. ^ Wu, C. F. Jeff. "Statistics=Data Science?" (PDF) (në anglisht). Marrë më 2 prill 2020.
  24. ^ a b c Press, Gil. "A Very Short History of Data Science". Forbes (në anglisht). Marrë më 2020-04-03.
  25. ^ Miller, Claire (2013-04-04). "Data Science: The Numbers of Our Lives". New York Times (në anglisht). New York City. Marrë më 2022-10-10.
  26. ^ Borchers, Callum (2015-11-11). "Behind the scenes of the 'sexiest job of the 21st century'". Boston Globe (në anglisht). Boston. Marrë më 2022-10-10.
  27. ^ Gupta, Shanti (11 dhjetor 2015). "William S. Cleveland" (në anglisht). Marrë më 2 prill 2020.
  28. ^ Talley, Jill (1 qershor 2016). "ASA Expands Scope, Outreach to Foster Growth, Collaboration in Data Science". Amstat News (në anglisht). American Statistical Association. In 2013 the first European Conference on Data Analysis (ECDA2013) started in Luxembourg the process which founded the European Association for Data Science (EuADS) www.euads.org in Luxembourg in 2015.
  29. ^ Davenport, Thomas H.; Patil, D. J. (2012-10-01). "Data Scientist: The Sexiest Job of the 21st Century". Harvard Business Review (në anglisht). Nr. October 2012. ISSN 0017-8012. Marrë më 2020-04-03.
  30. ^ "US NSF – NSB-05-40, Long-Lived Digital Data Collections Enabling Research and Education in the 21st Century". www.nsf.gov (në anglisht). Marrë më 2020-04-03.
  31. ^ Press, Gil. "Data Science: What's The Half-Life of a Buzzword?". Forbes (në anglisht). Marrë më 2020-04-03.
  32. ^ Pham, Peter. "The Impacts of Big Data That You May Not Have Heard Of". Forbes (në anglisht). Marrë më 2020-04-03.
  33. ^ Martin, Sophia (2019-09-20). "How Data Science will Impact Future of Businesses?" (PDF). Medium (në anglisht). Marrë më 2020-04-03.
  34. ^ a b c James, Gareth; Witten, Daniela; Hastie, Trevor; Tibshirani, Robert (2017-09-29). An Introduction to Statistical Learning: with Applications in R. (në anglisht). Springer.
  35. ^ a b c d Provost, Foster; Tom Fawcett (2013-08-01). "Data Science for Business: What You Need to Know about Data Mining and Data-Analytic Thinking". O'Reilly Media, Inc. (në anglisht).
  36. ^ Han, Kamber; Pei (2011). Data Mining: Concepts and Techniques (në anglisht). ISBN 978-0-12-381479-1.
  37. ^ Hashem, Ibrahim Abaker Targio; Yaqoob, Ibrar; Anuar, Nor Badrul; Mokhtar, Salimah; Gani, Abdullah; Ullah Khan, Samee (2015). "The rise of "big data" on cloud computing: Review and open research issues". Information Systems (në anglisht). 47: 98–115. doi:10.1016/j.is.2014.07.006.
  38. ^ Qiu, Junfei; Wu, Qihui; Ding, Guoru; Xu, Yuhua; Feng, Shuo (2016). "A survey of machine learning for big data processing". EURASIP Journal on Advances in Signal Processing (në anglisht). 2016 (1). doi:10.1186/s13634-016-0355-x. ISSN 1687-6180.
  39. ^ Armbrust, Michael; Xin, Reynold S.; Lian, Cheng; Huai, Yin; Liu, Davies; Bradley, Joseph K.; Meng, Xiangrui; Kaftan, Tomer; Franklin, Michael J. (2015-05-27). "Spark SQL: Relational Data Processing in Spark". Proceedings of the 2015 ACM SIGMOD International Conference on Management of Data (në anglisht). ACM. fq. 1383–1394. doi:10.1145/2723372.2742797. ISBN 978-1-4503-2758-9.
  40. ^ Floridi, Luciano; Taddeo, Mariarosaria (2016-12-28). "What is data ethics?". Philosophical Transactions of the Royal Society A: Mathematical, Physical and Engineering Sciences (në anglisht). 374 (2083): 20160360. Bibcode:2016RSPTA.37460360F. doi:10.1098/rsta.2016.0360. ISSN 1364-503X. PMC 5124072. PMID 28336805.
  41. ^ Mittelstadt, Brent Daniel; Floridi, Luciano (2016). "The Ethics of Big Data: Current and Foreseeable Issues in Biomedical Contexts". Science and Engineering Ethics (në anglisht). 22 (2): 303–341. doi:10.1007/s11948-015-9652-2. ISSN 1353-3452. PMID 26002496.
  42. ^ Barocas, Solon; Selbst, Andrew D (2016). "Big Data's Disparate Impact". California Law Review (në anglisht). doi:10.15779/Z38BG31 – nëpërmjet Berkeley Law Library Catalog.
  43. ^ Caliskan, Aylin; Bryson, Joanna J.; Narayanan, Arvind (2017-04-14). "Semantics derived automatically from language corpora contain human-like biases". Science (në anglisht). 356 (6334): 183–186. arXiv:1608.07187. Bibcode:2017Sci...356..183C. doi:10.1126/science.aal4230. ISSN 0036-8075.
  NODES
Association 3
COMMUNITY 1
INTERN 1