1. Duomenų maskavimo koncepcija
Duomenų maskavimas taip pat žinomas kaip duomenų maskavimas. Tai yra techninis būdas konvertuoti, modifikuoti ar aprėpti neskelbtinus duomenis, tokius kaip mobiliojo telefono numeris, banko kortelės numeris ir kita informacija, kai mes pateikėme maskavimo taisykles ir politiką. Ši technika pirmiausia naudojama siekiant užkirsti kelią neskelbtiniems duomenims tiesiogiai naudoti nepatikimoje aplinkoje.
Duomenų maskavimo principas: Duomenų maskavimas turėtų išlaikyti originalias duomenų charakteristikas, verslo taisykles ir duomenų svarbą, kad būtų užtikrinta, jog vėliau kūrimas, testavimas ir duomenų analizė neturės įtakos maskuojant. Užtikrinkite duomenų nuoseklumą ir pagrįstumą prieš ir po maskavimo.
2. Duomenų maskavimo klasifikacija
Duomenų maskavimą galima suskirstyti į statinius duomenų maskavimą (SDM) ir dinaminius duomenų maskavimą (DDM).
Statiniai duomenų maskavimas (SDM): Statiniams duomenų maskavimui reikalingas naujas gamybos aplinkos duomenų bazė, skirta izoliuoti nuo gamybos aplinkos. Neskelbtini duomenys išgaunami iš gamybos duomenų bazės ir tada saugomi ne gamybos duomenų bazėje. Tokiu būdu nejautrūs duomenys yra išskirti iš gamybos aplinkos, kuri patenkina verslo poreikius ir užtikrina gamybos duomenų saugumą.
Dinaminio duomenų maskavimas (DDM): Paprastai gamybos aplinkoje jis naudojamas realiuoju laiku jautruojant neskelbtinus duomenis. Kartais reikalingi skirtingi maskavimo lygiai, norint perskaityti tuos pačius neskelbtinus duomenis skirtingose situacijose. Pavyzdžiui, skirtingi vaidmenys ir leidimai gali įgyvendinti skirtingas maskavimo schemas.
Duomenų ataskaitų teikimas ir duomenų produktai Maskavimo programa
Tokie scenarijai daugiausia apima vidaus duomenų stebėjimo produktus arba skelbimų lentą, išorinių paslaugų duomenų produktus ir ataskaitas, pagrįstas duomenų analize, tokiomis kaip verslo ataskaitos ir projekto peržiūra.
3. Duomenų maskavimo sprendimas
Bendrosios duomenų maskavimo schemos apima: negaliojančią, atsitiktinę vertę, duomenų pakeitimą, simetrinį šifravimą, vidurinę vertę, poslinkį ir apvalinimą ir kt.
Negaliojantis: Invalidacija reiškia neskelbtinų duomenų šifravimą, sutrumpinimą ar slėpimą. Ši schema paprastai pakeičia realius duomenis specialiais simboliais (tokiais kaip *). Operacija yra paprasta, tačiau vartotojai negali žinoti pradinių duomenų formato, kuris gali turėti įtakos vėlesnėms duomenų programoms.
Atsitiktinė vertė: Atsitiktinė vertė reiškia atsitiktinį neskelbtinų duomenų pakeitimą (skaičiai pakeičia skaitmenis, raidės pakeičia raides, o simboliai pakeičia simbolius). Šis maskavimo metodas tam tikru mastu užtikrins neskelbtinų duomenų formatą ir palengvins vėlesnį duomenų taikymą. Gali prireikti maskuojančių žodynų kai kuriems prasmingiems žodžiams, tokiems kaip žmonių ir vietų vardai.
Duomenų pakeitimas: Duomenų pakeitimas yra panašus į nulinių ir atsitiktinių verčių maskavimą, išskyrus tai, kad užuot naudoję specialiuosius simbolius ar atsitiktines vertes, maskavimo duomenys keičiami konkrečia verte.
Simetrinis šifravimas: Simetrinis šifravimas yra ypatingas grįžtamojo maskavimo metodas. Jis užšifruoja neskelbtinus duomenis per šifravimo raktus ir algoritmus. CIPHERTEXT formatas atitinka pirminius duomenis loginėse taisyklėse.
Vidurkis: Vidutinė schema dažnai naudojama statistiniuose scenarijuose. Remdamiesi skaitmeniniais duomenimis, pirmiausia apskaičiuojame jų vidurkį, o paskui atsitiktinai paskirstome desensibilizuotas vertes aplink vidurkį, taip išlaikydami duomenų sumą.
Kompensacija ir apvalinimas: Šis metodas keičia skaitmeninius duomenis atsitiktinai pamainomis. Poslinkio apvalumas užtikrina apytikslį diapazono autentiškumą, išlaikant duomenų saugumą, kuris yra arčiau tikrų duomenų nei ankstesnės schemos, ir turi didelę reikšmę didelių duomenų analizės scenarijuje.
Rekomenduojamas modelis "ML-NPB-5660"Dėl duomenų maskavimo
4. Dažniausiai naudojami duomenų maskavimo technika
(1). Statistiniai metodai
Duomenų atranka ir duomenų kaupimas
- Duomenų atranka: Originalių duomenų rinkinio analizė ir vertinimas, pasirinkus reprezentatyvų duomenų rinkinio pogrupį, yra svarbus būdas pagerinti de-identifikavimo metodų efektyvumą.
- Duomenų kaupimas: kaip statistinių metodų rinkinys (pvz., Sumavimas, skaičiavimas, vidurkis, maksimalus ir minimalus), pritaikytą atributams „Microdata“, rezultatas atspindi visus įrašus pradiniuose duomenų rinkinyje.
(2). Kriptografija
Kriptografija yra dažnas būdas desensitizuoti ar sustiprinti desensibilizacijos veiksmingumą. Skirtingi šifravimo algoritmai gali pasiekti skirtingą desensibilizacijos efektą.
- Deterministinis šifravimas: ne atsitiktinės simetriškas šifravimas. Paprastai jis apdoroja ID duomenis ir gali iššifruoti ir atkurti, kai reikia, kad šifras į pradinį ID, tačiau raktą reikia tinkamai apsaugoti.
- negrįžtamas šifravimas: duomenų funkcija naudojama duomenų apdorojimui, kuris paprastai naudojamas ID duomenims. Jo negalima tiesiogiai iššifruoti, o žemėlapių sudarymo ryšys turi būti išsaugotas. Be to, dėl maišos funkcijos ypatybės gali įvykti duomenų susidūrimas.
- Homomorfinis šifravimas: naudojamas ciphertext homomorfinis algoritmas. Jo bruožas yra tas, kad šifro veikimo rezultatas yra toks pat kaip paprasto teksto veikimo po iššifravimo. Todėl jis dažniausiai naudojamas skaitmeniniams laukams apdoroti, tačiau jis nėra plačiai naudojamas dėl našumo.
(3). Sistemos technologija
Sugavimo technologija ištrina arba apžiūri duomenų elementus, kurie neatitinka privatumo apsaugos, tačiau jų neskelbia.
- Masking: Tai reiškia dažniausiai desensibilizacijos metodą, kaip užmaskuoti atributo vertę, pavyzdžiui, priešininko numeris, ID kortelė pažymėta žvaigždute arba adresas yra sutrumpintas.
- Vietinis slopinimas: nurodo konkrečių atributų verčių (stulpelių) ištrynimo procesą, pašalinant neesminius duomenų laukus;
- Įrašų slopinimas: reiškia konkrečių įrašų ištrynimo (eilučių) ištrynimo procesą, ištrynus neesminius duomenų įrašus.
(4). Slapyvardžių technologija
Pseudomaning yra de-identifikavimo technika, kuri naudoja pseudonimą, kad pakeistų tiesioginį identifikatorių (arba kitą jautrų identifikatorių). Slapyvardžių metodai sukuria unikalius kiekvieno atskiro informacijos subjekto identifikatorius, o ne tiesioginius ar jautrius identifikatorius.
- Tai gali generuoti atsitiktines vertes savarankiškai, kad atitiktų pradinį ID, išsaugoti žemėlapių lentelę ir griežtai valdyti prieigą prie žemėlapių lentelės.
- Taip pat galite naudoti šifravimą pseudonimams gaminti, tačiau turite tinkamai išlaikyti iššifravimo raktą;
Ši technologija yra plačiai naudojama daugybei nepriklausomų duomenų vartotojų, tokių kaip „OpenID“ atviroje platformos scenarijuje, kai skirtingi kūrėjai tam pačiam vartotojui gauna skirtingus „OpenID“.
(5). Apibendrinimo metodai
Apibendrinimo technika reiškia de-identifikavimo metodą, kuris sumažina pasirinktų atributų detalumą duomenų rinkinyje ir pateikia bendresnį bei abstraktesnį duomenų aprašymą. Apibendrinimo technologiją lengva įgyvendinti ir ji gali apsaugoti įrašų lygio duomenų autentiškumą. Paprastai jis naudojamas duomenų produktuose ar duomenų ataskaitose.
- Apvalinimas: apima pasirinkto atributo apvalinimo bazės pasirinkimą, pavyzdžiui, aukštyn arba žemyn kriminalistiką, gaunant rezultatus 100, 500, 1K ir 10K
- Viršutinio ir apatinio kodavimo metodai: Pakeiskite vertes aukščiau (arba žemiau) slenksčio slenksčio riba, vaizduojančia viršutinį (arba apatinį) lygį, o tai duoda „aukščiau x“ arba „žemiau x“ rezultatą
(6). Atsitiktinio atvejų metodai
Kaip tam tikra identifikavimo technika, atsitiktinės atrankos technologija reiškia atributo vertės keitimą per atsitiktinumą, kad vertė po atsitiktinių imčių skiriasi nuo pradinės realios vertės. Šis procesas sumažina užpuoliko gebėjimą gauti atributo vertę iš kitų atributų reikšmių tame pačiame duomenų įraše, tačiau daro įtaką gautų duomenų autentiškumui, kuris būdingas gamybos testo duomenims.
Pašto laikas: 2012 m. Rugsėjo 27 d