Table Of ContentPētījums Nr. 1.20. Interneta lietotāju uzvedības
analīzes rīks
Līgums Nr. L-KC-11-0003
Prototipa projektējums
Vadošais pētnieks Atis Kapenieks
Zinātniskā virziena vadītāja Renāte
Strazdiņa
Rīga, 2013
© SIA IT KOMPETENCES CENTRS 2013
SIA IT KOMPETENCES CENTRS
Reģistrācijas numurs: 40103326439
Rīgā, Lāčplēša ielā 41, LV-1011
Kontaktpersona:
Dace Skrastiņa
Tālr.: 67844273
Fakss: 67315315
E-pasta adrese: [email protected]
1.1.1.
2
Saturs
1.1.Datu pieejamība.....................................................................................................13
1.1.2.Facebook.........................................................................................................13
1.1.3.Draugiem.........................................................................................................13
1.1.4.Twitter..............................................................................................................14
1.1.5.LinkedIn...........................................................................................................14
1.1.6.CVK..................................................................................................................14
1.2.Datu kvalitāte un ticamība ....................................................................................16
1.1.7.Datu kvalitāte..................................................................................................16
1.1.8.Datu ticamība..................................................................................................18
1.1.9.Secinājums......................................................................................................19
3.1.Rīku un tehnoloģiju pārskats..................................................................................29
3.1.1.Asociāciju datu bāzes......................................................................................29
3.1.2.Relāciju datu bāzes..........................................................................................30
3.1.3.Jēdzienu tīkli kā datu struktūras......................................................................30
3.1.4.Izplūdušu kopu datu bāzes modelis................................................................30
3.1.5.Freimu sistēmas..............................................................................................31
3.1.6.Pilnteksta meklēšanas indeksi.........................................................................31
3.1.7.Neironu tīkli.....................................................................................................31
3.2.Datu struktūru izmantošanas piemērotība projektā risināmai problēmsfērai......33
5.1.Izmantojamās serveru tehnoloģijas datu uzkrāšanai............................................39
5.1.Sistēmas mērogošanas izvēles kritēriji...................................................................42
6.1.Dekompozīcijas apraksts........................................................................................49
6.1.1.Moduļu dekompozīcija....................................................................................49
6.1.2.Datu dekompozīcija.........................................................................................53
6.2.Atkarību apraksts...................................................................................................57
6.2.1.Starpmoduļu atkarības....................................................................................57
6.2.2.Datu atkarības.................................................................................................57
6.2.3.Starpprocesu atkarības....................................................................................57
6.3.Saskarnes moduļu apraksts....................................................................................58
6.3.1. Datu meklēšanas saskarne.............................................................................58
6.3.2. Datu atspoguļošanas saskarne par vienu ierakstu.........................................61
6.4.Detalizētais projektējums.......................................................................................63
6.4.1.Moduļu detalizētais projektējums...................................................................63
6.4.2.Kvalitātes aspektu integrācijas novērtējums ..................................................78
6.4.3.Datu detalizētais projektējums.......................................................................81
3
2. att. Atis Kapenieks, vadošais pētnieks.........................................................107
3. att. Rūdolfs Gulbis, pētnieks.........................................................................107
4. att. Iluta Riekstiņa, pētniece..........................................................................107
5. att. Daiga Kiopa, pētniece.............................................................................107
6. att. Zigmārs Atvars, pētnieks........................................................................107
7. att. Bruno Žuga, inženieris............................................................................107
8. att. Krists Jirgens, tehniķis............................................................................107
9. att. Igors Sutugins, tehniķis...........................................................................107
10. att. Dace Skrastiņa, laborante....................................................................107
11. att. Andris Krogzems, laborants..................................................................108
4
Ievads
Dokuments „Prototipa projektējums” ir daļa ERAF līdzfinansēta projekta
„Informācijas un komunikāciju tehnoloģiju kompetences centrs”, ko īsteno kopā
ar nozares un zinātniskajiem sadarbības partneriem īsteno SIA „IT
kompetences centrs” pētījuma Nr. 1.20. „Interneta lietotāju uzvedības analīzes
rīks” dokumentācijas.
Dokumentā ir aprakstīts pētījums par piemērotākajām datu transformācijas
metodēm, iegūto datu sasaistes iespējām un nosacījumiem, identificētajām
tehnoloģijām un rīkiem datu glabāšanai, kā arī detalizēti aprakstīts Interneta
lietotāju uzvedības analīzes rīka prototipa arhitektūra, moduļi, komponentes un
implementējamos algoritmus. Dokumentu paredzēts izmantot, veicot prototipa
izstrādi.
Šis dokuments ir izstrādāts, balstoties uz sistēmas specifikācijas
dokumentiem, un saistīts ar šādiem dokumentiem:
Prasību izpēte;
LVS 72:1996 Ieteicamā prakse programmatūras projektējuma
aprakstīšanai.
Pētījumā tika izmantotas šādas metodes:
Zinātniskās iteratūras analīze;
Ekspertu viedokļu apkopošana.
Literatūras analīze tika izmantota, lai apzinātu līdzšinējo pētījumu
rezultātus par datu kvalitātes un ticamības aspektiem, kā arī datu struktūru
veidošanu, apstrādi un glabāšanu lieliem datu apjomiem. Šajā dokumentā ir
apkopots pārskats par šī pētījuma rezultātiem un doti secinājumi situācijai
atbilstošās metodes izvēlē.
Ekspertu viedokļu apkopošanai ir izvēlēta EKD (Enterprise Knowledge
Development) metode, kuras rezultāts ir apkopots 1.nodaļā, kā arī detalizēti
parādīts 1.pielikumā. Datu kvalitātes un ticamības jēdziens šī pētījuma
kontekstā ir raksturots 2.nodaļā. Apraksts ir izstrādāts pamatojoties uz
literatūras analīzi. Izstrādājot datu struktūru un nepieciešamo transformāciju
pārskatu, sākotnēji ir veikts atbilstošo metodoloģiju salīdzinājums un ir izvēlēta
5
Zachman Framework arfitektūra. Šī pētījuma rezultāti ir atspoguļoti 3.nodaļā.
4.nodaļā ir raksturotas datu struktūras un 5.nodaļā to glabāšanai
nepieciešamais tehniskais nodrošinājums. 6.nodaļā ir ietverts projektējuma
apraksts, kas ietver datu kvalitātes aspektu izvērtējumu.
6
Izmantotās definīcijas, apzīmējumi un saīsinājumi
Termins, saīsinājums Skaidrojums
Tīmekļa rāpulis Interneta robots, kas automātiski iegūst datus no
Interneta vietnēm
Datu dekompozīcija Apstrādes objekta (uzdevuma, programmas, datu,
sistēmas) dalīšana mazāka apjoma sastāvdaļās.
Dekompozīciju izmanto, lai vienkāršotu algoritmu un
programmu izstrādāšanu.
IP adrese Unikāla kādas ierīces (parasti datora), kurš ir pieslēgts
lokālajam tīklam vai Internetam, adrese.
Google Custom Search Pielāgota meklēšanu Google vietnē.
API dzinējs
Moduļa aktivitāšu Diagrammu veidā attēloti modeļu darbības principi.
diagramma
DOMDocument Reprezentē visu HTML dokumentu un kalpo kā sakne
visam dokumenta kokam.
DOMXpath Dokumenta objekts, ar kuru var iegūt kādu konkrētu
web informāciju (piemēram, vārds, uzvārds, vecums
utt., visu, kas atrodas DOMDocumentā).
Query metode Īpašs vaicājumu veids, ar kura palīdzību specificē
vajadzīgās informācijas atrašanās vietu dokumentā.
Iterācija Kāda procesa izpildes reize.
„Monte Carlo” metode Datorizēta matemātiska metode datu simulācijai, kas
ļauj ģenerēt datus ar augstu ticamības pakāpi par to
patiesumu.
Varbūtību Varbūtības sadalījums piešķir varbūtību katram kopas
normālsadalījums apakškopā iespējamo notikumu iznākumu iespējai. Ja
tas atbilst normālsadalījumam, tad lielākā varbūtība
izpildīties ir vidējai vērtībai, bet pārējās ir izkārtotas tai
simetriski.
Gausa sadalījuma Sadalījumus ar izteiktu vienību koncentrāciju
funkcija sadalījuma centrā un pakāpenisku funkciju kritumu
simetriski no tā.
Serial Piešķir katram datubāzes ierakstam unikālu pozitīvu
skaitli, kas tiek piekārtots automātiski, nevar neeksistēt
un nevar būt negatīvs.
PRIMARY KEY Unikāla atslēga tabulas ierakstam.
NOT NULL Definē, ka eksistē vērtība.
character varying(200) Simbolu virkne ar definēto maksimālo garumu 200.
text Mainīgā tips, kas paredzēts relatīvi gariem ierakstiem.
Integer Mainīgā tips, kas var būt tikai vesels skaitlis.
timestamp without time Saglabā pašreizējo laiku bez laika zonas.
7
zone
API Lietojumprogrammas saskarne – ir iepriekš definētu
klašu, procedūru, funkciju, struktūru un konstanšu
kopums, kas tiek pasniegts kā pielikums (bibliotēkas,
servisi), kuru iespējams izmantot ārējiem
programmatūras produktiem. Izmanto programmētāji,
lai rakstītu dažādus programmu pielikumus.
Twitter API Twittera lietotāja saskarne.
CVK Centrālā vēlēšanas komisija.
HTML Hiperteksta iezīmju valoda.
Url Interneta adrese.
Facebook Sociālais tīkls www.facebook.com
Draugiem Sociālais tīkls www.draugiem.lv
Linkedin Sociālais tīkls www.linkedin.com
Twitter Sociālais tīkls www.twitter.com
IP IP adrese
V Vārds
U Uzvārds
N Segvārds
ST Sociālā tīkla profils
PK Personas kods
DZ Dzimšanas datums
P Pilsonība
T Tālrunis
EP E-pasts
RN Uzņēmuma reģistrācijas numurs
A Adrese
BG Beigšanas datums
KN Ko nopirka
WLA Web lapas adrese
ID Identifikators
SQL Structured Query Language
JSON Datu apmaiņas formāts
Q Datu apjoms vienā kadrā
Frame Kadrs
8
Sec Sekunde
Fr Datu kadru biežums
DT Nepieciešamais sistēmas reakcijas laiks
S Tīkla slēguma ātrums
Kbit Informācijas mērvienība
Master Vadošais datu ieguves serveris
Replikāciju serveris Veic datu kopēšanu
Virtuālā mašīna Virtuāla datu apstrādes sistēma
Klāsterserveris Savstarpēji loģiski darbojošu serveru kopums
GRID Paralēlās darbības apvienoti relatīvi lēti sistēmas
procesori
CUDA Ierīču vienotā aprēķinu arhitektūra
ONLINE Atrašanās tiešsaistē
Vertical scaling Vertikālā mērogošana (procesora jaudas, pieejamās
atmiņas un datu maģistrāles caurlaides spējas
palielināšana)
Horizontal scaling Horizontālā mērogošana (izmantojamo resursu
sadalīšana sīkākos elementos)
Partitioning Dekompozicionēšana
GRID computing
Viena uzdevuma sadale paralēlos uzdevumos
Virtualizācija
Mērogošanas veida metode
Host mašīna
Primārā iekārta
WEB serveris
Palīdz sasniegt tīmekļa saturu, kur var piekļūt,
izmantojot internetu
Operētājsistēma
UNIX
UNIX veida operētājsistēmas kodols
LINUX
Operētājsistēmas līmeņa virtualizācijas tehnoloģija
OpenVZ
Virtuālā mašīna
XEN
Mazākā informācijas daudzuma mērvienība
Bits
Pasaulē lielākā mikroprocesoru ražošanas kompānija
Inter
Datorprocesoru ražošanas kompānija
AMD
Augsta līmeņa procesora arhitektūra
PowerPC
9
Linux distribūcijas
Debian, Ubuntu,
CentOS, RHEL, Fedora,
openSUSE
Kernel-based Virtual Linux kodola virtualizācijas infrastruktūra
Machine (KVM)
BSDN Unix operētājsistēmas atzars
Solaris Operētājsistēma
Windows Operētājsistēma
VirtualBox Virtuāla vide
Sun Microsystems ir starptautiska datoru, datoru
Sun Microsystems
komponenšu, programmatūras un informācijas
tehnoloģiju pakalpojumu korporācija,
Sun Microsystems produkts
Sun xVM
Operētājsistēma
Mac OS X
Operētājsistēma
OS/2 Warp
Multiplatformu UNIX – veida operētājsistēma
OpenBSD
Virtualizācijas produkts
VMware ESX Server,
VMware Server, GSX
Server
Virtualizācijas platforma, lai administrētu
Citrix XenServer
mākoņrisinājumu, serveru un darbvirsmas virtuālās
infrastruktūras.
Xen Hypervisor
Atvērtā koda produkts uz kura tiek balstīti citi
Oracle VM
izstrādājumi
SPARC
Uzņēmuma Oracle ražota virtuālā mašīna
Parallels Virtuozzo
Containers Mikroprocesoru arhitektūra
Operētājsistēma līmeņa virtualizācijas produkts
Relāciju datu bāzes pārvaldības sistēma
PostgreSQL
Relāciju datu bāzu pārvaldības sistēmas saime
DB2
10
Description:Interneta robots, kas automātiski iegūst datus no. Interneta vietnēm. Datu dekompozīcija Slackware 12 .2. Mandrake Linux 9.2. Mikrotik 5.0rc3.