Mainīt pēdējo vērtējumu

Tvīts

Vnk kad es ieslēdzu ehr tur automātiski sāk skanēt Gaga

Vērtējums


Skaidrojumi

Biežāk uzdotie jautājumi

Kas ir tvīti?

Twitter sīkziņa, jeb tautā - tvīts, ir līdz 140 simboliem garš ziņojums, kurš publicēts mikroblogošanas vietnē twitter.com

Pozitīvi tvīti

Pozitīvs tvīts ir tāds tvīts, kurā kopumā ir pausta pozitīva noskaņa, vai tas pozitīvi apraksta kādu vietu, laiku, personu, notikumu, utt. Piemērs:

yoohoo!! mazie ķipari nodziedāja pavisam labi. prieciņš :) un tgd arī es beidzot dodos iemēģināt Doma laukumu piektdienā. piedod ;)

Neitrāli tvīti

Neitrāls tvīts ir tāds tvīts, kurā kopumā ir pausta neitrāla noskaņa, vai nav iespējams noteikt, vai tas ir pozitīvs vai negatīvs. Piemēri:

mana jaunā mašīna ir zilā krāsā
šodien jūtos slikti, bet arī nedaudz labi

Negatīvi tvīti

Negatīvs tvīts ir tāds tvīts, kurā kopumā ir pausta negatīva noskaņa, vai tas negatīvi apraksta kādu vietu, laiku, personu, notikumu, utt. Piemēri:

eh, laiskojos pie datora...neko negribas darīt, laikam būšu dabūjusi mazu saules dūrienu.
Arvien vairāk liekas, ka man ir darbaholiķa simptomi. Riebīgi. Bet nu neko, bišķi padarbosies un rīt uz Siguldu-Cēsīm-Baiciemu.

Ne-latviski tvīti

Ne-latvisks tvīts ir tāds tvīts, kurā ir vai nu tikai daži, vai nav neviena vārda ir latviski. Par ne-lativskiem tvītiem uzskata arī tādus tvītus, kuri satur tikai simbolus vai saites/hashtagus/apzimējumus. Neder arī tvīti, kas rakstiti translītā. Piemēri:

Shas buusim glaazshkjuunjuruukjiishos
@arturs LOL!!!
I'm at McDonald's (Минск) w/ 9 others http://t.co/rDwtjCBIUX
Доброе утро, друзя!

Vai es novērtēju pareizi

Katrs no mums uztver emocijas un sentimentu citādi. Vieni labāk saskata ironiju, citi labāk cinismu. Viens no mums smaidiņu uztver pozitīvi, otrs ievēro kopējo negatīvo tvīta noskaņu. Tāpēc ir grūti teikt, ka viens vērtējums ir pareizs, cits nepareizs. Mums katram ir cita sentimenta uztvere, tādēļ ir saprotams, ka arī vērtējumi atsķirsies. Šī ir viena no zinātniskā pētijuma sastāvdaļām, un tiks attiecīgi apstrādāta.

Kāpēc tvīti ir jāvērtē

Lai varētu veikt pētījumus par sentimenta analīzi, no sākuma ir jāizveido reālistiska datu kopa. Daudzās citās valodās šāda tvītu datu kopa jau eksistē, bet ne latviešu valodā. Šis rīks ir veidots šādas datu kopas iegūšanai.

Kas ir sentimenta analīze

Sentimenta analīze ir veids kā pēc teksta, vai tā daļas, noteikt, cik pozitīvs, negatīvs vai neitrāls šis teksts ir kopumā, vai kāda attieksme ir pausta pret tekstā aprakstītajiem produktiem, cilvēkiem, vietā, idejām, utt.

Sentimenta analīze ir arī zinātnes nozare, kura attīstās ļoti strauji. Izmantojot sentimenta analīzi ir iespējams mērīt kā sabiedrība attiecas pret konkrētiem produktiem, notikumiem, cilvēkiem.

Kas ir mašīntulkošana

Mašīntulkošana ir veids, kā automatizēti tulkot tekstu no vienas valodas uz otru. Parasti šāda veida tulkošanā tiek izmantoti dažādi statistiskie modeļi un valodu modeļi.

Par pētījumu

Šī pētijuma mērķis ir sagatavot testa datu kopu, kuru varētu izmantot dažādos, ar sentimenta analīzi saistītos pētījumos.

Kā pirmais no šiem pētijumiem ir mans bakalaura darbs - "Mašīntulkošanas iespējas Twitter sīkziņu sentimenta analīzē". Šī darba galvenais mērķis ir salīdzināt cik labi dažādi mašīntulki spēj pārnest emocijas un sentimentu no vienas valodas uz otru.

Piemēram:

Aplūkosim tvītu "Pie Kārļa šodien ballīte, būs baigi kruta!". Lielākā daļa vērtētāju piekritīs, ka šis tvīts, pēc savas būtības, ir pozitīvs. Tādēļ mēģināsim to tulkot izmantojot SIA Tilde mašīntulkotāju Rezultāts, ko mums atgriež mašīntulks ir - "To Charles, will be pretty kruta party today!". Ja mēģinām noteikt sentimentu šajā tekstā, tad šeit jau parādās grūtības uzreiz noteikt vai teksts ir pozitīvs, jo daļa no teksta nav pārtulkota. Līdz ar to, ja mēs mēģinātu šo tekstu apstrādāt ar angļu valodā pieejamiem sentimenta analīzes rīkiem, iznākumu ir grūti prognozēt, kas savukārt nozīmē, ka uz lielu datu daudzumu būtu ļoti zema sentimenta analīzes precizitāte.

Šajā darbā tiks pētīts cik labi/slikti dažādi mašīntulki spēj tulkot tekstu no latviešu uz angļu valodu, ar gala mērķi noteikt tā sentimentu, jau izmantojot rīkus angļu valodai. Šāds mērķis ir uzstādīts, jo latviešu valodai, kā salīdzinoši nelielai valodai ir ļoti dārgi izstrādāt īpašus sentimenta analīzes modeļus. Iespējams, ko tomēr būtu nepieciešams darīt, taču šis darbs kalpotu kā novēŗtējums, vai ir iespējams no tā izvairīties, izmantojot rīkus, kas paredzeti citām valodām.

Kā tika atlasīti testa dati

Testa dati tika ievākti laika posmā no 2013. gada novembra līdz 2014. gada martam, ievācot publiski pieejamos tvītus no Twitter datu pieejas sistēmām. Tvīti ir ievākti par atlases kritērijiem izvēloties: jābūt latviski, jābūt veiktam no Latvijas teritorijas. Izmantojot šādus kritērijus ir iespējams pēc iespējas samazināt nepareizi atlasīto latvisko tvītu daudzumu, un nodrošināt kvalitatīvus datus.

Taču tas negarantē pilnīgi precīzus un apstrādājamus datus. Gala atlasei cauri ir tikuši arī tvīti, kuros daļa izmantoto vārdu ir latviski, daļa angliski. Līdz ar to nepieciešama 4. poga šajā rīkā - tvīts nav latviski.