Tvītu vērtēšana
Tvīts
Vērtējums
Skaidrojumi
Biežāk uzdotie jautājumi
- Kas ir tvīts
- Kas ir pozitīvs tvīts
- Kas ir neitrāls tvīts
- Kas ir negatīvs tvīts
- Kas ir tvīts ne-latviski
- Vai es novērtēju pareizi
- Kāpēc tvīti ir jāvērtē
- Kas ir sentimenta analīze
- Kas ir mašīntulkošana
- Par pētījumu
- Kā tika atlasīti testa dati
Kas ir tvīti?
Twitter sīkziņa, jeb tautā - tvīts, ir līdz 140 simboliem garš ziņojums, kurš publicēts mikroblogošanas vietnē twitter.com
Pozitīvi tvīti
Pozitīvs tvīts ir tāds tvīts, kurā kopumā ir pausta pozitīva noskaņa, vai tas pozitīvi apraksta kādu vietu, laiku, personu, notikumu, utt. Piemērs:
Neitrāli tvīti
Neitrāls tvīts ir tāds tvīts, kurā kopumā ir pausta neitrāla noskaņa, vai nav iespējams noteikt, vai tas ir pozitīvs vai negatīvs. Piemēri:
Negatīvi tvīti
Negatīvs tvīts ir tāds tvīts, kurā kopumā ir pausta negatīva noskaņa, vai tas negatīvi apraksta kādu vietu, laiku, personu, notikumu, utt. Piemēri:
Ne-latviski tvīti
Ne-latvisks tvīts ir tāds tvīts, kurā ir vai nu tikai daži, vai nav neviena vārda ir latviski. Par ne-lativskiem tvītiem uzskata arī tādus tvītus, kuri satur tikai simbolus vai saites/hashtagus/apzimējumus. Neder arī tvīti, kas rakstiti translītā. Piemēri:
Vai es novērtēju pareizi
Katrs no mums uztver emocijas un sentimentu citādi. Vieni labāk saskata ironiju, citi labāk cinismu. Viens no mums smaidiņu uztver pozitīvi, otrs ievēro kopējo negatīvo tvīta noskaņu. Tāpēc ir grūti teikt, ka viens vērtējums ir pareizs, cits nepareizs. Mums katram ir cita sentimenta uztvere, tādēļ ir saprotams, ka arī vērtējumi atsķirsies. Šī ir viena no zinātniskā pētijuma sastāvdaļām, un tiks attiecīgi apstrādāta.
Kāpēc tvīti ir jāvērtē
Lai varētu veikt pētījumus par sentimenta analīzi, no sākuma ir jāizveido reālistiska datu kopa. Daudzās citās valodās šāda tvītu datu kopa jau eksistē, bet ne latviešu valodā. Šis rīks ir veidots šādas datu kopas iegūšanai.
Kas ir sentimenta analīze
Sentimenta analīze ir veids kā pēc teksta, vai tā daļas, noteikt, cik pozitīvs, negatīvs vai neitrāls šis teksts ir kopumā, vai kāda attieksme ir pausta pret tekstā aprakstītajiem produktiem, cilvēkiem, vietā, idejām, utt.
Sentimenta analīze ir arī zinātnes nozare, kura attīstās ļoti strauji. Izmantojot sentimenta analīzi ir iespējams mērīt kā sabiedrība attiecas pret konkrētiem produktiem, notikumiem, cilvēkiem.
Kas ir mašīntulkošana
Mašīntulkošana ir veids, kā automatizēti tulkot tekstu no vienas valodas uz otru. Parasti šāda veida tulkošanā tiek izmantoti dažādi statistiskie modeļi un valodu modeļi.
Par pētījumu
Šī pētijuma mērķis ir sagatavot testa datu kopu, kuru varētu izmantot dažādos, ar sentimenta analīzi saistītos pētījumos.
Kā pirmais no šiem pētijumiem ir mans bakalaura darbs - "Mašīntulkošanas iespējas Twitter sīkziņu sentimenta analīzē". Šī darba galvenais mērķis ir salīdzināt cik labi dažādi mašīntulki spēj pārnest emocijas un sentimentu no vienas valodas uz otru.
Piemēram:
Aplūkosim tvītu "Pie Kārļa šodien ballīte, būs baigi kruta!". Lielākā daļa vērtētāju piekritīs, ka šis tvīts, pēc savas būtības, ir pozitīvs. Tādēļ mēģināsim to tulkot izmantojot SIA Tilde mašīntulkotāju Rezultāts, ko mums atgriež mašīntulks ir - "To Charles, will be pretty kruta party today!". Ja mēģinām noteikt sentimentu šajā tekstā, tad šeit jau parādās grūtības uzreiz noteikt vai teksts ir pozitīvs, jo daļa no teksta nav pārtulkota. Līdz ar to, ja mēs mēģinātu šo tekstu apstrādāt ar angļu valodā pieejamiem sentimenta analīzes rīkiem, iznākumu ir grūti prognozēt, kas savukārt nozīmē, ka uz lielu datu daudzumu būtu ļoti zema sentimenta analīzes precizitāte.
Šajā darbā tiks pētīts cik labi/slikti dažādi mašīntulki spēj tulkot tekstu no latviešu uz angļu valodu, ar gala mērķi noteikt tā sentimentu, jau izmantojot rīkus angļu valodai. Šāds mērķis ir uzstādīts, jo latviešu valodai, kā salīdzinoši nelielai valodai ir ļoti dārgi izstrādāt īpašus sentimenta analīzes modeļus. Iespējams, ko tomēr būtu nepieciešams darīt, taču šis darbs kalpotu kā novēŗtējums, vai ir iespējams no tā izvairīties, izmantojot rīkus, kas paredzeti citām valodām.
Kā tika atlasīti testa dati
Testa dati tika ievākti laika posmā no 2013. gada novembra līdz 2014. gada martam, ievācot publiski pieejamos tvītus no Twitter datu pieejas sistēmām. Tvīti ir ievākti par atlases kritērijiem izvēloties: jābūt latviski, jābūt veiktam no Latvijas teritorijas. Izmantojot šādus kritērijus ir iespējams pēc iespējas samazināt nepareizi atlasīto latvisko tvītu daudzumu, un nodrošināt kvalitatīvus datus.
Taču tas negarantē pilnīgi precīzus un apstrādājamus datus. Gala atlasei cauri ir tikuši arī tvīti, kuros daļa izmantoto vārdu ir latviski, daļa angliski. Līdz ar to nepieciešama 4. poga šajā rīkā - tvīts nav latviski.