Хакери разработиха модели за разкриване на фалшиви новини

Осем екипа приложиха последните технологии за анализ на данни

2 22 май 2017 18:18

Хакери разработиха модели за разкриване на фалшиви новини

Осем отбора взеха участие в първата фаза на инициативата "Hack the fake news" (Хакни фалшивите новини), чиято цел е намиране на решения за борба с "фалшивите новини" с помощта на последните технологии в областта на анализа на текстови данни - изкуствен интелект и машинно самообучение.

Четири от екипите представиха най-точни модели, които се отличиха с най-добра практическа приложимост и иновативност на разработката. Инициативата продължава с публичен workshop и дискусия в широк кръг от експерти.

По време на 48-часовия хакатон участниците трябваше да създадат алгоритъм, който оценява вероятността дадена онлайн публикация да е фалшива (невярна или манипулативна) и/или да представлява т.нар. "clickbait" (пикантна информация с подвеждащо заглавие).

Отборите разполагаха с близо 3000 статии, ръчно оценени от студенти по "Връзки с обществеността" от Нов Български Университет и други експерти. От участниците се изискваше представените решения да могат да се прилагат върху десетки милиони публикации на ден и да могат да се използват за създаването на безплатна обществено-полезна услуга или онлайн инструмент, който да е достъпен за крайните потребители.

Някои от основните предизвикателства, с които експертите се сблъскаха произтичаха от особеностите на явлението "фалшиви новини" – лексиката, използвана в тях, се променя във времето, според политическата ситуация и целевата група, както и от нуждата да се открият други критерии, които "издават" една фалшива новина. Много тях бяха свързани със стила на текста - брой уникални думи в заглавието и текста, брой главни букви, използване на определени символи, близост между заглавие и текст.

За разрешаването на проблема отборите приложиха последните технологии в обработката на данните, като конволюционни невронни мрежи и word2vec (представяне на думи чрез вектори).

Резултатите бяха оценени от жури по няколко основни критерии – точност на алгоритъма, презентация и визуализация на резултатите, приложимост и достъпност на модела, иновативност и оригиналност на разработката.

Четири отбора събраха много близък брой точки и в резултат си разделиха първо и второ място. Отбор "HyperScience" (Серги Сергиев, Кристиян Ташков, Петко Николов) и отбор "Red" (Лъчезар Божков, Пепа Генчева, Георги Караджов, Емил Иванов) оглавиха класацията със съответно 88,19 т. и 88,18 т. от максимално възможни 100 т. Отбор "Leanplum" (Владимир Маринов, Васил Люнчев и Никола Таушанов) и отбор "VMЖивко" (Антони Иванов, Ангел Дамянов, Александър Колев, Живко Ганев) завършиха втори със съответно 87,87 т. и 85,51 т.

В журито взеха участие експерти от съорганизаторите Data Science Society, българска доброволческа общност от експерти в анализа на данни и Sensika, технологична платформа за проследяване и обработка на публикации онлайн и в социалните мрежи.

подкрепете ни

За честна и независима журналистика

Ще се радваме, ако ни подкрепите, за да може и занапред да разчитате на независима, професионална и честна информационно - аналитична медия.

Подкрепете ни

2 коментара

Екипът на Mediapool Ви уведомява, че администраторите на форума ще премахват всички мнения, съдържащи нецензурни квалификации, обиди на расова, етническа или верска основа.

Редакцията не носи отговорност за мненията, качени в Mediapool.bg от потребителите.

Коментирането под статии изисква потребителят да спазва правилата за участие във форумите на Mediapool.bg

Прочетете нашите правила за участие във форумите.

За да коментирате, трябва да влезете в профила си. Ако нямате профил, можете да се регистрирате.

Подреждане

Филтриране

анита хегерланд
23 май 2017 09:50 #2

Ако фалшивите новини означават лъжа, то те трябва да се третират като такъв проблем, след като се разбере защо човек лъже и какво получава от това. Нужен е не само технически, но и психологически подход.
ловец
23 май 2017 03:20 #1

Първо - от техническа гледна точка доста нестабилно решение.
Втроро - за статиите на Медиапоол е достатъчен прост парсер, който да проверява за наличието на следните думи и изрази в текста на статията - анонимен, пожелал анонимност, експерт, специалист, без конкретни доказатлества, не може да се/го/я потвърди. Веднага поне 40% от статиите ще бъдат дисквалифицирани от софтуера.
Трето - ограничаването на свободата на словото под каквато и да е форма трябва да се наказва с ефективни присъди и солени …