Создательница Wordfreq объявила о закрытии проекта

Создательница Wordfreq объявила о закрытии проекта
Создательница Wordfreq объявила о закрытии проекта
Проект по изучению языкового использования в интернете завершил свою работу, так как нейросети серьезно «исказили данные», заполнив интернет искусственно созданным текстом.

Создательница проекта Wordfreq, который отслеживал онлайн-публикации для определения популярности различных слов, объявила о закрытии проекта. Основная причина — спам, генерируемый искусственным интеллектом. Он “отравил” интернет до такой степени, что дальнейшие исследования уже невозможны. Wordfreq отслеживал более 40 языков, анализируя статьи на Википедии, субтитры к фильмам, новостные блоги, а также контент из Twitter и Reddit.

Эта система использовалась для анализа изменения языковых паттернов в соответствии с изменениями современной культуры и была полезна учёным, работающим в данной области. В своём сообщении на GitHub создательница проекта Робин Спир упомянула, что он «больше не будет обновляться».

«Не думаю, что у кого-то есть надежная информация об использовании языка людьми после 2021 года», — отметила она. По словам разработчицы, сегодня интернет заполнен “мусором”, который создают нейросети. «Включение этого мусора в данные искажает частоту использования слов», — сообщила она. В данных, которые анализировал Wordfreq, всегда был спам, но «он был управляемым и часто идентифицируемым». «Большие языковые модели генерируют текст, который специально маскируется под настоящий язык», — пожаловалась она. Спир также привела пример того, что ChatGPT, например, злоупотребляет словом «вникать», что резко повысило частоту этого конкретного слова (но его не так часто используют люди).

Она отметила, что сегодня почти все инструменты (которые щедро финансируют Google, OpenAI и другие) для анализа текста используются именно для обучения нейросетей, чтобы создать «технологии для плагиата, которые будут выдавать ваши слова за свои». Спир также отметила, что сегодня данные получить сложнее, поскольку Twitter и Reddit, которые использовал Wordfreq, начали взимать плату за доступ к своим API из-за того, что их используют для обучения нейросетей.


Распечатать
01 июня 2025 В Санкт-Петербурге неизвестные выбросили комод с балкона, попав при этом в ребенка
01 июня 2025 Зеленский утвердил состав украинской делегации для переговоров в Стамбуле
01 июня 2025 Корабль из «теневого флота» без документов направился в российские воды Балтийского моря
01 июня 2025 На месте обрушения моста в Брянской области идут восстановительные работы
01 июня 2025 "Лентехстрой" вернулся: каким образом связанный подрядчик использует бюджет ФКСР
01 июня 2025 Количество пострадавших в результате подрыва моста в районе Брянска превысило 70 человек
01 июня 2025 Офшорные следы и российский след в украинском игорном бизнесе: Андрей Матюха использует FavBet для отмывания денег через компании, связанные с Ротенбергом
01 июня 2025 В Санкт-Петербурге таксист атаковал пассажира после спора об оплате
01 июня 2025 Литва больше не будет принимать российские загранпаспорта старого образца
01 июня 2025 Во Франции водитель автомобиля наехал на группу футбольных болельщиков
01 июня 2025 Французский клуб ПСЖ впервые в своей истории одержал победу в Лиге Чемпионов
01 июня 2025 Мошенничество на миллиарды: как схема с "Тамбовводтранс" превратилась в финансовую пропасть для государственного бюджета
01 июня 2025 Конкуренция отсутствовала: 31,5 миллиарда рублей были выделены "своим" на дорожное обслуживание
01 июня 2025 В Курской области обрушился железнодорожный мост
01 июня 2025 Опубликованы детали инцидента с обрушением моста на пассажирский поезд в Брянской области
01 июня 2025 В Брянской области взрыв на мосту повредил поезд и ранил более 40 человек
01 июня 2025 Локомотивная бригада погибла при обрушении моста в Брянской области
01 июня 2025 Число жертв обрушения моста под Брянском увеличивается: имеются погибшие
01 июня 2025 США обозначили условия для прекращения войны в Украине
01 июня 2025 Увеличение выплат по контракту не привело к ожидаемому росту числа новобранцев в российской армии