поиск в интернете
расширенный поиск
Иу лæг – æфсад у, дыууæ – уæлахиз. Сделать стартовойНаписать письмо Добавить в избранное
 
Регистрация   Забыли пароль?
  Главная Библиотека Регистрация Добавить новость Новое на сайте Статистика Форум Контакты Реклама на сайте О сайте
 
  Строим РЮО 
Политика
Религия
Ир-асский язык
Образование
Искусство
Экономика
  Навигация
Авторские статьи
Общество
Литература
Осетинские сказки
Музыка
Фото
Видео
  Книги
История Осетии
История Алан
Аристократия Алан
История Южной Осетии
Исторический атлас
Осетинский аул
Традиции и обычаи
Три Слезы Бога
Религиозное мировоззрение
Фамилии и имена
Песни далеких лет
Нарты-Арии
Ир-Ас-Аланское Единобожие
Ингушско-Осетинские
Ирон æгъдæуттæ
  Интересные материалы
Древность
Скифы
Сарматы
Аланы
Новая История
Современность
Личности
Гербы и Флаги
  Духовный мир
Святые места
Древние учения
Нартский эпос
Культура
Религия
Теософия и теология
  Реклама
 
 
Технологии машинного обучения группы компаний «Ростелеком» признаны лучшими в морфологическом анализе текстов
Автор: 00mN1ck / 21 июня 2017 / Категория: Новости
Технологии машинного обучения группы компаний «Ростелеком» признаны лучшими в морфологическом анализе текстовСамообучаемый алгоритм морфологического анализа и нормализации русскоязычных текстов, разработанный специалистами АО «Айкумен ИБС», показал наилучшие характеристики в конкурсной части состоявшейся в Москве XXIII Международной конференции «Диалог 2017», посвященной актуальной оценке уровня развития российских машинно-лингвистических технологий
При подготовке к конкурсу «умный» классификатор набрал обучающую статистику признаков из текстового корпуса объемом более миллиона слов, а для оценки точности ему было предложен массив документов из 15000 слов.
В результате сравнительного тестирования на закрытой дорожке MorphoRuEval метод «Айкумен ИБС» признан победителем по точности нормализации русских слов, достигающей 92,22%. Кроме того, он занял второе место по восстановлению морфологических признаков с достоверностью свыше 93%.
По мнению директора Департамента разработки АО «Айкумен ИБС» Андрея Ярового, «независимая экспертиза «Dialogue Evaluation» подтвердила отличное качество морфологического анализа текстов, используемого в компании. Данный анализ является фундаментом всей текстовой аналитики, что позволяет нам с беспрецедентной точностью извлекать смысл из документов на русском языке».
«Мы продолжаем двигаться вперед, постоянно совершенствуем алгоритмы и разрабатываем инновационные методы в своей работе, предоставляя возможность нашим заказчикам максимально использовать преимущества IQPLATFORM® – современного отечественного продукта в области Big Data, по ряду функционала не имеющего аналогов на российском и мировом рынках» – подводит итог участия в мероприятии генеральный директор АО «Айкумен ИБС» Ирина Касаткина.
Морфологический анализ выполняется на начальных этапах автоматической обработки текста и является одной из наиболее важных операций, влияющих на финальное качество анализа документов. К его задачам относится определение части речи и морфологических признаков (падеж, род, число, время, лицо и пр.) каждого слова предложения, а также нормализация – корректное восстановление начальной формы этих слов.
Представленная технология лингвистической обработки позволяет более качественно и с минимальным участием человека анализировать большие объемы текстовой информации на естественных языках.
Существующие методологии в этой области сконцентрированы на английском языке. Но они абсолютно несовместимы с русской языковой моделью по причине ее морфологической обогащенности более чем 300 различными комбинациями признаков.
Исходя из этих особенностей, лингвистическая группа компании «Айкумен ИБС» разработала свой алгоритм, объединяющий достоинства классических способов с методами машинного обучения в виде двухступенчатой фильтрации словарного разбора:
• Формирование предположений о возможных разборах слова с применением грамматического словаря. При отсутствии в библиотеке необходимого термина производится поиск наиболее похожего слова для разбора по аналогии;
• Выбор оптимального варианта признака из контекста предложения с помощью самообучаемого классификатора на основе линейной машины опорных векторов SVM (Support Vector Machine). Для дополнительной проверки каждого разбора применяется общая оценка из суммы оценок входящих в него признаков, а в качестве оптимального выбирается разбор с максимальной оценкой.
Роль указанных признаков играют различные комбинации префиксов, суффиксов и отдельных морфологических характеристик слов в пределах контекстного окна размером ±3 слова от анализируемого.
Научно-практический форум «Диалог» ежегодно собирает ведущих ученых, мировых экспертов и отраслевых вендоров для обсуждения передовых методов компьютерной лингвистики и обмена опытом создания прикладных решений по интеллектуальному анализу текстов на естественных языках. Наибольшим интересом в программе конференции-2017 пользовался конкурс MorphoRuEval, организованный лабораторией «Dialogue Evaluation» для тестирования инструментов морфологического анализа русскоязычных текстов из сети Интернет. В этом году в нем приняли участие 15 команд, представляющих компании ABBYY, OnPositive, Pullenti, Samsung R&D и «Айкумен ИБС», а также университеты МФТИ, НИУ ВШЭ, ИСП РАН, МГУ, МИЭМ и НГУ.

* * *

АО «Айкумен ИБС» (входит в группу компаний «Ростелеком») - разработчик поисково-аналитической BigData-платформы IQPLATFORM® - российский эксперт в области информационно-аналитических технологий, объединяющий команду высокопрофессиональных специалистов с более чем 20-летним опытом и уникальными профильными компетенциями в следующих областях:
Разработка программного обеспечения и проектирование комплексных отраслевых решений на основе собственной технологической платформы IQPLATFORM® для сбора и анализа структурированных и неструктурированных данных из любых типов источников;
Научно-техническая экспертиза и исследования в сфере системной бизнес-аналитики, моделирования ситуаций и предиктивного анализа с применением методологий и инструментов Big Data.
Информация
Посетители, находящиеся в группе Гости, не могут оставлять комментарии к данной публикации.
  Информация

Идея герба производна из идеологии Нартиады: высшая сфера УÆЛÆ представляет мировой разум МОН самой чашей уацамонгæ. Сама чаша и есть воплощение идеи перехода от разума МОН к его информационному выражению – к вести УАЦ. Далее...

  Опрос
Отдельный сайт
В разделе на этом сайте
В разделе на этом сайте с другим дизайном
На поддомене с другим дизайном


  Популярное
  • "Ростелеком" обнуляет тарифы на пользование wi-fi в точках доступа, построенных по проекту устранения цифрового неравенства
  • «Владикавказские аланы» – на «Алых парусах»
  • Маяки дружбы
  • Танец для любимой певицы
  • Премьера нового сезона «Игры престолов» состоялась в московском метро при поддержке «Ростелекома»
  • Поэзия – моя отрада, моя жизнь!
  • «Ростелеком» приглашает на турнир по «World of Tanks» во Владикавказе
  • Интернет в Санибе и Молодежном. «Ростелеком» провёл «оптику» в три населенных пункта Пригородного района Северной Осетии
  • Мелодия "Хонгæ" на новой гармони
  • Настоящий Кавказ – добрый Кавказ
  •   Архив
    Август 2017 (20)
    Июль 2017 (29)
    Июнь 2017 (44)
    Май 2017 (36)
    Апрель 2017 (40)
    Март 2017 (56)
      Друзья

    Патриоты Осетии

    Осетия и Осетины

    ИА ОСинформ

    Ирон Фæндаг

    Ирон Адæм

    Ацæтæ

    Осетинский язык

    Список партнеров

      Реклама
     liex
     
      © 2006—2017 iratta.com — история и культура Осетии
    все права защищены
    Рейтинг@Mail.ru