Контакты
Сайт с материалами https://students.iposov.spb.ru Почта iposov@gmail.com или Discord личные сообщения для посылки заданий
Обработка естественных языков
Раздел «Искусственного интеллекта». Машинное обучение — тоже раздел «искуственного интеллекта», но не всегда ОЕЯ делается через машинное обучение. Хотя очень часто.
Примеры задач обработки ЕЯ:
- классификация текстов. Даны тексты, надо разбить на классы
- определение спама (классы: спам/не спам)
- анализ модальности (sentiment analisys), т.е. хорошо написано о предмете или плохо
- новости могут быть про политику, про спорт и т.д.
- машинный перевод
- информационный поиск. Поиск текста по запросу.
- Чат боты / вопросно-ответные системы.
- автоматическое реферирование. Превратить длинный текст в короткий, оставив основной смысл.
Внутренние задачи обработки ЕЯ:
- морфологический анализ: «кроватью» — сущ, тв. падеж, ед. число «стали» — гл прош время, мн. число, сущ, р.п. ж.р.
- снятие неоднозначности. Понять смысл слова в тексте. “замок” — это имеется в виду, который каменный или железный на двери.
- разрешение кореференции. Понять, про что говорит местоимение. Обезьяна стала есть капусту, она(?) очень вкусная/громкая.
- выравнивание текстов. Есть два текста на русском/английском, понять, как предложения текстов соответствуют друг другу.
- Синтаксический анализ. Примерно как в школе определяются подлежащие, сказуемые, обстоятельства.
- …
Методы в ОЕЯ
- классические лингвистические
- классическое машинное обучение
- глубокое обучение
классические лингвистические методы: методы, основанные на правилах. Лингвисты придумывают правила обработки текста. Например, если написан переходный глагол, а потом существительное в винительном падеже, сказать, что это обстоятельство для этого глагола. Или прилагательное, а потом существительное.
Машинное обучение. Компьютер не пытается понять текст, делает статистические вычисления. Пример, как можно делать автоматическое реферирование, ничего не понимая в тексте.
- можно посчитать частоты слов в тексте и отобрать самые частые
- выкинуть предлоги, служебные слова
- остаются важные слова, которые как бы содержат в себе то, о чем этот текст.
- чтобы создать реферат, достаточно выбрать предложения, в которых встречается как можно большое «важных» слов.
Глубокое обучение — машинное обучение на нейронных сетях, у которых несколько слоев.
Технологии:
- язык Python
- библиотеки вспомогательные, nltk и др.
- Jupyter блокноты, позволяют программировать интерактивно.
Как установить Jupyter.
- использовать дистрибутив Python и вспомогательных инструментов: Anaconda
- PyCharm (Pro — не бесплатная), есть бесплатная лицензия для студентов для учебных целей, можно получить автоматически по своему учебному email. от JetBrains
- google collab можно, если сами справитесь с трудностями.
- datalore (от Jetbrains)