Статистические методы обработки языка и речи

  1. Примеры работы с nltk и рисование графиков (helloworld.ipynb)[http://nbviewer.jupyter.org/github/iposov/students-site/blob/master/22spring/nlp/helloworld.ipynb]
  2. Jupyter, закон Ципфа: jupyter-zipf.pdf
  3. Дополнительные задания по закону Ципфа. N-грамм модели: zipf-ngram.pdf
  4. Numpy, Линейная регрессия: (numpy-linear-regression.ipynb)[http://nbviewer.jupyter.org/github/iposov/students-site/blob/master/22spring/nlp/numpy-linear-regression.ipynb]
  5. N-грамм модели в NLTK: (ngram.ipynb)[http://nbviewer.jupyter.org/github/iposov/students-site/blob/master/22spring/nlp/ngram.ipynb]
  6. N-грамм модели и оценка модели: ngrams.pdf
  7. Классификация методом наивного байеса: naive-bayes.pdf, naive-bayes.ipynb
  8. Кластеризация — пока без примеров кода
  9. Word2Vec — пока без примеров кода
  10. Conditional Random Field, пример кода crf.ipynb

Работа с текстом

Задания

Закон Ципфа

N-грамм модели

Наивный Байес

Кластеризация

Word2Vec

Получите с сайта https://rusvectores.org/ru/ одну из word2vec моделей. Возьмите текст, разбейте его на слова, получите матрицу: строки соответствуют словам текста, внутри строки word2vec представление слова. Запустите KMeans кластеризацию на этой матрице. Т.е. кластеризуйте слова по смыслу. Уменьшите размерность с 300 до 2 и нарисуйте все точки на плоскости, желательно разные кластеры — разными цветами.