разработка токенизатора. Разработка с нуля. 1. Разработать собственный токенизатор, в котором для каждого токена будет присваиваться его тип: «слово», «имя собственное», «год», «дата» и пр. Допускается адаптация готовых реализаций. Например, в NLTK или Stanza. 2. Подобрать текст не менее 1800 символов, но не более 3600 символов на русском языке с вкраплениями латинизированных названий. В тексте должно быть не менее пяти различных видов токенов. 3. Оценить работу собственного токенизатора, описать ошибки и возможные решения. сформулировать цель, задачи, используемый инструментарий, описать материал и прикрепить результаты: код, вывод и свои комментарии (оценка работы, достоинства и недостатки, предложения по улучшению и пр. информация). 4. Оформить результаты работы в виде отчета. объем 10 страниц.