SHAREWOOD
SHAREWOOD
Редактор
- Регистрация
- 25/11/2019
- Сообщения
- 136.537
- Репутация
- 77.566
Складчина: Лингвистические корпуса и их количественный анализ (Курс "Компьютерная лингвистика") [Архэ] [Александр Пиперски]
Описание:
Компьютерная лингвистика представляет собой активно развивающуюся область на пересечении теории и практики. С её прогрессом мы сталкиваемся повсеместно, будь то машинный перевод, веб-поиск или голосовые ассистенты. За каждым таким решением находится значительный труд лингвистов и программистов. В рамках данного курса мы обсудим историю компьютерной лингвистики, её ключевые подходы, и как они помогают решать конкретные задачи, такие как орфографическая проверка или классификация новостей по темам.
3. Лингвистические корпуса и количественный анализ
Большинство текущих приложений в области компьютерной лингвистики опирается на обширные наборы текстов, известные как лингвистические корпуса. Некоторые из них, например, Национальный корпус русского языка ((Скрытая ссылка)), доступны для онлайн-поиска и предоставляют результаты, полезные даже для традиционной, не компьютерной лингвистики. На занятии мы обсудим структуру таких больших текстовых сборников и их количественные характеристики: почему, например, частотное распределение слов в корпусах подобно численности населения городов, и почему большая часть слов в любом выбранном корпусе встречается всего лишь раз.
[Lecturer: Александр Чедович Пиперски, кандидат филологических наук, доцент Института лингвистики РГГУ, научный сотрудник Школы филологии НИУ ВШЭ.]
(Скрытая ссылка)
Материал «Лингвистические корпуса и их количественный анализ (Курс "Компьютерная лингвистика") [Архэ] [Александр Пиперски]», возможно, скоро появится на SHAREWOOD.
Воспользуйтесь поиском, может быть, он уже опубликован.