Data Science. Доработка существующего продукта, разработка с нуля. Здравствуйте! Меня зовут Даниил, я сейчас работаю над исследовательской работой в области применения методов машинного обучения к финансовым данным. Тема проекта — использование новостного сентимента для прогнозирования краткосрочного движения цен акций (на примере Amazon). Я собираю датасет новостей, оцениваю их сентимент с помощью языковых моделей, агрегирую признаки (среднее, стандартное отклонение, количество новостей, а также скользящие окна) и объединяю их с рыночными данными (OHLCV) для построения модели предсказания направления движения цены на следующий день. На текущем этапе я столкнулся рядом проблем: — сложности со сбором и качеством данных (в частности, неполные временные метки, неоднородность источников) — добавление признаков на основе сентимента практически не улучшает метрику модели — итоговая точность остаётся на уровне, близком к базовой, и сложно интерпретировать, есть ли в данных значимый сигнал Я хотел бы лучше понять, является ли это следствием ограничений данных/подхода или же в текущей постановке задачи действительно сложно извлечь предсказательную силу, и как корректно это исследовать. Вы могли бы помочь мне с этой задачей?.