• A
  • A
  • A
  • АБB
  • АБB
  • АБB
  • А
  • А
  • А
  • А
  • А
Обычная версия сайта
Бакалавриат 2021/2022

Машинный поиск информации в химии

Статус: Курс обязательный (Химия)
Направление: 04.03.01. Химия
Кто читает: Факультет химии
Когда читается: 2-й курс, 3 модуль
Формат изучения: без онлайн-курса
Охват аудитории: для своего кампуса
Язык: русский
Кредиты: 3

Программа дисциплины

Аннотация

Дисциплина «Машинный поиск информации в химии» направлена на формирование современных представлений по основным методам поиска научно-технической информации по химии, ознакомление с существующими наиболее важными информационно-поисковыми системами, отработка практических навыков поиска научно-технической информации в интернете. Основные задачи данного курса заключаются в выработке навыков осмысленной работы с наиболее важными онлайновыми информационными ресурсами и поисковыми инструментами, освоении специализированных средств конструирования, визуализации химических структур и прогнозирования физико-химических параметров, обнаружения спектральных характеристик химических объектов, в отработке приемов архивации полученных результатов. Изучение данной дисциплины базируется на следующих дисциплинах: • Информатика для химиков • Математический анализ. Для освоения учебной дисциплины студенты должны владеть следующими знаниями и компетенциями: • Знать элементарные правила работы с компьютером, программным обеспечением общего назначения. • Знать английский язык на уровне чтения и перевода со словарем. • Уметь формализовать проблемы и ситуации профессиональной деятельности, используя язык и аппарат математических наук и информационных технологий.
Цель освоения дисциплины

Цель освоения дисциплины

  • Целями освоения дисциплины Машинный поиск информации в химии являются: формирование современных представлений по основным принципам поиска научно-технической информации, ознакомление с существующими наиболее важными информационно-поисковыми системами, отработка практических навыков поиска научно-технической информации в интернете.
Содержание учебной дисциплины

Содержание учебной дисциплины

  • Источники, виды представления и структура научной информации
    Понятие научно-технической информации (НТИ). Классификация НТИ — первичные (оригинальные статьи, патенты, тезисы конференций) и вторичные (реферативные сборники, справочники) ресурсы; электронные и печатные ресурсы. Базы данных (БД) и их классификация. Особенности БД для химиков. Полнотекстовые БД. Google и Google Scholar. Основные производители и агрегаторы полнотекстовых БД по химии. Современные атрибуты полнотекстовых электронных ресурсов – ISSN, DOI, cif-файлы. Оценка качества полнотекстовых ресурсов – импакт-факторы журналов и их расчет. Современные тенденции в научной периодике. Журналы-хищники, их признаки и методы борьбы с недобросовестными изданиями. Переход к модели открытого доступа (OPEN ACCESS) для полнотекстовых ресурсов – достоинства и недостатки.
  • Библиографические базы данных
    Отличия библиографических и полнотекстовых БД, Индексные термины. Рубрикация и ключевые слова. Возможность поиска по цитированию. Логические операторы (boolean), символы усечения (truncation, wildcards), контекстные операторы (proximity). STN International как агрегатор библиографических БД по естественным наукам. Командный язык Messenger. Разделение БД STN International по областям знаний – химия, химическая технология, фармакология, нефтехимия, материаловедение и другое. Понятие о политематических и специальных ресурсах. Реферативные и библиографические БД - Chemical Abstracts, Chemical Abstracts Plus, SciSearch. Web of Science и Web of Science Core Сollection (WoS CC) – история развития ресурса. Информационное наполнение WoS CC. Понятие о квартилях журналов. Индекс Хирша и его расчет. EndNote как инструмент для импорта-экспорта ссылок и для хранения полных текстов. Основные различия между EndNote и EndNote Desktop. SCOPUS и Mendeley как альтернатива WoS CC и EndNote. Аналитические инструменты в библиографических ресурсах – InCites (Clarivate Analytics), SciVal (Elsevier), AnaVist (Chemical Abstracts Service). Особенности поиска по авторам – идентификаторы RESEARCHER ID и ORCID. Расчет индекса Хирша для авторов и для организаций. Влияние временного интервала на величину индекса Хирша. Библиографическая БД Chemical Abstracts/Chemical Abstracts Plus. История развития и создания – от печатного реферативного журнала к online ресурсу. Содержание ресурса, отличия от библиографических ресурсов WoS CC и SCOPUS. Поисковые сервисы – от печатных указателей к аналитическим инструментам – рубрики, контролируемая терминология, индексация по веществам. Поиск по цитированию в библиографических ресурсах производства Chemical Abstracts Service. Сохранение результатов поиска в различных менеджерах по ссылкам.
  • Базы данных по химической информации
    Структурно-химические базы данных. Информационно-поисковые системы SciFinder, REAXYS. 3.1. SciFinder как единая платформа для библиографических и структурно-химических БД. - Структурно-химическая БД CAS Registry. Содержание и наполнение БД CAS Registry. Фактографическая информация по веществам в БД CAS Registry. Поиск по полному химическому названию и по фрагментам. Особенности систематической номенклатуры Chemical Abstracts Service. Поиск веществ по молекулярной формуле (порядок Хилла). Регистрационные номера CAS как идентификаторы химических соединений. Использование альтернативных идентификаторов химических соединений – SMILES, InChI, InChiKey. Химические каталоги в SciFinder. 3.2. CAS Registry. Различные виды поиска структур в структурно-химических БД с использованием химического редактора молекул – по точному соответствию, подструктурный поиск, поиск по подобию. Особенности стереопоиска, поиска таутомеров, солей, cмесей и радикалов. Возможные пути анализа и систематизации полученных результатов. Переход от информации по веществам к библиографическим и полнотекстовым данным. Контекст: упоминание веществ в первоисточниках – роли CAS. Поиск веществ по фактографическим данным. Представление биологических свойств веществ в CAS Registry (виды активности, мишени). Эмпирическое «правило пяти» Липинского. 3.3. Другие структурно-химические БД из SciFinder – CASREACT, MarPat, Содержание и наполнение. Поиск по реакционной части SciFinder. Детализация результатов по исходным соединениям, катализаторам, растворителям, количеству стадий, выходу и другим параметрам. Отличие reactant и reagent. Mapping и marking реакций. Подробное описание методики синтеза как альтернативы поиска первоисточников. Планирование методик синтеза. 3.4. REAXYS – история развития и возникновения ресурса. Представление веществ и реакций. Поиск по веществам (молекулярная формула, название, фрагменты названия, CAS Rn, SMILES, InChiKey, с использованием структурного редактора молекул). Поиск по реакциям – различные виды поиска реакций – по точному соответствию, подструктурный поиск, по сходным реакционным центрам. Уточнение результатов поиска по выходу, количеству стадий и иным параметрам. Планирование методик синтеза. Работа с ресурсом через Chem3D. Фактографическая составляющая REAXYS. 3.5. Кембриджская база структурных данных (КБСД). Поиск по параметрам кристалла. Поиск по химической структуре. Поиск структур с определённым расположением атомов в пространстве. Фильтрация кристаллических структур по качеству эксперимента/решения. Составление сложных запросов и пост-обработка найденных данных в Mercury. Возможности поиска в бесплатных информационных ресурсов по веществам и реакциям – PubChem, ZINC и др.
  • Патентная информация в источниках НТИ.
    Патенты как первоисточники НТИ. Процедура патентования — заявка, публикация, патент. Время действия патента. Правовой статус патента. Международная классификация изобретений. Патентное семейство. Доступ к полным текстам патентов (открытый доступ). Международные и национальные патентные ведомства. Патентное ведомство России – Роспатент. Патентные ресурсы для химиков – SciFinder, REAXYS, Orbit.
Элементы контроля

Элементы контроля

  • блокирующий Контрольная работа 1
    Контрольная работа по теме " Литературный поиск"
  • блокирующий Контрольная работа 2
    Контрольная работа по теме "Химические базы данных"
  • неблокирующий Домашние задания
    Три домашних заданий в течении курса с равным весовым коэффициентом.
  • неблокирующий Экзамен
Промежуточная аттестация

Промежуточная аттестация

  • Промежуточная аттестация (3 модуль)
    0.15 * Домашние задания + 0.15 * Контрольная работа 1 + 0.2 * Контрольная работа 2 + 0.5 * Экзамен
Список литературы

Список литературы

Рекомендуемая основная литература

  • Введение в хемоинформатику. Ч . 5: Информатика химических реакций, Баскин, И. И., 2017
  • Введение в хемоинформатику. Ч. 1: Компьютерное представление химических структур, Маджидов, Т. И., 2013
  • Введение в хемоинформатику. Ч. 2: Химические базы данных, Маджидов, Т. И., 2015
  • Введение в хемоинформатику. Ч. 4: Методы машинного обучения, Баскин, И. И., 2016
  • Введение в хемоинформатику. Ч. 6: Химическое пространство и виртуальный скрининг, Маджидов, Т. И., 2019
  • Введение в хемоинформатику. Ч.3: Моделирование "структура - свойство", Баскин, И. И., 2015

Рекомендуемая дополнительная литература

  • Wei, W. (2017). Information Retrieval in Biomedical Research: From Articles to Datasets.