Jonmey
Advanced Member | Редактировать | Профиль | Сообщение | Цитировать | Сообщить модератору Frantishek Есть программа Ant Movie Catalog. У нее есть скрипты для скачивания с сайтов описаний фильмов. В нее встроен отладчик для создания и тестирования этих скриптов. Скрипты пишутся на паскале (то есть, самая классика алгоритмов). Существуют пользовательские скрипты для кинопоиска (искать в топике программы). Воспользовавшись этим инструментом можно воочию увидеть, как извлекается инфа со страниц - шаг за шагом (то есть видеть результат после каждого программного шага скрипта). Соответственно, человек желающий использовать для парсинга обсуждаемую в топике программу легко поймет, какие именно шаги можно осуществить в пакетном редакторе (textpipe, powergrep и др). А эти шаги (использование - поска/замен/удаления) в сущности ничем не отличаются от шагов, которые нужно сделать в любом продвинутом текстовом редакторе со скачанной страницей, чтобы в итоге получить итоговую строку или строки с инфой, которую извлекают. Иначе говоря, если вы способны извлечь инфу в текстовом редакторе используя инструменты поска/замен/удаления, то эти же самые шаги можно перенести в пакетный редактор, который обработает тем же самым путем уже не одну, а сколько угодно страниц. Если же речь идет о самом кинопосиске (сайте), то проблема состоит не в обработке или извлечении инфы, а в массовом скачивании контента, поскольку на сайте стоит защита от этого, и сперва нужно решить эту проблему. Само же скачивание и парсинг страниц дело тривиальное. Поэтому нет никакого смысла тратить время на, фактически, ликбез для вас, используя сайты, контент которых вы не сможете скачать (не говоря о том, что конкретно в случае кинопоиска необходимо скачивать несколько страниц, по которым размазана инфа об одном фильме - что кратно увеличивает объем обработки при парсинге). Для обучающих примеров нужно выбирать наиболее простые сайты, типа RuTor (Rutracker - уже сложнее, поскольку страницы содержат больше балластного кода). Чтобы парсить странцы, нужно иметь представление об html - структура, теги и т.д. Без этого обсуждаемая в данном топике программа не поможет, поскольку она лишь инструмент облегчающий манипулировние с символами, как и любой пакетный редактор. | Всего записей: 1319 | Зарегистр. 17-01-2011 | Отправлено: 01:19 08-12-2019 | Исправлено: Jonmey, 01:57 08-12-2019 |
|