NvvLazyTiger
Member | Редактировать | Профиль | Сообщение | Цитировать | Сообщить модератору "siTop1000m"-scripts ~~~~~~~~~~~~~~~~~~~~ Комлект скриптов для локальной сборки рейтингов "siTop1000m" ("Самиздат", прошедший месяц, самое популярное) Краткое описание. 2019.01.06. Влад (nvv;) 1. Состав: а) siTop-aHits.* - монитор топовых разделов (авторов) СИ siTop-aHits.awk - парсер: хиты_А+место_А+id_A(у меня - n/nosow_w_w)+"ФИО"(ник/ФИО владельца раздела) siTop-aHits.cmd - обвязка для парсера siTop-aHits - пускаь можно без ограничений; - при появлении более свежих данных выполняется обновление локального списка: например: 2018.12.30.aHits б) siTop-bStat.* - сборка/сортировка_по_хитам списка текстов топовых авторов siTop-bStat.awk - парсер: +хиты_Т+место_Т+id_T(имя файла с текстом без расширения)+"заголовок_текста" siTop-bStat.cmd - обвязка для парсера siTop-bStat - пускается в начале месяца (после 03:00 МСК, 2-го числа) - собирается список полу-миллиона текстов с атрибутами: например: 2018.12.30.bStat в) siTop-mText.* - сборка/насыщение данными списка "1k топовых текстов прошедшего месяца" siTop-mText.awk - парсер: +даты/объём/жанры/оценки_текста +наполнение/активность_гостевой siTop-mText.cmd - обвязка для парсера siTop-mText - пускается следом за siTop-bStat - собирается полностью атрибутированный список 1k топовых текстов месяца например: 2018.12.30.mText г) siTop-mWebs.* - оформление списка 1k в комплект файлов с таблицами в формате HTML siTop-mWebs.awk - оформитель "от и до" siTop-mWebs.cmd - обвязка для siTop-mWebs - пускается следом за siTop-mText - оформляются 5 файлов с таблицами рейтинга, например: 2018.12.siTm.html 2018.12.t.Am.html 2018.12.t.Dm.html 2018.12.t.Um.html 2018.12.t.Zm.html l) Вспомогательные скрипты wGetUrl2fil.cmd - универсальный скачиватель файлов с СИ, снабжён подсказкой siTopOk_No.cmd - переключатель файла-флага: siTop.NO <=> siTop.OK (если флага нет, - создаётся) 2. Схема использования: а) за несколько дней до конца месяца пускается: siTop-aHits.cmd MINUTES (MINUTES - интервал рескана СИ в минутах) б) после 03:00 МСК 2-го числа наступившего месяца последовательно (по-очереди) пускаются: siTopOk_No.cmd siTop-bStat.cmd siTop-mText.cmd siTop-mWebs.cmd siTopOk_No.cmd NB. Минимальное потребное время (в идеале;) - 10000+1000+2000 секунд (более трёх с половиной часов) У меня получается около 6-и часов. в) результаты - в подкаталоге #siTop: - подкаталоги: #aHits - страницы самого свежего рейтинга СИ по хитам разделов #bStat - файлы *.bStat.htm (статистики 10k топовых разделов) #mRepl - файлы *,htm (страницы гостевых 1k топовых текстов) #mText.20??.??(например, #mText.2018.12) - файлы *,html (1k топовых текстов месяца) + комплект файлов-списков; например, для рейтинга декабря 2018г. 2018.12.30.aHits 2018.12.30.bStat 2018.12.30.mText 2018.12.siTm.html 2018.12.t.Am.html 2018.12.t.Dm.html 2018.12.t.Um.html 2018.12.t.Zm.html NB. siTop-mWebs использует список *.mText за предыдущий месяц для вычисления сдвига ранжируемых текстов. Если такого списка нет, все тексты в рейтинге помечаются как новые "NEW". 3. Развёртывание. а) место - у меня U:\ б) нужны бесплатные утилиты: wGet.exe и gAwk.exe в) нужен доступ wGet.exe к samlib.ru г) недостающие подробности см. в пилотной реплике и в самих умеренно откомментированых скриптах. ~~~~~~~~~~~~~~~ (copyleft,2019) /\/.\/.\/. | Всего записей: 257 | Зарегистр. 14-02-2009 | Отправлено: 06:01 06-01-2019 | Исправлено: NvvLazyTiger, 07:29 06-01-2019 |
|