Плагины, программы и скины от ака Учкун
Вы хотите отреагировать на этот пост ? Создайте аккаунт всего в несколько кликов или войдите на форум.
Плагины, программы и скины от ака Учкун

Форум для владельцев спутниковых ресиверов на enigma2. Ресиверы dreambox, vu-plus и другие. Программы, плагины, скины, локализации от ака Учкун. ExtraChannelSelection
 
ФорумФорум  Последние изображенияПоследние изображения  РегистрацияРегистрация  ВходВход  

 

 FAQ: Секреты и уловки парсинга в python

Перейти вниз 
АвторСообщение
ака Учкун
Администратор
Администратор
ака Учкун


Статус : .....
Сообщения : 533
Рейтинг : 33923
Благодарности : 27858
Дата регистрации : 2017-06-29
Возраст : 58
Откуда : Узбекистан

FAQ: Секреты и уловки парсинга в python Empty
СообщениеТема: FAQ: Секреты и уловки парсинга в python   FAQ: Секреты и уловки парсинга в python EmptyСр 31 Окт - 8:53

FAQ: Секреты и уловки парсинга в python


Приготовьтесь, это будет большая статья и предполагаю много дней у меня уйдет на написание этой статьи полностью.

Для чего и для кого эта статья?
Конечно же в помощь таким же как я, каким я был еще год назад, начинающим скажем так "парсингистом".
Я не профессиональный программист, никогда им не был и уже разумеется и не буду.
Я всего лишь любитель-самоучка. Нет разумеется в интернете прошел немало онлайн-курсов, даже имею сертификаты об окончании таких онлайн-курсов, а некоторые недоокончил, забросил на полпути, под рукой всегда интересные книжки по питону, Лутц и другие. За что этим энтузиастам большое конечно мое человеческое спасибо.

Вот теперь хочу в ответ поделиться тем, что я умею.
Но так как повторюсь я не профессионал, в ходе написания статьи могут и проскальзывать иногда какие-то наивности, так сказать издержки непрофессионализма. Прошу строго не судить за это.

Все это я думаю, тем более интересно будет, так как у меня ситуация так сказать с ограниченными возможностями.
В чем ограничения?

В том, что я пишу плагин конкретно под имиджи (прошивки) конкретных спутниковых ресиверов.
А в них установлена только конкретная версия python, в данном случае python версии максимум 2.7.12 с соответствующими разумеется библиотеками, и то не всеми конечно же, имиджи не резиновые.
Когда давным-давно есть уже, как знаете намного более поздние версии питона - 3.х.х, ситуация как вы понимаете существенно меня ограничивает. И даже более того, много полезных библиотек которые можно было бы установить даже на эту версию питона, в имиджах не установлены.

Разумеется можно доустанавливать, что и делают плагинописатели, и тянется иногда за плагином большущий хвост зависимостей. Но ведь не все же подряд можно доустанавливать. Во-первых нет на фидах имиджей, но и это разумеется не проблема, но ведь имиджи не резиновые, и процы у них, совсем не как у компьютеров. 
Так что, вот такое ограничение.

Но ведь интереснее тем паче выходить-то из такой ситуации!

Начнем непосредственно с того как получить страницы, их обработка, и закончим обработкой зашифрованных ссылок на медиафайлы.

Хотя конечно вроде бы, ну что сложного в получении кода страниц сайтов и их обработке?
Ну нет, не говорите, вообще честно говоря, если бы я чуть более года назад, знал бы с каким океаном водных течений придется столкнуться в деле написания такого плагина, абсолютно честно, испугался бы и ни за что не смог бы взяться за это дело.
Блаженны не неверующие, а не знающие и не предполагающие.


Что имеем при старте?
Разумеется неплохое знание питона, раз уж мы с его помощью собрались парсить.
Ну и конечно же глубокое знание возможностей замечательной библиотеки json.
Без него при парсинге ну никак. 

 
И знание возможностей библиотек для парсинга.
А их как известно море.
BeatifulSoap, urllib, urllib2, urllib3, requests, xml, lxml (замечательная библиотека), ну и конечно же регулярные выражения re и т.д. и т.п. 
В первую очередь будем использовать urllib и urllib2, хотя бы потому, что они уже предустановлены в имиджах.
Далее уже по выбору.

Я бы предпочел бы lxml, ах какая замечательная (по моему мнению) библиотека, как легко и главное быстро парсятся xml и html с ее помощью.
Но я с самого начала удержался от этой идеи. Хотя конечно возможность доустановить эту библиотеку в имидж существует, но во-первых это лишняя нагрузка на флеш, во-вторых кажись нет его на фидах, значит сложности для юзеров обеспечены, ну и в-третьих без него обходятся другие авторы медиаплагинов, чем я хуже?

Точно такая же ситуация с BeatifulSoap.

Значит решено. Для получения страниц будем использовать urlliburllib2urllib3requests, а для обработки в основном регулярные выражения. Нет, я понимаю, когда существуют такие библиотеки как BeatifulSoap и lxml, это наверно извращение использовать регулярку для этого дела. Но, во-первых у меня нет другого выхода в данной ситуации, во-вторых это быстрее.

Итак приступим.


Продолжение следует. По наличию свободного времени.


--
Вернуться к началу Перейти вниз
https://forum-aka-uchkun.forum2x2.ru
 
FAQ: Секреты и уловки парсинга в python
Вернуться к началу 
Страница 1 из 1
 Похожие темы
-
» FAQ: Как перевести любимые плагины с python 2 на python 3

Права доступа к этому форуму:Вы не можете отвечать на сообщения
Плагины, программы и скины от ака Учкун :: Прочее :: FAQ-
Перейти: