Парсинг - важный момент для написания всевозможных сайтов с объявлениями. Главное предназначения парсера - получит уже существующую информация на каком-то сайте в удобном для дальнейшего использования формате.
Часто таким образом забиваю тестовые БД, для того чтобы "поганять" систему на большой базе. Набирать и придумывать такую тестовую информацию - процес не из простых, и точно не из интересных.
Написать парсер на Ruby on Rails не составляет особого труда, так как существуют мощные библиотеки для этого, а также регулярные выражения в Руби - выше всяких похвал.
Для написания парсеров используется библиотека HPricot(здесь находится сайт с документацией и примерами), которая позволяет используя XPath систему поиска легко вытянуть нужную информацию.
Если кому нужно поправить знания XPath, то это легко можно сделать используя уроки XPath.
Если возникают проблемы с переводом английской документации - пишите в комментарии, постараюсь помочь.
Для того чтобы в Руби научится писать и использовать регулярные выражения, существует очень удобный и полезный сайт, где можно отдельно от кода тестировать рег.выражения. Советую его посетить и добавить себе в закладки, помогает в разработке, даже очень - Rubular
Пока я буду писать статьи подобного плана, где буду выкладывать и описывать ресурсы, на которых вы можете найти интересующую информацию. Если будут поступать пожелания, то я буду стараться писать статьи по ваших вопросах.
Продолжение следует....
Часто таким образом забиваю тестовые БД, для того чтобы "поганять" систему на большой базе. Набирать и придумывать такую тестовую информацию - процес не из простых, и точно не из интересных.
Написать парсер на Ruby on Rails не составляет особого труда, так как существуют мощные библиотеки для этого, а также регулярные выражения в Руби - выше всяких похвал.
Для написания парсеров используется библиотека HPricot(здесь находится сайт с документацией и примерами), которая позволяет используя XPath систему поиска легко вытянуть нужную информацию.
Если кому нужно поправить знания XPath, то это легко можно сделать используя уроки XPath.
Если возникают проблемы с переводом английской документации - пишите в комментарии, постараюсь помочь.
Для того чтобы в Руби научится писать и использовать регулярные выражения, существует очень удобный и полезный сайт, где можно отдельно от кода тестировать рег.выражения. Советую его посетить и добавить себе в закладки, помогает в разработке, даже очень - Rubular
Пока я буду писать статьи подобного плана, где буду выкладывать и описывать ресурсы, на которых вы можете найти интересующую информацию. Если будут поступать пожелания, то я буду стараться писать статьи по ваших вопросах.
Продолжение следует....
ну!?? а продолжжение где??
ОтветитьУдалить