Semalt розробляє URLitor - дуже крутий інструмент веб-вискоблювання та вилучення даних

URLitor - це новий, але ефективний інструмент веб-вискоблювання та вилучення даних. Щоб скористатися URL-адресою, вам просто потрібно додати список усіх URL-адрес, вміст яких ви хочете скребки в Інтернеті у наданому шаблоні. Потім потрібно вказати HTML-елемент, який потрібно витягнути з веб-сторінок, і натиснути кнопку подання. Це так просто, як це. За допомогою цього інструменту вам більше не потрібно робити копію чи вставляти з браузера.

xPath - мова, яка використовується для пошуку інформації у файлах XML. Він використовує певні вирази для вибору наборів вузлів або вузлів у файлах XML. Вирази, які розуміє XPath, досить схожі на ті, що використовуються для звичайних комп'ютерних файлів чи документів.

Хоча XPath використовується з декількома мовами програмування, цей інструмент розроблений для користувачів, які не володіють знаннями з програмування. Отже, вам не потрібно бути програмістом, щоб ним скористатися. За допомогою цього інструменту ви можете отримати дані з декількох HTML та XML сторінок.

Для простоти використання кілька часто використовуваних виразів XPath були заздалегідь визначені у випадаючому меню, так що користувачам потрібно буде вибрати будь-який з них, залежно від їх мети. Однак досвідчені користувачі XPath мають право використовувати свої власні вирази, коли вони захочуть.

Інструмент був розроблений місткістю 100 URL-адрес за один сеанс вискоблювання, і він займає максимум 10 виразів одночасно. Іншими словами, він може викреслювати дані за максимум 100 URL-адрес одночасно.

Деякі важливі спеціальні вирази XPath, які можна змінити або додати, були окреслені нижче:

1. // div [2] - Цей вираз вибирає другий ієрархічний div;

2. // link [@ rel = 'canonical'] / @ href - Це вираження вибирає розташування (ref) тегу, яке використовується для встановлення атрибута rel, рівного канонічному;

3. / html / head / meta [@ name = 'description'] / @ content - Цей вираз використовується для вибору вмісту;

4. // * [@ class = 'class-name'] - Ви можете використовувати цей вираз, щоб вибрати всі елементи з 'class-name' як CSS-клас;

5. // h2 | // title - Цей вираз можна використовувати для вибору як першого H2, так і заголовку сторінки;

6. // * [name () = 'h1' або name () = 'title'] - Цей вираз працює точно так само, як вище. Однак вираз, представлений вище, краще, оскільки він коротший;

7. // * [містить (@class, 'thumb')] - Цей вираз вибирає кожен елемент, що має клас CSS, а також містить 'thumb' для вилучення;

8. // батько :: * [text () = 'Ласкаво просимо]] - Це вираження вибирає батьківський елемент будь-якого елемента, що містить текст "Привітання";

Цей інструмент є бета-версією і може працювати з деякими помилками. Однак це все ще чудовий інструмент для користувачів, які мають мало знань щодо програмування або взагалі не мають, оскільки всі часто використовувані вирази були заздалегідь визначені в меню, як згадувалося раніше.

mass gmail