XPath примеры - шпаргалка для разбора страниц. Выбор всех заглавий. Функции с множествами
- Tutorial
Продолжение перевода неофициальной документации Selenium для Python.
Перевод сделан с разрешения автора Baiju Muthukadan.
Оригинал можно найти .
1. Установка
2. Первые Шаги
3. Навигация
4. Поиск Элементов
5. Ожидания
6. Объекты Страницы
7. WebDriver API
8. Приложение: Часто Задаваемые Вопросы
4. Поиск элементов
Существует ряд способов поиска элементов на странице. Вы вправе использовать наиболее уместные для конкретных задач. Selenium предоставляет следующие методы поиска элементов на странице:- find_element_by_id
- find_element_by_name
- find_element_by_xpath
- find_element_by_link_text
- find_element_by_partial_link_text
- find_element_by_tag_name
- find_element_by_class_name
- find_element_by_css_selector
- find_elements_by_name
- find_elements_by_xpath
- find_elements_by_link_text
- find_elements_by_partial_link_text
- find_elements_by_tag_name
- find_elements_by_class_name
- find_elements_by_css_selector
Помимо общедоступных (public) методов, перечисленных выше, существует два приватных (private) метода, которые при знании указателей объектов страницы могут быть очень полезны: find_element and find_elements.
Пример использования:
From selenium.webdriver.common.by import By
driver.find_element(By.XPATH, "//button")
driver.find_elements(By.XPATH, "//button")
Для класса By доступны следующие атрибуты:
ID = "id" XPATH = "xpath" LINK_TEXT = "link text" PARTIAL_LINK_TEXT = "partial link text" NAME = "name" TAG_NAME = "tag name" CLASS_NAME = "class name" CSS_SELECTOR = "css selector"
4.1. Поиск по Id
Используйте этот способ, когда известен id элемента. Если ни один элемент не удовлетворяет заданному значению id, будет вызвано исключение NoSuchElementException.
Элемент form может быть определен следующим образом:
Login_form = driver.find_element_by_id("loginForm")
4.2. Поиск по Name
Используйте этот способ, когда известен атрибут name элемента. Результатом будет первый элемент с искомым значением атрибута name. Если ни один элемент не удовлетворяет заданному значению name, будет вызвано исключение NoSuchElementException.Для примера, рассмотрим следующий исходный код страницы:
Элементы с именами username и password могут быть определены следующим образом:
Username = driver.find_element_by_name("username")
password = driver.find_element_by_name("password")
Следующий код получит кнопку “Login”, находящуюся перед кнопкой “Clear”:
Continue = driver.find_element_by_name("continue")
4.3. Поиск по XPath
XPath – это язык, использующийся для поиска узлов дерева XML-документа. Поскольку в основе HTML может лежать структура XML (XHTML), пользователям Selenium предоставляется возможность посредоством этого мощного языка отыскивать элементы в их веб-приложениях. XPath выходит за рамки простых методов поиска по атрибутам id или name (и в то же время поддерживает их), и открывает спектр новых возможностей, таких как поиск третьего чекбокса (checkbox) на странице, к примеру.Одно из веских оснований использовать XPath заключено в наличии ситуаций, когда вы не можете похвастать пригодными в качестве указателей атрибутами, такими как id или name, для элемента, который вы хотите получить. Вы можете использовать XPath для поиска элемента как по абсолютному пути (не рекомендуется), так и по относительному (для элементов с заданными id или name). XPath указатели в том числе могут быть использованы для определения элементов с помощью атрибутов отличных от id и name.
Абсолютный путь XPath содержит в себе все узлы дерева от корня (html) до необходимого элемента, и, как следствие, подвержен ошибкам в результате малейших корректировок исходного кода страницы. Если найти ближайщий элемент с атрибутами id или name (в идеале один из элементов-родителей), можно определить искомый элемент, используя связь «родитель-подчиненный». Эти связи будут куда стабильнее и сделают ваши тесты устойчивыми к изменениям в исходном коде страницы.
Для примера, рассмотрим следующий исходный код страницы:
Элемент form может быть определен следующими способами:
Login_form = driver.find_element_by_xpath("/html/body/form") login_form = driver.find_element_by_xpath("//form") login_form = driver.find_element_by_xpath("//form[@id="loginForm"]")
- Абсолютный путь (поломается при малейшем изменении структуры HTML страницы)
- Первый элемент form в странице HTML
- Элемент form, для которого определен атрибут с именем id и значением loginForm
Username = driver.find_element_by_xpath("//form") username = driver.find_element_by_xpath("//form[@id="loginForm"]/input") username = driver.find_element_by_xpath("//input[@name="username"]")
- Первый элемент form с дочерним элементом input, для которого определен атрибут с именем name и значением username
- Первый дочерний элемент input элемента form, для которого определен атрибут с именем id и значением loginForm
- Первый элемент input, для которого определен атрибут с именем name и значением username
Clear_button = driver.find_element_by_xpath("//input[@name="continue"][@type="button"]") clear_button = driver.find_element_by_xpath("//form[@id="loginForm"]/input")
- Элемент input, для которого заданы атрибут с именем name и значением continue и атрибут с именем type и значением button
- Четвертый дочерний элемент input элемента form, для которого задан атрибут с именем id и значением loginForm
- XPath Tutorial - с интерактивными примерами
- XPath Checker - получает пути XPath и может использоваться для проверки результатов пути XPath
- Firebug - получение пути XPath - лишь одно из многих мощных средств, поддерживаемых этим очень полезным плагином
- XPath Helper - для Google Chrome
4.4. Поиск гиперссылок по тексту гиперссылки
Используйте этот способ, когда известен текст внутри анкер-тэга . С помощью такого способа вы получите первый элемент с искомым значением текста тэга. Если никакой элемент не удовлетворяет искомому значению, будет вызвано исключение NoSuchElementException.Для примера, рассмотрим следующий исходный код страницы:
Are you sure you want to do this?
Continue CancelЭлемент-гиперссылка с адресом «continue.html» может быть получен следующим образом:
Continue_link = driver.find_element_by_link_text("Continue") continue_link = driver.find_element_by_partial_link_text("Conti")
4.5. Поиск элементов по тэгу
Используйте этот способ, когда вы хотите найти элемент по его тэгу. Таким способом вы получите первый элемент с указанным именем тега. Если поиск не даст результатов, будет возбуждено исключение NoSuchElementException.Для примера, рассмотрим следующий исходный код страницы:
Welcome
Site content goes here.
Элемент заголовка h1 может быть найден следующим образом:
Heading1 = driver.find_element_by_tag_name("h1")
4.6. Поиск элементов по классу
Используйте этот способ в случаях, когда хотите найти элемент по значению атрибута class. Таким способом вы получите первый элемент с искомым именем класса. Если поиск не даст результата, будет возбуждено исключение NoSuchElementException.Для примера, рассмотрим следующий исходный код страницы:
Site content goes here.
Элемент “p” может быть найден следующим образом:
Content = driver.find_element_by_class_name("content")
4.7. Поиск элементов по CSS-селектору
Используйте этот способ, когда хотите получить элемент с использованием синтаксиса CSS-селекторов . Этим способом вы получите первый элемент удовлетворяющий CSS-селектору. Если ни один элемент не удовлетворяют селектору CSS, будет возбуждено исключение NoSuchElementException.Для примера, рассмотрим следующий исходный код страницы:
Site content goes here.
Элемент “p” может быть определен следующим образом:
Content = driver.find_element_by_css_selector("p.content")
На Sauce Labs есть
Основы
XML имеет древовидную структуру. В документе всегда имеется корневой элемент (инструкция к дереву отношения не имеет). У элемента дерева всегда существуют потомки и предки, кроме корневого элемента, у которого предков нет, а также тупиковых элементов (листьев дерева), у которых нет потомков. Каждый элемент дерева находится на определенном уровне вложенности (далее - «уровень»). У элементов на одном уровне бывают предыдущие и следующие элементы.
Это очень похоже на организацию каталогов в файловой системе, и строки XPath, фактически, - пути к «файлам» - элементам.
Например, рассмотрим XHTML документ:
<html > <body > <div > Первый слой <span > блок текста в первом слое</ span > </ div > <div > Второй слой</ div > <div > Третий слой <span class = "text" > первый блок в третьем слое</ span > <span class = "text" > второй блок в третьем слое</ span > <span > третий блок в третьем слое</ span > </ div > <img / > </ body > </ html >
XPath-путь /html/body/*/span[@class] (полный синтаксис имеет вид /child::html/child::body/child::*/child::span ) будет соответствовать в нём двум элементам исходного документа - первый блок в третьем слое и второй блок в третьем слое .
Путь делится на шаги адресации, которые разделяются символом «косая черта» / . Каждый шаг адресации состоит из трех частей:
- ось (в данном примере child::), это обязательная часть;
- условие проверки узлов (в данном примере это имена элементов документа html, body, span, а символ * означает элемент с любым именем), также обязательная часть;
- предикат (в данном примере attribute::class), необязательная часть, заключаемая в квадратные скобки, в которой могут содержаться оси, условия проверки, функции, операторы (+, -, <, > и пр.).
Анализ ведется слева направо. Если первый символ это / , то путь адресации считается абсолютным (то есть от корня документа). При этом за узел контекста на первом шаге берется корневой элемент (html). Контекст - это некая точка отсчета, относительно которой рассчитывается следующий шаг адресации. Поэтому на каждом шаге адресации мы получаем новый набор узлов документа, и этот набор становится контекстом для следующего шага адресации.
На втором шаге адресации (child::body) контекстом становится html элемент. Ось child:: говорит о том, что необходимо найти все непосредственные потомки элемента html, а условие проверки body говорит о том, что в формируемый набор элементов нужно включить все узлы с именем body. В ходе второго шага адресации получаем набор узлов, состоящий всего из одного элемента body, который и становится элементом контекста для третьего шага.
Третий шаг адресации: child::* . Ось child:: собирает все непосредственные потомки элемента body, а условие проверки * говорит о том, что в формируемый набор нужно включить элементы основного типа с любым именем. В ходе этого шага получаем набор узлов, состоящий из трех элементов div и одного элемента img.
Четвёртый шаг адресации: child::span . Теперь контекстом является набор из четырёх элементов. И следующий набор узлов создается в четыре прохода (за четыре итерации). При первой итерации узлом контекста становится первый div. Согласно заданной оси child:: и правилу проверки span, в набор включаются непосредственные потомки div-а, имя которых равно span. При второй итерации в набор ничего добавлено не будет, так как у второго div нет потомков. Третья итерация добавит в набор сразу три элемента span, а четвёртая ничего не добавит, так как у элемента img нет потомков. Итак, в ходе проверки получен набор узлов, состоящий из четырёх элементов span. Это и будет контекстом для последующей обработки.
Следующего шага нет, поэтому будет производиться фильтрация отобранного набора. В этом и состоит отличие предикатов от шагов адресации. На каждом шаге адресации получаем новый набор, отталкиваясь от контекста, полученного на предыдущем шаге. В ходе же обработки предиката новый набор получается из текущего методом фильтрации, когда из набора исключаются узлы, не прошедшие условие проверки. В данном случае ось attribute:: говорит о необходимости проверить, если ли у узлов контекста атрибуты, а условие class требует оставить лишь те узлы, у которых задан атрибут с именем class. Фильтрация происходит за четыре итерации, но в окончательный набор попадают только два элемента span.
Оси
Оси - это база языка XPath.
- ancestor:: - Возвращает множество предков.
- ancestor-or-self:: - Возвращает множество предков и текущий элемент.
- attribute:: - Возвращает множество атрибутов текущего элемента.
- child:: - Возвращает множество потомков на один уровень ниже.
- descendant:: - Возвращает полное множество потомков.
- descendant-or-self:: - Возвращает полное множество потомков и текущий элемент.
- following:: - Возвращает необработанное множество, ниже текущего элемента.
- following-sibling:: - Возвращает множество элементов на том же уровне, следующих за текущим.
- namespace:: - Возвращает множество, имеющее пространство имён (то есть присутствует атрибут xmlns).
- parent:: - Возвращает предка на один уровень назад.
- preceding:: - Возвращает множество обработанных элементов исключая множество предков.
- preceding-sibling:: - Возвращает множество элементов на том же уровне, предшествующих текущему.
- self:: - Возвращает текущий элемент.
Существуют сокращения для некоторых осей, например:
- attribute:: - можно заменить на «@»
- child:: - часто просто опускают
- descendant:: - можно заменить на «.//»
- parent:: - можно заменить на «..»
- self:: - можно заменить на «.»
Дополнением к базе является набор функций, которые делятся на 5 групп:
Системные функции
node-set document (object, node-set?) Возвращает документ, указанный в параметре object. string format-number (number, string, string?) Форматирует число согласно образцу, указанному во втором параметре, третий параметр указывает именованный формат числа, который должен быть учтён. string generate-id (node-set?) Возвращает строку, являющуюся уникальным идентификатором. node-set key (string, object) Возвращает множество с указанным ключом (аналогично функции id для идентификаторов). string unparsed-entity-uri (string) Возвращает непроанализированный URI, если такового нет, возвращает пустую строку. boolean element-available (string) Проверяет, доступен ли элемент или множество, указанное в параметре. Параметр рассматривается как XPath. boolean function-available (string) Проверяет, доступна ли функция, указанная в параметре. Параметр рассматривается как XPath. object system-property (string) Параметры, возвращающие системные переменные, могут быть: * xsl: version - возвращает версию XSLT процессора. * xsl: vendor - возвращает производителя XSLT процессора. * xsl: vendor-url - возвращает URL, идентифицирующий производителя. Если используется неизвестный параметр, функция возвращает пустую строку. boolean lang (string) Возвращает истину, если у текущего тега имеется атрибут xml: lang, либо родитель тега имеет атрибут xml: lang и в нем указан совпадающий строке символ.Функции с множествами
- * - обозначает любое имя или набор символов, @* - любой атрибут
- $name - обращение к переменной, где name - имя переменной или параметра.
- - дополнительные условия выборки
- {} - если применяется внутри тега другого языка (например HTML), то XSLT процессор рассматривает содержимое фигурных скобок как XPath.
- / - определяет уровень дерева
Строковые функции
string string (object?) Возвращает текстовое содержимое элемента. По сути возвращает объединенное множество текстовых элементов на один уровень ниже. string concat (string, string, string*) Объединяет две или более строк number string-length (string?) Возвращает длину строки. boolean contains (string, string) Возвращает истину, если первая строка содержит вторую, иначе возвращает ложь. string substring (string, number, number?) Возвращает строку вырезанную из строки начиная с указанного номера, и если указан второй номер - количество символов. string substring-before (string, string) Если найдена вторая строка в первой, возвращает строку до первого вхождения второй строки. string substring-after (string, string) Если найдена вторая строка в первой, возвращает строку после первого вхождения второй строки. boolean starts-with (string, string) Возвращает истину если вторая строка входит в начало первой, иначе возвращает ложь. boolean ends-with (string, string) Возвращает истину если вторая строка входит в конец первой, иначе возвращает ложь. string normalize-space (string?) Убирает лишние и повторные пробелы, а также управляющие символы, заменяя их пробелами. string translate (string, string, string) Заменяет символы первой строки, которые встречаются во второй строке, на соответствующие позиции символам из второй строки символы из третьей строки. translate(«bar», «abc», «ABC») вернет BAr.Логические функции
- or - логическое «или»
- and - логическое «и»
- = - логическое «равно»
- < (<) - логическое «меньше»
- > (>) - логическое «больше»
- <= (<=) - логическое «меньше либо равно»
- >= (>=) - логическое «больше либо равно»
Числовые функции
- + - сложение
- − - вычитание
- * - умножение
- div - обычное деление (не деление нацело!)
- mod - остаток от деления
Ссылки
- XPath 1.0. Рекомендация W3C. (англ.)
- XPath 2.0. Рекомендация W3C. (англ.)
- XPath 2.1. Рекомендация W3C. (англ.)
- XPath учебник (нем.)
Стандарты Консорциума Всемирной паутины | |
---|---|
Рекомендации |
Canonical XML CDF CSS DOM Geolocation API HTML ITS MathML OWL P3P PLS RDF (Schema) SISR SKOS SMIL SOAP SRGS SSML SVG SPARQL Timed Text VoiceXML WSDL XForms XHTML XHTML+RDFa XInclude XLink XML (Base Encryption Events Information Set namespace Schema Signature) XPath / 1.0 / 2.0 XPointer XProc XQuery XSL XSL-FO XSLT (элементы) XUP |
Примечания |
XAdES XHTML+SMIL |
Рабочие проекты | |
Guidelines |
Web Content Accessibility Guidelines |
Initiative |
Multimodal Interaction Activity Markup Validation Service Web Accessibility Initiative |
XPath является одним из ключевых моментов на дороге к пониманию XSLT. И на первых порах хочется получить какой-нибудь простой способ поэкспериментировать с ним, чтобы в деталях разобраться, как он работает. Способа такого, впрочем, не наблюдается. Приходится или качать совсем не бесплатные XML/XSLT редакторы, или довольствоваться статичными картинками с zvon.org . Может быть, я плохо искал. Но с моей колокольни все обстоит именно так. И когда передо мной в очередной раз встала задача «Объяснить XSLT», в голове и родилась идея крохотного сервиса. После того, как все заработало, было решено выкатить его для всеобщего пользования: наверняка не я один сталкивался с похожими проблемами.
Как это работает
Все просто до безобразия: вводим XML для экспериментов, пишем запрос и по ходу набора наблюдаем результат. Выглядит это примерно вот так:Впрочем, чего разглядывать картинки, можно пойти и пощупать это все живьем .
Сервис, впрочем, может пригодиться не только в образовательных целях. Заковыристые запросы очень часто бывает удобно наблюдать визуально. Со своей задачей сервис справился. Буду рад, если поможет кому-нибудь еще.
я решил озадачиться статьёй про XPath. Зачем мне нужен XPath? У меня есть задача организовать препроцессинг данных: Есть, например, набор операций, описываемых XML документом. Каждая операция — это либо веб-запрос либо запрос к базе данных. Мне необходимо поля из предшествующих операций, подставлять в последующие операции… Примерно так.
Попробую выразиться иначе. XPath — это язык запросов к XML, позволяющий выбирать из XML подмножества данных: как отдельные значения тегов и атрибутов, так и целые наборы значений. XPath запрос + соотвествующий API превращают любой XML документ в подобие базы данных, из которой можно делать выборки.
В моём случае, мне нужно было выбирать из XML некоторые поля, чтобы формировать другие XML документы, содержащие указанные поля. Конечно такая задача может быть решена и без XPath. Но тогда логика будет зашита в код программы. А XPath позволяет логику поиска внутри XML документов вынести во внешние конфигурационные данные. Т.е. для моей программы входными данными являются и XML документы и XPath выражения. В таком сочетании и проявляется мощь XPath.
P.S. Впоследствии, в дополнение к теоретической части, я написал пару постов с описанием практического применения XPath на Java:
Это предисловие. Приступаем к изучению. От добра-добра не ищут. На предмет XML-технологий пока самый интересный сайт: w3schools.org. Поэтому просто перевожу XPath tutorial оттуда.
-
- Применение XPath на Java
XPath используется для навигации по элементам и атрибутам XML документа. XPath занимает главенствующее место среди W3C XSLT стандартов. XQuery и XPointer — оба базируются на XPath expressions.
Что есть XPath?
- XPath — синтаксис для определения частей XML документа
- XPath использует path expressions для навигации в XML документах
- XPath содержит библиотеку стандартных функций
- XPath базовый элемент в XSLT
- XPath имеет статус W3C recommendation
XPath Path Expressions
XPath использует path expressions для выбора узлов или наборов узлов в XML документе. Path expressions сильно напоминают пути, которые вы используете при работе с традиционными компьютерными файловыми системами.
XPath Standard Functions
XPath включает более 100 встроенных функций. Эти функции для строковых значений, цифровых значений, сравнения времени и дат, манипуляции узлами и QName manipulation, манипуляции последовательностью, работы с boolean значениями и другие.