|
Тема
|
file_get_contents взимане на title
|
|
Автор |
Гeoprи Бaнkoв (новак) |
Публикувано | 21.09.09 11:07 |
|
Как мога да взема заглавието на дадена страница използвайки file_get_contents функцията
| |
Тема
|
Re: file_get_contents взимане на title
[re: Гeoprи Бaнkoв]
|
|
Автор |
Бokop (слуга на Лоа) |
Публикувано | 21.09.09 18:46 |
|
По-принцип не е добра идея да ползваш file_get_contents за целта, защото ако allow_url_fopen директивата не е разрешена няма да можеш да използваш функцията за URL-и. По-добре използвай . И в двата случая ще имаш цялата страница, обаче. Не само това, което имаш в title тага. Тази функция ще ти върне съдържанието на title тага. Успех.
function getPageTitle($response)
{
$pattern = '#<\s*title\s*>(.+?)<\s*/\s*title\s*>#is';
$title = '';
$maches = array();
if(preg_match($pattern,$response,$maches))
{
$title = $maches[1];
}
return $title;
}
Има и по-модерен вариант. Да напъхаш всичко в дом обект и да викнеш getElementsByTagName, например.
От неизбежното се възмущава само този, който е неразумен.
Редактирано от Бokop на 21.09.09 19:10.
| |
|
Благодаря, аз със функциите се оправих, четой и за дом обектите, обаче там не съм много на ти. Досега какво направих по моята "търсачка":
1. Взимане на съдържанието на страницата.
2. Взимане на title и ключови думи.
3. Вкарване на информацията в базата данни.
4. Ако тази страница вече е индексирана -> просто ъпдейта записа.
5. Може би някаква страничка за най-търсени неща по ключови думи.
P.S. Не успявам да подкарам самият бот, тоест да започне да индексира страниците, като ги обхожда, посредством линковете. например 5 линка в секунда ще е в рамките на нещата. Можеш ли да помогнеш и за това. И ако имаш желание дай skype, icq, yahoo, msn или някакво друго средство за комуникация за всеки случай ако имаш време и за други функции да помогнеш.
| |
Тема
|
Re: file_get_contents взимане на title
[re: Гeoprи Бaнkoв]
|
|
Автор |
Бokop (слуга на Лоа) |
Публикувано | 22.09.09 11:14 |
|
Ха. Ти си малко нагъл момък. Питай в клуба. Ако има някой време и мерак ще помага.
От неизбежното се възмущава само този, който е неразумен.
| |
|
еми просто питам за помощ, иначе горе-долу се оправям, вече написах стотици редове код, без да съм стигнал до никъде
| |
Тема
|
Re: file_get_contents взимане на title
[re: Бokop]
|
|
Автор |
croesus (хлевоуст) |
Публикувано | 23.09.09 00:35 |
|
Това с ДОМ-а е добро като идея, стига отсреща да ти се пуска що-годе коректен HTML. Да няма по 2 две айдита на обект, по няколко тайтъла и прочее.
Аз лично предпочитам да взема всичко като текст и да го парсвам или екстрактвам после, но и ДОМа си има предимства, ако не ти се пишат regex.
| |
|
другия ми въпрос е как да направя бота да обхожда страниците, някакви насоки?
| |
|
|
|
|