Клубове Дир.бг
powered by diri.bg
търси в Клубове diri.bg Разширено търсене

Вход
Име
Парола

Клубове
Dir.bg
Взаимопомощ
Горещи теми
Компютри и Интернет
Контакти
Култура и изкуство
Мнения
Наука
Политика, Свят
Спорт
Техника
Градове
Религия и мистика
Фен клубове
Хоби, Развлечения
Общества
Я, архивите са живи
Клубове Дирене Регистрация Кой е тук Въпроси Списък Купувам / Продавам 22:47 02.07.24 
Клубове/ Компютри и Интернет / Java Всички теми Следваща тема Пълен преглед*
Информация за клуба
Тема HTML content extraction
Автор dex_n (4ove4e)
Публикувано25.02.04 21:20  



Абе някой да има идея как мога да "извлека" информация от HTML документ, но само съдържанието без таговете - тоест всичко между <..> се игнорира. щтото вече 2 дни се мъча и полудях направо!
пробвах да използвам нещо от сорта:

//otvarq dokumenta za 4etene
BufferedReader bufread = new BufferedReader(new FileReader(urlpath.getFile()));

String s;
do{
s = bufread.readLine();
StringTokenizer tok = new StringTokenizer(s, "<>");
while(tok.hasMoreTokens()){

System.out.print(tok.nextToken()+" ");

}
}while(bufread.read()!=-1); //4ete dokato stigne kraq na dokumenta


знам 4е тва става за 10 мин с Perl ама на мен ми трябва Джава изпълнение.
Благодаря предварително!


ABE NE SE ZNAE, ZNAE LI SE!

Цялата тема
ТемаАвторПубликувано
* HTML content extraction dex_n   25.02.04 21:20
. * Re: HTML content extraction Marvin   26.02.04 14:34
. * Re: HTML content extraction Johnny Bravo   26.02.04 17:23
. * Re: HTML content extraction dex_n   26.02.04 18:37
Клуб :  


Clubs.dir.bg е форум за дискусии. Dir.bg не носи отговорност за съдържанието и достоверността на публикуваните в дискусиите материали.

Никаква част от съдържанието на тази страница не може да бъде репродуцирана, записвана или предавана под каквато и да е форма или по какъвто и да е повод без писменото съгласие на Dir.bg
За Забележки, коментари и предложения ползвайте формата за Обратна връзка | Мобилна версия | Потребителско споразумение
© 2006-2024 Dir.bg Всички права запазени.