Добрый день ! Возникла небольшая проблемка ) Есть у меня компонент newsgrabberjc с помощьюкоторого я тащу новости. Лент очень много, скажем 100. Задача мне поставлена из этих лент сформировать несколько разделов новостей разных категорий. На большенстве сайтов, рсс лента экспортирует весь поток новостей, а моя задача разбить этот поток на категории. У меня есть небольшая задумка: "для каждой категории создать набор слов, который может встречаться в этой категории, а затем проверять каждую новость на наличие этих слов, и в зависимости от частоты вхождения разбивтаь по категориям". Но мне кажется что такой алгоритм оч медленный и при большом потоке будет притормаживать. Есть идеи как это все лучше организовать? З,Ы,: и где можно найти алгоритм работы парсера яндекс.новости ? (на сайте хуяндекса я уже смотрел, там 404 выдает при попытке зайти на страничку с алгоритмом. Хотя тремя строчками выше написанно: "наш алгоритм доступен для всех ))")
Ответ: Алгоритм сортировки новостей ! А большой поток это сколько? Тысяча новостей в минуту? Думаю что нет, а потому вариант с плотностью я думаю прокатит. Только по-моему мнению он не самый хороший. почитай на эту тему
Ответ: Алгоритм сортировки новостей ! так а тащишь ты эти новости по какому принципу? или все подряд? или берёшь рсс тоже тематические?
Ответ: Алгоритм сортировки новостей ! 2chilly_bang я беру рсс иформационного агенства, например "итар-тасс", на сайте этого агенства есть разделы "политика", экономика", спорт" и т.д. у меня на сайте есть соответствующие разделы. Проблема в том что рсс экспортируется одним потоком, т.е. нужно програмно разобрать этот паток на соответствующие разделы. Воть (( 2Dead Krolik Я планирую примерно около 1000 источников с которых будут импортироваться новости, я разобью эти источники на части, так что бы они все импортировались в течении часа. Такая процедура будет поторяться 3-4 раза в сутки.
Ответ: Алгоритм сортировки новостей ! хммм.... не встречал.... ну я так понимаю эти спецтеги всттречаются только в рсс типа rss.xml, а если рсс вот такой http://www.km.ru/news/rss.asp... там идет просто текст + ссылка + дата )
Ответ: Алгоритм сортировки новостей ! Если открыть код этой страницы: http://www.km.ru/news/rss.asp, то можно обнаружить слово category как и говорил, тов. Кролик...