Arhar Опубликовано 24 Июня 2008 Жалоба Поделиться Опубликовано 24 Июня 2008 Судя по всему идея умерлаЭкспорт сделать будет не сложно, вопрос в импорте. из крупных сервисов rss отдают journals, livejournal, blog.ru, liveinternet у первого есть примеры, наткнулся почти сразуу второго есть и описания, и примеры исходного кода, что сильно упрощает задачуу третьего есть описание, но наверно придется зарегится для получения rssу последнего нет даже описания, так что тоже придется мучатся Гипотеза 0.Список поддерживаемых сайтов (безопасность++) Гипотеза 1.Импорт неограниченного числа потоков (в один дневник, с разных сайтов, НО! один сайт - один дневник) Гипотеза 2.Парсинг входящей ерунды (html код > ббкоды (не распознанный html удалять) > пост дневника) Гипотеза 3.Отдельное задание на парсинг потоков Информация.Скорости и лимиты Вы обязаны кэшировать результаты запросов своего бота, сохраняя нам полосу пропускания и процессорные мощности. Боты, которые совершают повторяющиеся запросы на один и тот же ресурс (URL), будут быстро заблокированы. Пожалуйста, не делайте вашего бота многопоточным, чтобы получать доступ ко многим ресурсам одновременно, и не устанавливайте более 5 соединений в секунду. Корректные пользовательские агенты Все боты обязаны присылать хорошо сформированные данные о пользовательском агенте, которые включают в себя адрес email для контактов с владельцем бота и, предпочтительно, адрес URL организации, которой принадлежит бот. Боты без этой информации имеют более высокие шансы быть заблокированными. Пример хорошо сформированных данных о пользовательском агенте: http://example.com/ljtoy.html; bob@example.com Общие положения.Еще одна таблица в бд.id, user_id, rss(url) User-frontend.Там по умолчанию один инпут, на яваскрипте можно добавить/удалить User-backend.Проверка на разрешенные сайты && проверка валидности && проверка дубляжа (один домен - один дневник) Настройки.Список сайтов Собственно таск.Запуск ночью.Раз в день не мало? Тогда идем дальше.Пока не обновятся все потоки не прекратим. Но нужна пауза. Придется ее делать sleep, нарузка на наш сайт уменьшается(?).Так что ордер будет user_id (с пунктом проверка дубляжа нагрузка на чужие сайты отпадет). Реализация.Сентябрь Цитата Ссылка на комментарий Поделиться на других сайтах Прочее
Рекомендуемые сообщения
Присоединиться к обсуждению
Вы можете ответить сейчас, а зарегистрироваться позже. Если у вас уже есть аккаунт, войдите, чтобы ответить от своего имени.