<html>
<head>
<style>
.hmmessage P
{
margin:0px;
padding:0px
}
body.hmmessage
{
FONT-SIZE: 10pt;
FONT-FAMILY:Tahoma
}
</style>
</head>
<body class='hmmessage'>Hiya.<BR>
&nbsp;<BR>
I'm getting back into the jabber swing of things after a few years of being away and I'm digging into PubSub! <BR>
&nbsp;<BR>
I am planning to index a bunch of RSS/Atom etc via PubSub. I have read over some of the XEP and I am a bit confused about a few things so I would really appreciate some clarification :)<BR>
&nbsp;<BR>
>From what I can read on PubSub its clear how users subscribe to feeds and receive events but how can I handle a user requesting a feed that is not indexed on the server yet? So that the server can now start indexing that feed and begin Publishing new entries it pulls (I will be writting the service which starts pulling feeds off the web).<BR>
&nbsp;<BR>
Also a bunch of concerns pop into my head that I'm still unclear about when maintaining all this "feed" data.<BR>&nbsp;<BR>1. Is there any way I can just publish the latest feeds I pulled down and pubsub discard any duplicates that may already exist? Or is the right way to handle this is to query every single entry individually to check if they exist before publishing them?<BR>&nbsp;<BR>1.a If I have to query each individually. Would I make the entry id the url of the entry so that I can check for duplicates as I pull them down off the web and read the entries? (example 4 old entries, but 1 new entry since last pull).<BR>&nbsp;<BR>2. Entry requesting. Is there any sort of querying we can use against them? If we are publishing tons of entries, someone may want to browse/read them but only request X amount at a time, or only newer than a certain date etc. I don't think pulling the entire entry history of a couple&nbsp;months is going to be too efficient.<BR>&nbsp;<BR>Some of my concerns for #2 is because we are going to mobilize this, data plans are expensive for mobile devices. In this country it can be $25/1.5MB/month.<BR>&nbsp;<BR>We want to try and make our mobile client query data efficiently but do these capabilities exist in Pub/Sub?<BR><BR>
I'm sure I am just missing some concepts on how parts of PubSub work.&nbsp;<BR>
<BR>Thanks so much for&nbsp;your time&nbsp;:)<BR><BR><br /><hr /> <a href='' target='_new'></a></body>
</html>