【dj乐网站源码】【网站加密源码查】【名师讲座网站源码】日报源码_日报系统开源-皮皮网

【dj乐网站源码】【网站加密源码查】【名师讲座网站源码】日报源码_日报系统开源

2024-12-29 22:06:44 来源：娱乐分类：娱乐

1.å¦ä½ç¨Pythonåç¬è«

日报源码_日报系统开源

å¦ä½ç¨Pythonåç¬è«

1ï¼é¦åä½ è¦æç½ç¬è«ææ ·å·¥ä½ã

æ³è±¡ä½ æ¯ä¸åªèèï¼ç°å¨ä½ è¢«æ¾å°äºäºèâç½âä¸ãé£ä¹ï¼ä½ éè¦æææçç½é¡µé½çä¸éãæä¹åå¢ï¼æ²¡é®é¢åï¼ä½ å°±éä¾¿ä»æä¸ªå°æ¹å¼å§ï¼æ¯å¦è¯´äººæ°æ¥æ¥çé¦é¡µï¼è¿ä¸ªå«initial pagesï¼ç¨$è¡¨ç¤ºå§ã

å¨äººæ°æ¥æ¥çé¦é¡µï¼ä½ çå°é£ä¸ªé¡µé¢å¼åçåç§é¾æ¥ãäºæ¯ä½ å¾å¼å¿å°ä»ç¬å°äºâå½åæ°é»âé£ä¸ªé¡µé¢ãå¤ªå¥½äºï¼è¿æ ·ä½ å°±å·²ç»ç¬å®äºä¿©é¡µé¢ï¼é¦é¡µåå½åæ°é»ï¼ï¼æä¸ä¸ç¨ç®¡ç¬ä¸æ¥çé¡µé¢æä¹å¤ççï¼ä½ å°±æ³è±¡ä½ æè¿ä¸ªé¡µé¢å®å®æ´æ´ææäºä¸ªhtmlæ¾å°äºä½ èº«ä¸ã

çªç¶ä½ åç°ï¼ å¨å½åæ°é»è¿ä¸ªé¡µé¢ä¸ï¼æä¸ä¸ªé¾æ¥é¾åâé¦é¡µâãä½ä¸ºä¸åªèªæçèèï¼ä½ è¯å®ç¥éä½ ä¸ç¨ç¬åå»çå§ï¼å ä¸ºä½ å·²ç»çè¿äºåãæä»¥ï¼ä½ éè¦ç¨ä½ çèåï¼åä¸ä½ å·²ç»çè¿çé¡µé¢å°åãè¿æ ·ï¼æ¯æ¬¡çå°ä¸ä¸ªå¯è½éè¦ç¬çæ°é¾æ¥ï¼ä½ å°±åæ¥æ¥ä½ èåéæ¯ä¸æ¯å·²ç»å»è¿è¿ä¸ªé¡µé¢å°åãå¦æå»è¿ï¼é£å°±å«å»äºã

å¥½çï¼çè®ºä¸å¦æææçé¡µé¢å¯ä»¥ä»initial pageè¾¾å°çè¯ï¼é£ä¹å¯ä»¥è¯æä½ ä¸å®å¯ä»¥ç¬å®ææçç½é¡µã

é£ä¹å¨pythonéæä¹å®ç°å¢ï¼

å¾ç®å

import Queue

initial_page = "åå§åé¡µ"

url_queue = Queue.Queue()

seen = set()

seen.insert(initial_page)

url_queue.put(initial_page)

while(True): #ä¸ç´è¿è¡ç´å°æµ·æ¯ç³ç

if url_queue.size()>0:

current_url = url_queue.get() #æ¿åºéä¾ä¸ç¬¬ä¸ä¸ªçurl

store(current_url) #æè¿ä¸ªurlä»£è¡¨çç½é¡µåå¨å¥½

for next_url in extract_urls(current_url): #æåæè¿ä¸ªurléé¾åçurl

if next_url not in seen:

seen.put(next_url)

url_queue.put(next_url)

else:

break

åå¾å·²ç»å¾ä¼ªä»£ç äºã

ææçç¬è«çbackboneé½å¨è¿éï¼ä¸é¢åæä¸ä¸ä¸ºä»ä¹ç¬è«äºå®ä¸æ¯ä¸ªéå¸¸å¤æçä¸è¥¿ââæç´¢å¼æå¬å¸éå¸¸æä¸æ´ä¸ªå¢éæ¥ç»´æ¤åå¼åã

2ï¼æç

å¦æä½ ç´æ¥å å·¥ä¸ä¸ä¸é¢çä»£ç ç´æ¥è¿è¡çè¯ï¼ä½ éè¦ä¸æ´å¹´æè½ç¬ä¸æ´ä¸ªè±ç£çåå®¹ãæ´å«è¯´Googleè¿æ ·çæç´¢å¼æéè¦ç¬ä¸å¨ç½çåå®¹äºã

é®é¢åºå¨åªå¢ï¼éè¦ç¬çç½é¡µå®å¨å¤ªå¤å¤ªå¤äºï¼èä¸é¢çä»£ç å¤ªæ¢å¤ªæ¢äºãè®¾æ³å¨ç½æNä¸ªç½ç«ï¼é£ä¹åæä¸ä¸å¤éçå¤æåº¦å°±æ¯N*log(N)ï¼å ä¸ºææç½é¡µè¦éåä¸æ¬¡ï¼èæ¯æ¬¡å¤éç¨setçè¯éè¦log(N)çå¤æåº¦ãOKï¼OKï¼æç¥épythonçsetå®ç°æ¯hashââä¸è¿è¿æ ·è¿æ¯å¤ªæ¢äºï¼è³å°ååä½¿ç¨æçä¸é«ã

éå¸¸çå¤éåæ³æ¯ææ ·å¢ï¼Bloom Filter. ç®åè®²å®ä»ç¶æ¯ä¸ç§hashçæ¹æ³ï¼ä½æ¯å®çç¹ç¹æ¯ï¼å®å¯ä»¥ä½¿ç¨åºå®çååï¼ä¸éurlçæ°éèå¢é¿ï¼ä»¥O(1)çæçå¤å®urlæ¯å¦å·²ç»å¨setä¸ãå¯æå¤©ä¸æ²¡æç½åçåé¤ï¼å®çå¯ä¸é®é¢å¨äºï¼å¦æè¿ä¸ªurlä¸å¨setä¸ï¼BFå¯ä»¥%ç¡®å®è¿ä¸ªurlæ²¡æçè¿ãä½æ¯å¦æè¿ä¸ªurlå¨setä¸ï¼å®ä¼åè¯ä½ ï¼è¿ä¸ªurlåºè¯¥å·²ç»åºç°è¿ï¼ä¸è¿ææ2%çä¸ç¡®å®æ§ãæ³¨æè¿éçä¸ç¡®å®æ§å¨ä½ åéçååè¶³å¤å¤§çæ¶åï¼å¯ä»¥åå¾å¾å°å¾å°ãä¸ä¸ªç®åçæç¨:Bloom Filters by Example

æ³¨æå°è¿ä¸ªç¹ç¹ï¼urlå¦æè¢«çè¿ï¼é£ä¹å¯è½ä»¥å°æ¦çéå¤çä¸çï¼æ²¡å³ç³»ï¼å¤ççä¸ä¼ç´¯æ»ï¼ãä½æ¯å¦ææ²¡è¢«çè¿ï¼ä¸å®ä¼è¢«çä¸ä¸ï¼è¿ä¸ªå¾éè¦ï¼ä¸ç¶æä»¬å°±è¦æ¼æä¸äºç½é¡µäºï¼ï¼ã [IMPORTANT: æ¤æ®µæé®é¢ï¼è¯·ææ¶ç¥è¿]

å¥½ï¼ç°å¨å·²ç»æ¥è¿å¤çå¤éæå¿«çæ¹æ³äºãå¦å¤ä¸ä¸ªç¶é¢ââä½ åªæä¸å°æºå¨ãä¸ç®¡ä½ çå¸¦å®½æå¤å¤§ï¼åªè¦ä½ çæºå¨ä¸è½½ç½é¡µçéåº¦æ¯ç¶é¢çè¯ï¼é£ä¹ä½ åªæå å¿«è¿ä¸ªéåº¦ãç¨ä¸å°æºåä¸å¤çè¯ââç¨å¾å¤å°å§ï¼å½ç¶ï¼æä»¬åè®¾æ¯å°æºåé½å·²ç»è¿äºæå¤§çæçââä½¿ç¨å¤çº¿ç¨ï¼pythonçè¯ï¼å¤è¿ç¨å§ï¼ã

3ï¼éç¾¤åæå

ç¬åè±ç£çæ¶åï¼ææ»å±ç¨äºå¤å°æºå¨æ¼å¤ä¸åå°è¿è¡äºä¸ä¸ªæãæ³è±¡å¦æåªç¨ä¸å°æºåä½ å°±å¾è¿è¡ä¸ªæäº...

é£ä¹ï¼åè®¾ä½ ç°å¨æå°æºå¨å¯ä»¥ç¨ï¼æä¹ç¨pythonå®ç°ä¸ä¸ªåå¸å¼çç¬åç®æ³å¢ï¼

æä»¬æè¿å°ä¸çå°è¿ç®è½åè¾å°çæºå¨å«ä½slaveï¼å¦å¤ä¸å°è¾å¤§çæºå¨å«ä½masterï¼é£ä¹åé¡¾ä¸é¢ä»£ç ä¸çurl_queueï¼å¦ææä»¬è½æè¿ä¸ªqueueæ¾å°è¿å°masteræºå¨ä¸ï¼ææçslaveé½å¯ä»¥éè¿ç½ç»è·masterèéï¼æ¯å½ä¸ä¸ªslaveå®æä¸è½½ä¸ä¸ªç½é¡µï¼å°±åmasterè¯·æ±ä¸ä¸ªæ°çç½é¡µæ¥æåãèæ¯æ¬¡slaveæ°æå°ä¸ä¸ªç½é¡µï¼å°±æè¿ä¸ªç½é¡µä¸ææçé¾æ¥éå°masterçqueueéå»ãåæ ·ï¼bloom filterä¹æ¾å°masterä¸ï¼ä½æ¯ç°å¨masteråªåéç¡®å®æ²¡æè¢«è®¿é®è¿çurlç»slaveãBloom Filteræ¾å°masterçååéï¼èè¢«è®¿é®è¿çurlæ¾å°è¿è¡å¨masterä¸çRediséï¼è¿æ ·ä¿è¯æææä½é½æ¯O(1)ãï¼è³å°å¹³ææ¯O(1)ï¼Redisçè®¿é®æçè§:LINSERT â Redis)

èèå¦ä½ç¨pythonå®ç°ï¼

å¨åå°slaveä¸è£å¥½scrapyï¼é£ä¹åå°æºåå°±åæäºä¸å°ææåè½åçslaveï¼å¨masterä¸è£å¥½Redisårqç¨ä½åå¸å¼éåã

ä»£ç äºæ¯åæ

#slave.py

current_url = request_from_master()

to_send = []

for next_url in extract_urls(current_url):

to_send.append(next_url)

store(current_url);

send_to_master(to_send)

#master.py

distributed_queue = DistributedQueue()

bf = BloomFilter()

initial_pages = "www.renmingribao.com"

while(True):

if request == 'GET':

if distributed_queue.size()>0:

send(distributed_queue.get())

else:

break

elif request == 'POST':

bf.put(request.url)

å¥½çï¼å¶å®ä½ è½æ³å°ï¼æäººå·²ç»ç»ä½ åå¥½äºä½ éè¦çï¼darkrho/scrapy-redis 日报日报dj乐网站源码Â· GitHub

4ï¼å±æååå¤ç

è½ç¶ä¸é¢ç¨å¾å¤âç®åâï¼ä½æ¯çæ£è¦å®ç°ä¸ä¸ªåä¸è§æ¨¡å¯ç¨çç¬è«å¹¶ä¸æ¯ä¸ä»¶å®¹æçäºãä¸é¢çä»£ç ç¨æ¥ç¬ä¸ä¸ªæ´ä½çç½ç«å ä¹æ²¡æå¤ªå¤§çé®é¢ã

ä½æ¯å¦æéå ä¸ä½ éè¦è¿äºåç»å¤çï¼æ¯å¦

ææå°åå¨ï¼æ°æ®åºåºè¯¥ææ ·å®æï¼

ææå°å¤éï¼è¿éæç½é¡µå¤éï¼å±å¯ä¸æ³æäººæ°æ¥æ¥åæè¢å®çå¤§æ°æ¥æ¥é½ç¬ä¸éï¼

ææå°ä¿¡æ¯æ½åï¼æ¯å¦æä¹æ ·æ½ååºç½é¡µä¸ææçå°åæ½ååºæ¥ï¼âæé³åºå¥è¿è·¯ä¸åéâï¼ï¼æç´¢å¼æéå¸¸ä¸éè¦åå¨ææçä¿¡æ¯ï¼æ¯å¦å¾çæåæ¥å¹²å...

åæ¶æ´æ°ï¼é¢æµè¿ä¸ªç½é¡µå¤ä¹ä¼æ´æ°ä¸æ¬¡ï¼

å¦ä½ ææ³ï¼è¿éæ¯ä¸ä¸ªç¹é½å¯ä»¥ä¾å¾å¤ç ç©¶èåæ°å¹´çç ç©¶ãè½ç¶å¦æ¤ï¼

âè·¯æ¼«æ¼«å¶ä¿®è¿å®,å¾å°ä¸ä¸èæ±ç´¢âã

æä»¥ï¼ä¸è¦é®æä¹å¥é¨ï¼ç´æ¥ä¸è·¯å°±å¥½äºï¼ï¼

关注了本文的网友还关注：

相关推荐

一周热点

copyright © 2016 powered by 皮皮网 sitemap