python - Regular Expression Processing HTML -

- May 15, 2015

मुझे सभी HTML टैग (जैसे & lt; p & gt; , & lt ; Img & gt; , आदि।) एक वेब पेज स्रोत कोड में है, लेकिन मैं & lt; br & gt; और & lt; br / & gt; रखना चाहते हैं। मैंने कोशिश की है:

  re.sub (r '& lt; [^ & gt;] +? & Gt;', u '', html, flags = re.I)  < / प्री>  यह केवल पहला लक्ष्य प्राप्त करता है, लेकिन यह  & lt; br & gt;  या  & lt; br / & gt;  नहीं रख सकता है।  r '& lt; [^ & gt; br] +? & Gt;'  या तो लक्ष्य को प्राप्त नहीं करेगा। 
  सही नियमित अभिव्यक्ति क्या है?

  & lt; ((?! \ Bbr \ b)।) *? & Gt;

यह आपके मामले के लिए काम करना चाहिए। नकारात्मक नजरिए सुनिश्चित करेगा & lt; br & gt; नहीं चुना गया है।

संपादित करें:

  & lt; (?: (?! \ Bbr \ /? (? = & Gt;))।) *? & Gt;

यह कोशिश करें अगर आपके पास ऐसी बेतुका बातें हैं & lt; a href = "http: //host.domain.tld/br" & gt;

डेमो देखें।

Search This Blog

Updating

python - Regular Expression Processing HTML -

Comments

Post a Comment

Popular posts from this blog

HTML/CSS - Automatically set height width from background image? -

php - Mysql Show Process - Sleep Commands and what to do -

list Class in C++ -