如何提取sitemap.xml中的url生成sitemap.txt
其實(shí)網(wǎng)上有很多用python和php提取的教程了,而用python和php實(shí)現(xiàn)都有技術(shù)門檻,并不適合所有人,今天我就來(lái)跟大家介紹一種更簡(jiǎn)單的方式,但是也并不是沒有門檻,需要會(huì)正則,利用DW正則替換。
<?xml version="1.0" encoding="utf-8"?>
<urlset>
<url>
<loc>https://m.10soo.com/</loc>
<lastmod>2020-04-11</lastmod>
<changefreq>daily</changefreq>
<priority>1.0</priority>
</url>
<url>
<loc>https://m.10soo.com/news.html</loc>
<lastmod>2020-04-10</lastmod>
<changefreq>daily</changefreq>
<priority>0.8</priority>
</url>
........
</urlset>
上面是通常情況下sitemap.xml的寫法,其實(shí)用dw替換能替換掉大部分的內(nèi)容,不規(guī)則的主要是<lastmod>2020-04-11</lastmod>和<priority>0.8</priority>中有不規(guī)則的數(shù)字,那么就先把他們改成規(guī)則的數(shù)字就好了,首先把-橫線替換掉,所有<lastmod></lastmod>中間得到一串?dāng)?shù)字。
用同樣的方式替換<priority></priority>中的數(shù)字替換為規(guī)則數(shù)字,然后利用正則替換,如下圖:
替換的時(shí)候注意勾選 使用正則表達(dá)式,替換全部,就得到了純url,另存成txt就達(dá)到目的了。