鱼C论坛

 找回密码
 立即注册
查看: 1379|回复: 6

[已解决]爬的数据怎么不对??????

[复制链接]
发表于 2018-11-26 16:11:12 | 显示全部楼层 |阅读模式

马上注册,结交更多好友,享用更多功能^_^

您需要 登录 才可以下载或查看,没有账号?立即注册

x
按小甲鱼写的代码:
  1. import requests
  2. import re
  3. import json

  4. def open_url(keyword):
  5.     keyword = "零基础入门学习Python"
  6.     url = "https://s.taobao.com/search?q={}&sort=sale-desc".format(keyword)
  7.     headers = {"user-agent":"Mozilla/5.0 (Windows NT 10; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/56.0.2924.90 Safari/537.36"}
  8.     res = requests.get(url, headers = headers)
  9.     return res

  10. def main():
  11.     keyword = input("请输入要查询的商品:")
  12.     res = open_url(keyword)
  13.     with open("items.txt", "w", encoding = "utf-8") as f:
  14.         f.write(res.text)

  15. if __name__ == "__main__":
  16.     main()
复制代码

得到的文件:

  1. <!DOCTYPE html>
  2. <html>
  3. <head>
  4. <meta name="data-spm" content="a2107" />
  5. <title>
  6.         淘宝网 - 淘!我喜欢
  7. </title>
  8. <meta charset="gbk" />
  9. <meta http-equiv="X-UA-Compatible" content="IE=edge" />
  10. <meta name="viewport"
  11.         content="width=device-width, initial-scale=1, maximum-scale=1" />
  12. <meta name="description"
  13.         content="淘宝网(Taobao.com)作为专业的购物网站拥有全球时尚前沿的消费者购物集市,100%认证网上商城及超值二手商品区,同时购物安全,产品丰富,应有尽有,任你选购,让你尽享网上在线购物乐趣!" />
  14. <meta name="keywords"
  15.         content="淘宝,掏宝,网上购物,C2C,在线交易,交易市场,网上交易,交易市场,网上买,网上卖,购物网站,团购,网上贸易,安全购物,电子商务,放心买,供应,买卖信息,网店,一口价,拍卖,网上开店,网络购物,打折,免费开店,网购,频道,店铺" />
  16. <script>
  17.         window._lgst_ = new Date().getTime();
  18. </script>
  19. <script>
  20.         //全登陆不允许iframe嵌入
  21.         if (window.top !== window.self) {
  22.                 window.top.location = window.location;
  23.         }
  24. </script>
  25. <link rel="shortcut icon" href="//img.alicdn.com/favicon.ico" type="image/x-icon" />       
  26.                 <link type="text/css" href="//g.alicdn.com/sd/ncpc/nc.css?t=2018112615" rel="stylesheet" />
  27. <link rel="stylesheet"
  28.          />
  29. <link rel="stylesheet"
  30.          />
  31. <script src="https://g.alicdn.com/kissy/k/1.4.4/seed-min.js"></script>
  32. </head>
  33. <body class="chl-reg" data-spm="1"><script>
  34. with(document)with(body)with(insertBefore(createElement("script"),firstChild))setAttribute("exparams","category=&userid=&aplus&yunid=&&trid=0b1569e515432189800218480e1daa&asid=AQAAAAAkp/tbgX0jagAAAAAmt954U4Ge8g==",id="tb-beacon-aplus",src=(location>"https"?"//g":"//g")+".alicdn.com/alilog/mlog/aplus_v2.js")
  35. </script>
  36.         <div id="page" class="">
  37.                 <div id="header" class="clearfix" data-spm="1000340">
  38. <div class="logo">
  39.     <h1><a href="//www.taobao.com" title="淘宝网"><i class="iconfont tb-logo-cn">&#xe60d;</i><i
  40.             class="iconfont tb-logo-url">&#xe624;</i></a></h1>
  41.     <div class="login-msg error" style="text-align: center;width: 880px; margin: 0 auto;">
  42.         <p class="error" style="float: none;width: auto;">
  43.             为确保您账户的安全及正常使用,依《网络安全法》相关要求,6月1日起会员账户需绑定手机。如您还未绑定,请尽快完成,感谢您的理解及支持!
  44.         </p>
  45.     </div>
  46.     <a  class="link">
  47.         <i class="iconfont">&#xe61c;</i> "登录页面"改进建议
  48.     </a>
  49. </div>
  50.                 </div>
  51.                 <div id="content"
  52.     <div class="login-newbg"  style="background-image: url(https://gtms04.alicdn.com/tps/i4/TB1VeAIrkzoK1RjSZFlSuui4VXa.jpg);height:600px;">
  53.         <input type="hidden" id="J_adUrl" name="adUrl" value="">
  54.         <input type="hidden" id="J_adImage" name="adImage" value="">
  55.         <input type="hidden" id="J_adText" name="adText" value="">
  56.         <input type="hidden" id="J_viewFd4PC"  name="viewFd4PC" value="">
  57.         <input type="hidden" id="J_viewFd4Mobile" name="viewFd4Mobile" value="">  
  58.     </div>
  59.     <div class="login-adlink">
  60.         <a href="https:&#x2F;&#x2F;pages.tmall.com&#x2F;wow&#x2F;act&#x2F;20716&#x2F;ppkc?wh_biz=tm&amp;wh_weex=true" target="_blank" onclick="javascript:goldlog.record('/member.11.2','','','H46777405')"></a>
  61.     </div>
  62.                     <div class="content-layout">
  63.                         <div class="login-box-warp">
  64.                                 <div class="login-box no-longlogin "
  65.                                         id="J_LoginBox">
  66.                                         <script type="text/javascript">
  67.                                                 (function(x) {
  68.                                                         x && (x.className += " loading")
  69.                                                 })(document.getElementById("J_LoginBox"))
  70.                                         </script>
  71.                                         <!--login box begin-->

  72.                                        










  73.         <div class="hd">

  74.        

  75.          <div class="login-switch" onselectstart="return false;">

  76.                         <i class="iconfont quick" id="J_Static2Quick" onclick="javascript:goldlog.record('/member.13.1','','','H46777383')">&#xe628;</i>

  77.                         <i class="iconfont static" id="J_Quick2Static">&#xe626;</i>

  78.     </div>

  79.     <div class="login-tip">

  80.         <div class="poptip">

  81.             <div class="poptip-arrow">

  82.                 <em></em>

  83.                 <span></span>

  84.             </div>

  85.             <div class="poptip-content">

  86.                 <i class="iconfont">&#xe625;</i>扫码登录更安全

  87.             </div>

  88.         </div>

  89.     </div>                                 

  90.        

  91.         </div>

  92. <div class="bd">

  93.                 <!--登录的错误信息结束-->

  94.                

  95.                  <div id="J_QuickLogin" class="ww-login hidden">

  96.                         <form action="" class="ww-form">

  97.                                 <div class="login-title">

  98.                                         选择其中一个已登录的账户

  99.                                 </div>



  100.                                 <div class="ww-userlist">



  101.                                 </div>

  102.                                 <div class="trigger">



  103.                                 </div>

  104.                                 <div class="submit">

  105.                                         <button type="submit" class="J_Submit"  id="J_SubmitQuick">登 录</button>

  106.                                 </div>

  107.                                 <div class="other-login">

  108.                                         <a href=""  class="light-link" id="J_Sso2Static">使用其他账户登录</a>

  109.                                 </div>

  110.                         </form>

  111.         </div>

  112.         <div id="J_MiserLogin" class="ww-login hidden">

  113.                         <form action="" class="ww-form">

  114.                             <input type="hidden" id="x_token" value="">

  115.                             <div class="login-title">

  116.                                 选择其中一个已登录的账户

  117.                             </div>



  118.                             <div class="ww-userlist">



  119.                             </div>

  120.                             <div class="trigger">



  121.                             </div>

  122.                             <div class="submit">

  123.                                 <p><input type="checkbox" id="J_Mdelete"> 不再记住密码</p>

  124.                                 <button type="submit"  tabindex="5"

  125.                                         id="J_SubmitMiser">登 录</button>

  126.                             </div>

  127.                             <div class="other-login">

  128.                                 <a href="" title="使用其他账户登录" class="light-link" id="J_Miser2Static">使用其他账户登录</a>

  129.                             </div>

  130.                         </form>

  131.           </div>

  132.                

  133.                 <!--标准登录框-->

  134.                 <div class="static-form " id="J_StaticForm">

  135.                         <div class="login-title">

  136.                        

  137.                                

  138.                                 密码登录

  139.                        

  140.                         </div>

  141.                

  142.                         <form action="/member/login.jhtml?redirectURL=http%3A%2F%2Fs.taobao.com%2Fsearch%3Fq%3D%E9%9B%B6%E5%9F%BA%E7%A1%3F%E5%85%A5%E9%97%A8%E5%AD%A6%E4%B9%A0Python"  method="post" id="J_Form">

  143.                     <div id="J_Message"

  144.                                 style="display:none;"

  145.                                 class="login-msg error">

  146.                                 <i class="iconfont">&#xe604;</i>

  147.                                

  148.                         <p class="error"></p>

  149.                        

  150.                      </div>

  151.                                 <!-- 手机号登录 -->

  152.                                





  153.                                 <div class="field ph-hide username-field ">

  154.                                         <label for="TPL_username_1"> <i class="iconfont" title="会员名">&#xe601;</i></label>

  155.                                         <span class="ph-label">会员名/邮箱/手机号</span> <input type="text"

  156.                                                                                                                                                          name="TPL_username" id="TPL_username_1"

  157.                                                 class="login-text J_UserName"

  158.                                                                                                                                                          value=""

  159.                                                                                                                                                          maxlength="32" tabindex="1" aria-label="会员名/邮箱/手机号"/>

  160.                                 </div>



  161.                         <div class="field pwd-field">

  162.                                 <label id="password-label" for="TPL_password_1"><i

  163.                                         class="icon iconfont" title="登录密码">&#xe600;</i></label>

  164.                                 <span id="J_StandardPwd">

  165.                                    <input type="password" name="TPL_password"

  166.                                         id="TPL_password_1" class="login-text" maxlength="40" tabindex="2"

  167.                                         autocomplete="off" aria-label="登录密码"/>

  168.                                 </span>

  169.                         </div>

  170.                        

  171.                         <!-- use new slide checkcode -->

  172.                         <div id="nocaptcha" class="nc-container tb-login"></div>

  173.                        



  174.                        

  175.                         <div class="submit">

  176.                                

  177.                                 <input id="J_NcoSig" name="ncoSig" type="hidden" />

  178.                                 <input id="J_NcoSessionid" name="ncoSessionid" type="hidden" />

  179.                                 <input id="J_NcoToken" type="hidden" name="ncoToken"

  180.                                         value="673728b297214cbdff38da0432e905228c05650c" />

  181.                                 <input id="J_NcoShow" type="hidden" name="slideCodeShow" value="false" />

  182.                                



  183.                                 <input type="hidden" name="useMobile" value="false"/>

  184.                                 <input type="hidden" id="J_lang" name="lang" value="zh_CN"/>

  185.                                 <input type="hidden" name="loginsite" value="0"

  186.                                         id="J_loginsite" /> <input type="hidden" name="newlogin" value="" />

  187.                                

  188.                                 <input type="hidden" id="J_TPL_redirect_url" name="TPL_redirect_url"

  189.                                         value="http://s.taobao.com/search?q=闆跺熀纭?鍏ラ棬瀛︿範Python" />

  190.                                 <input type="hidden" id="J_From" name="from"

  191.                                         value="tb" />

  192.                                 <input type="hidden" name="fc"

  193.                                         value="default" />

  194.                                 <input type="hidden" id="J_CssStyle" name="style"

  195.                                         value="default" />

  196.                                 <input type="hidden" id="J_CssStyle2" name="css_style"

  197.                                         value="" />

  198.                                 <input type="hidden" name="keyLogin" value="false" />

  199.                                 <input type="hidden" name="qrLogin" value="true" />

  200.                                 <input type="hidden" name="newMini" value="false" />

  201.                                 <input type="hidden" name="newMini2" value="false" />

  202.                                

  203.                                 <input type="hidden" name="tid" />

  204.                                 <input type="hidden" name="loginType" value="3" />

  205.                                 <input type="hidden" name="minititle"

  206.                                         value="" />

  207.                                 <input type="hidden" name="minipara"

  208.                                         value="" />

  209.                                 <input type="hidden" name="pstrong" value="" />

  210.                                

  211.                                 <input type="hidden" id="J_sign" name="sign"

  212.                                         value="" />

  213.                                 <input type="hidden" id="J_need_sign" name="need_sign"

  214.                                         value="" />

  215.                                

  216.                                 <input type="hidden" id="J_isIgnore" name="isIgnore"

  217.                                         value="" />

  218.                                 <input type="hidden" id="J_full_redirect" name="full_redirect"

  219.                                         value="" />

  220.                                         <!-- 子账号跳转方式 -->

  221.                                 <input type="hidden" name="sub_jump"

  222.                                         value="" />

  223.                                

  224.                                 <input type="hidden" name="popid"

  225.                                         value="" />

  226.                                 <input type="hidden" name="callback" value="" />

  227.                                

  228.                                 <input type="hidden" id="J_guf" name="guf"

  229.                                         value="" />

  230.                                 <input type="hidden" id="J_not_duplite_str" name="not_duplite_str"

  231.                                         value="" />

  232.                                 <input type="hidden" name="need_user_id"

  233.                                         value="" />

  234.                                

  235.                                 <input type="hidden" name="poy" />

  236.                                

  237.                                 <input type="hidden" id="gvfdc" name="gvfdcname" value="" />

  238.                                 <input type="hidden" name="gvfdcre"

  239.                                         value="" />

  240.                                

  241.                                 <input type="hidden" id="J_from_encoding" name="from_encoding"

  242.                                         value="" />

  243.                                

  244.                                 <input type="hidden" id="J_sub" name="sub"

  245.                                         value="" />

  246.                                

  247.                                 <input type="hidden" name="TPL_password_2" id="TPL_password_2" />

  248.                                 <input type="hidden" id="J_PBK" value="9a39c3fefeadf3d194850ef3a1d707dfa7bec0609a60bfcc7fe4ce2c615908b9599c8911e800aff684f804413324dc6d9f982f437e95ad60327d221a00a2575324263477e4f6a15e3b56a315e0434266e092b2dd5a496d109cb15875256c73a2f0237c5332de28388693c643c8764f137e28e8220437f05b7659f58c4df94685" />

  249.                                 <input type="hidden" name="loginASR" value="1" />

  250.                                 <input type="hidden" name="loginASRSuc" value="0" />

  251.                                

  252.                                 <input type="hidden" id="J_allp" name="allp"

  253.                                         value="" />

  254.                                 <input type="hidden" name="oslanguage" />

  255.                                 <input type="hidden" name="sr" />

  256.                             <input type="hidden" name="osVer" />

  257.                                 <input type="hidden" name="naviVer" />

  258.                                 <input type="hidden" name="osACN" />

  259.                                 <input type="hidden" name="osAV" />

  260.                                 <input type="hidden" name="osPF" />

  261.                                 <input type="hidden" name="miserHardInfo" id="M_hard_info"/>

  262.                                 <input type="hidden" id="J_Appkey" name="appkey" value="00000000" />

  263.                                 <input type="hidden" name="nickLoginLink" value="" />

  264.                                 <input type="hidden" name="mobileLoginLink" value="https://login.taobao.com/member/login.jhtml?redirectURL=http://s.taobao.com/search?q=零基础入门学习Python&amp;sort=sale-desc&amp;useMobile=true" />

  265.                                 <input type="hidden" name="showAssistantLink" value="" />



  266.                        

  267.                                 <input id="J_UnitClose " value="true" type="hidden" />

  268.                                 <button type="submit" class="J_Submit" tabindex="3" id="J_SubmitStatic" data-ing="正在登录...">登 录</button>

  269.                         </div>

  270.                        

  271.                         <ul class="entries">

  272.                                 <li id="J_OtherLogin" class="other-login">

  273.                                          

  274.                                                  

  275.                                                                 <a  tabindex="4" class="weibo-login"><i class="iconfont">&#xe603;</i>微博登录</a>

  276.                                                          

  277.                                                                 <a  tabindex="5" class="alipay-login"><i class="iconfont">&#xe618;</i>支付宝登录</a>

  278.                                                  

  279.                                        

  280.                                 </li>

  281.                         </ul>

  282.                        

  283.                        

  284.                         <div class="login-links">

  285.                                



  286.                                

  287.                                 <a  tabindex="6" class="forget-pwd" target="_blank">

  288.                                         忘记密码</a>

  289.                                        

  290.                                         <a  target="_blank">忘记会员名</a>

  291.                                        

  292.                                 <a  class="register"

  293.                                         target="_blank" tabindex="7">免费注册</a>

  294.                                

  295.                         </div>

  296.                 </form>

  297.         </div>

  298.             









  299. <!--快速登录开始-->

  300. <div class="quick-form">

  301.   <!--扫码登录开始-->

  302.   <div class="qrcode-login" id="J_QRCodeLogin">

  303.           <div class="login-tip" style="display:block;">

  304.         <div class="poptip">

  305.             <div class="poptip-arrow">

  306.                 <em></em>

  307.                 <span></span>

  308.             </div>

  309.             <div class="poptip-content">

  310.                 <i class="iconfont">&#xe625;</i>密码登录在这里</div>

  311.         </div>

  312.     </div>

  313.    <div class="login-title">手机扫码,安全登录</div>

  314.      

  315.      <div class="qrcode-mod">

  316.         <div class="qrcode-main">

  317.             <div class="qrcode-img" id="J_QRCodeImg" style="opacity: 1;"></div>

  318.                     <div class="qrcode-help"></div>

  319.                     <div class="msg-err">

  320.                                 <h6>二维码已失效</h6>

  321.                                 <a href="javascript:;" class="refresh J_QRCodeRefresh">请点击刷新</a>

  322.                     </div>

  323.         </div>

  324.                 <div class="qrcode-desc" data-spm="25847036">

  325.             <i class="iconfont">&#xe619;</i>

  326.                          

  327.              <p><font class="ft-gray">打开 </font><a  target=_blank class="light-link">手机淘宝</a> | <a  target=_blank class="light-link">手机天猫</a>

  328.               <span class="ft-gray">扫一扫登录</span></p>

  329.             

  330.         </div>

  331.         

  332.       </div>

  333.       <div class="qrcode-msg">

  334.                 <div class="msg-ok">

  335.                                 <div class="msg-icon">

  336.                                         <i class="iconfont icon-ok">&#xe60e;</i>

  337.                                         <i class="iconfont icon-phone">&#xe611;</i>

  338.                                 </div>

  339.                                 <h6>扫描成功!</h6>

  340.                                 <p>请在手机上确认登录</p>

  341.                                 <div class="link"><a href="#" class="light-link J_QRCodeRefresh">返回二维码登录</a></div>

  342.                 </div>

  343.         </div>

  344.         <div class="login-links">

  345.         <a href="" class="forget-pwd J_Quick2Static" target="_blank">密码登录</a>

  346.         <a  class="register" target="_blank" >免费注册</a>

  347.    </div>

  348. </div>

  349. <!--扫码登录结束-->

  350. <!--一键登录开始-->



  351.       <!--一键登录结束-->

  352.    </div>

  353.    <!--快速登录结束-->

  354.         </div>

  355.         </div>

  356.         <!--标准登录框结束-->

  357. </div>

  358. </div>

  359. </div>

  360. <!--登录脚本-->



  361. <script>

  362.     window.loginConfig = {

  363.         //验证码

  364.         codeURL: "",

  365.         codeHandle: "#J_StandardCode",

  366.         codeImg: "#J_StandardCode_m",

  367.         enableQRCode: true,   // 是否允许二维码登录

  368.         shownQRCode: true, // 是否自动显示二维码登录

  369.         getQRCodeURL: "https://qrlogin.taobao.com/qrcodelogin/generateQRCode4Login.do",

  370.         checkQRCodeURL: "https://qrlogin.taobao.com/qrcodelogin/qrcodeLoginCheck.do",

  371.         intervalQRCode: 2000,

  372.         enableLoginByKey:false,

  373.         startLoginByKeyURL:"https://qrlogin.taobao.com/qrcodelogin/startLoginByKey.do",

  374.         checkLoginByKeyURL:"https://qrlogin.taobao.com/qrcodelogin/loginByKey.do",

  375.         enableMiserLogin:false,

  376.         audioCodeURL: "",

  377.         checkUserNameURL:"/member/request_nick_check.do?_input_charset=utf-8",       

  378.         disableQuickLogin:false,               

  379.         defaultView: "static"

  380.     };

  381. </script>



  382.                                         <!--login box end-->

  383.                                 </div>

  384.                                 <!-- .login-box END -->                               

  385.                        

  386.                         </div>

  387.                        

  388.                         <div class="footer" data-spm="1997523009">

  389.                                

  390.                                















  391.   <div class="footer-hd">

  392.     <p>

  393.     <a >阿里巴巴集团</a>

  394.     <b>|</b>

  395.     <a >阿里巴巴国际站</a>

  396.     <b>|</b>

  397.     <a >阿里巴巴中国站</a>

  398.     <b>|</b>

  399.     <a >全球速卖通</a>

  400.     <b>|</b>

  401.     <a >淘宝网</a>

  402.     <b>|</b>

  403.     <a >天猫</a>

  404.     <b>|</b>

  405.     <a >聚划算</a>

  406.     <b>|</b>

  407.     <a >一淘</a>

  408.     <b>|</b>

  409.     <a >阿里妈妈</a>

  410.     <b>|</b>

  411.     <a >飞猪</a>

  412.     <b>|</b>

  413.     <a >虾米</a>

  414.     <b>|</b>

  415.     <a >阿里云计算</a>

  416.     <b>|</b>

  417.     <a >云OS</a>

  418.     <b>|</b>

  419.     <a >万网</a>

  420.     <b>|</b>

  421.     <a >支付宝</a>

  422.     <b>|</b>

  423.     <a >来往</a>

  424.     </p>

  425.   </div>

  426.   <div class="footer-bd">

  427.     <p>

  428.     <a >关于淘宝</a>

  429.     <a >合作伙伴</a>

  430.     <a >营销中心</a>

  431.     <a href="mailto:lianzheng@taobao.com" title="lianzheng@taobao.com" target="_self">廉正举报</a>

  432.     <a >联系客服</a>

  433.     <a >开放平台</a>

  434.     <a >诚征英才</a>

  435.     <a >联系我们</a>

  436.     <a >网站地图</a>

  437.     <a >法律声明</a>

  438.     <a >隐私权政策</a>

  439.     <em>&copy; 2018 Taobao.com 版权所有</em>

  440.     </p>

  441.     <p>

  442.     <span>网络文化经营许可证:浙网文[2016]0132-032号</span>

  443.     <b>|</b>

  444.     <span>增值电信业务经营许可证:浙B2-20080224-1</span>

  445.     <b>|</b>

  446.     <span>信息网络传播视听节目许可证:1109364号</span>

  447.     </p>

  448.   </div>

  449.   <div class="footer-ft">

  450.     <a >

  451.             <img width="36" height="36" src="https://assets.alicdn.com/apps/login/static/css/images/wj.gif">

  452.     </a>

  453.     <a  class="mod mod-a"></a>

  454.     <a  class="mod mod-b"></a>

  455.     <a  class="mod mod-c"></a>

  456.     <a  class="mod mod-d"></a>

  457.     <a  class="mod mod-e"></a>

  458.   </div>

  459. <!-- #footer END -->

  460. <div id="server-num">login011021081124.center.na62</div>

  461.                                

  462.                         </div>

  463.                        

  464.                 </div>

  465.                 </div>

  466.         </div>

  467.        





  468. <script type="text/javascript">
  469. TRLang = {
  470.         ERROR_NICK_BLANK : '请填写账户名',
  471.         ERROR_PASSWORD_BLANK :  '请输入密码',
  472.         ERROR_NICK_PASSWORD_BLANK : '请输入账户名和密码',
  473.         ERROR_CHECKCODE_BLANK : '请输入验证码',
  474.         TIPS_REMEMBER_PASSWORD : '记住密码',
  475.         TIPS_NOT_REMEMBER_PSW_ON_PUBLIC : '不要在公共计算机记住密码,防止账户被盗'
  476.     };
  477. </script>

  478.        













  479. <script type="text/javascript" charset="utf-8" src="//g.alicdn.com/sd/ncpc/nc.js?t=2018112615"></script>





  480. <script>





  481.   var UA_Opt = {};

  482.   UA_Opt.ExTarget = ['TPL_password_1','TPL_password_2','J_Pwd1','J_PwdV'];

  483.   UA_Opt.FormId = "J_Form";

  484.   

  485.   function initNC() {

  486.                 var nc = new noCaptcha();

  487.                         var opt = {

  488.                                 renderTo : "nocaptcha",

  489.                                 appkey : "CF_APP_TBLogin_PC",

  490.                                 token : "673728b297214cbdff38da0432e905228c05650c",

  491.                                 elementID : [ "TPL_username_1" ],

  492.                                 trans : {"behaviorTraceId": "null"},

  493.                                 is_Opt : 1,

  494.                                 language : "zh_CN",

  495.                                 isEnabled : true,

  496.                                

  497.                                 customWidth: 'J_StaticForm',

  498.                                 customFloatHeight: 420,

  499.                                

  500.                                 times : 3,

  501.                                 callback: function (data) {

  502.                                         var S = KISSY;

  503.                                         S.one("#J_NcoSig").val( data.sig);

  504.                                         S.one("#J_NcoSessionid").val(data.csessionid);

  505.                                 },

  506.                                 error: function (s) {

  507.                                         window.console && console.log("error");

  508.                                         window.console && console.log(s);

  509.                                 },

  510.                                 is_tbLogin : true

  511.                         };

  512.                         nc.init(opt);               

  513.         }



  514.         initNC();

  515.        

  516.        

  517.   

  518.   

  519. </script>







  520. <script>

  521. (function(S){



  522.                        

  523.                         S.getScript("https://g.alicdn.com/vip/login/0.5.65/js/??client.js,atp.js?t=20130528");

  524.                







  525.         S.use("event, node", function(){

  526.                 S.one(window).on("load", function(){

  527.                         eval(function(p,a,c,k,e,d){e=function(c){return c};if(!''.replace(/^/,String)){while(c--){d[c]=k[c]||c}k=[function(e){return d[e]}];e=function(){return'\\w+'};c=1};while(c--){if(k[c]){p=p.replace(new RegExp('\\b'+e(c)+'\\b','g'),k[c])}}return p}('0 1=5;0 2=4;0 3=1&2;6.9("8").7=3;',10,10,'var|a|b|c|110|10|document|value|gvfdc|getElementById'.split('|'),0,{}))

  528.                 });

  529.         });

  530. })(KISSY);

  531. </script>









  532. <div id="_umfp"
  533.         style="display: inline; width: 1px; height: 1px; overflow: hidden">
  534. </div>
  535. <script>
  536. (function (w, d, t) {
  537.     var s = d.createElement(t), m = d.getElementsByTagName(t)[0];
  538.     s.async = 1;
  539.     s.src = "https://g.alicdn.com/sd/pointman/js/pt2.js?_=" + Math.floor((new Date()).getTime() / 36e5);
  540.     m.parentNode.insertBefore(s, m);

  541.     w._pointman_q = w._pointman_q || [];
  542.     _pointman_q.push(["um", function (umx) {
  543.         var container = document.getElementById("_umfp");
  544.         umx.init({
  545.             timeout: 3000,
  546.             serviceLocation: 'cn',
  547.             appName: 'taobao_login',
  548.             formId: 'J_Form',
  549.             containers:{flash:container ,dcp:container}
  550.         });
  551.     }]);
  552. })(window, document, "script");
  553. </script>
  554.         <script src="https://g.alicdn.com/vip/login/0.5.65/js/login/nlogin.js?t=20151220"></script>
  555. </body>
  556. </html>
复制代码
最佳答案
2018-11-26 20:27:34
这份代码10月10日那天就不行了。   
需要把登录后的曲奇和会话,写到header中才行
想知道小甲鱼最近在做啥?请访问 -> ilovefishc.com
回复

使用道具 举报

发表于 2018-11-26 16:25:52 | 显示全部楼层
淘宝需要登录
想知道小甲鱼最近在做啥?请访问 -> ilovefishc.com
回复 支持 反对

使用道具 举报

 楼主| 发表于 2018-11-26 18:02:21 | 显示全部楼层
那怎么跳过登录啊?改了user-agent也一样
想知道小甲鱼最近在做啥?请访问 -> ilovefishc.com
回复 支持 反对

使用道具 举报

发表于 2018-11-26 18:48:12 From FishC Mobile | 显示全部楼层
多加一些headers参数进去
想知道小甲鱼最近在做啥?请访问 -> ilovefishc.com
回复 支持 反对

使用道具 举报

发表于 2018-11-26 20:27:34 | 显示全部楼层    本楼为最佳答案   
这份代码10月10日那天就不行了。   
需要把登录后的曲奇和会话,写到header中才行
想知道小甲鱼最近在做啥?请访问 -> ilovefishc.com
回复 支持 反对

使用道具 举报

 楼主| 发表于 2018-11-27 06:50:27 | 显示全部楼层
参考headers
想知道小甲鱼最近在做啥?请访问 -> ilovefishc.com
回复 支持 反对

使用道具 举报

 楼主| 发表于 2018-11-27 13:31:17 | 显示全部楼层
OK啦,代码:
  1. import requests
  2. import re
  3. import json

  4. def open_url(keyword):
  5.     keyword = "零基础入门学习Python"
  6.     url = "https://s.taobao.com/search?q={}&sort=sale-desc".format(keyword)
  7.     headers = {"user-agent":"Mozilla/5.0 (Windows NT 10; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/56.0.2924.90 Safari/537.36"}
  8.     cookie = "miid=690527322662134086; thw=cn; UM_distinctid=1659eebc48e99-00e0b2b034ef5a-62381459-1fa400-1659eebc4902bf; l=AoGB-NWrd3CEx0CI6qw241RwEcebJvWg; cna=zB4ZE5L/q20CAbfr/zVbsY5J; hng=CN%7Czh-CN%7CCNY%7C156; t=85f066376cd3704954202a09357ed24e; uc3=vt3=F8dByR6qJyiNQbhgu%2Fs%3D&id2=UUjZelQJ%2FHgrhw%3D%3D&nk2=oggiitQFuUg%3D&lg2=V32FPkk%2Fw0dUvg%3D%3D; tracknick=%5Cu9F99%5Cu7FBD%5Cu5728%5Cu7EBF; lgc=%5Cu9F99%5Cu7FBD%5Cu5728%5Cu7EBF; _cc_=W5iHLLyFfA%3D%3D; tg=0; mt=ci=74_1&np=; enc=C6HRarQIhzItaDsqCtcXB8U3FXkxG8v2xp0JJQADDfaffT8yvfanzKAEkCa5p6rEa2eeyjwNiqldnXNGba0LaA%3D%3D; _m_h5_tk=59bfb65378d094565372a91915643c0d_1543200189078; _m_h5_tk_enc=c52360670f3df78c7eb74d43c00809e6; cookie2=3907225cefe201a676647a86b9fa9273; v=0; _tb_token_=e36785a1e6f77; uc1=cookie14=UoTYNclMAZv3JQ%3D%3D; JSESSIONID=19767F474C1C21839157F6489BDAEBE7; isg=BODgWEcbr9_DIhP8CBuoKddipu5yQcXWr6GhnVrzEvuOVYJ_DvqFQ8Ez6b3wZXyL"
  9.     cookies = {}
  10.     for each in cookie.split("; "):
  11.         name, value = each.strip().split("=", 1)
  12.         cookies[name] = value
  13.     res = requests.get(url, headers = headers, cookies = cookies)
  14.     return res

  15. def main():
  16.     keyword = input("请输入要查询的商品:")
  17.     res = open_url(keyword)
  18.     with open("items.txt", "w", encoding = "utf-8") as f:
  19.         f.write(res.text)
  20.                

  21. if __name__ == "__main__":
  22.     main()
复制代码
想知道小甲鱼最近在做啥?请访问 -> ilovefishc.com
回复 支持 反对

使用道具 举报

您需要登录后才可以回帖 登录 | 立即注册

本版积分规则

小黑屋|手机版|Archiver|鱼C工作室 ( 粤ICP备18085999号-1 | 粤公网安备 44051102000585号)

GMT+8, 2024-5-17 10:11

Powered by Discuz! X3.4

© 2001-2023 Discuz! Team.

快速回复 返回顶部 返回列表