丁香六月欧美,亚洲欧美日韩ⅴ在线,日本三级黄色网址

欄目導航

新聞資訊

新聞資訊

文的最基本單位是“字”，多個字組合起來叫做“詞”。而英文的基本單位是“word”，被翻譯成中文的“詞”，而由多個“word”構成的東西“phrase”，就只好翻譯成中文“詞組”。

我們用中文的時候，最初帶著“字典”，常用漢字學完之后，就開始更加依賴“詞典”。在中文世界里確實是這樣，“頂多就是查詞”——成語（生搬硬套）、俗語（不到黃河不死心）、典故（水至清則無魚）、術語（氫離子濃度指數）等等，在《現代漢語大詞典》里都是“詞條”。

因為把“word”翻譯成“詞”而不是“字”（還真搞不清楚究竟是誰那么自以為是這樣翻譯的。但肯定是“出于好意”。這就是“好的意圖不一定帶來好的結果”的又一絕佳例子），于是中國學生不小心就在腦子里把英文的“字”（“word”）與中文的“詞”兩個原本并不對等的概念等同起來，于是查英文詞典的時候，心里覺得“頂多就是查詞”么，而從來不在意那些“words”還會拼起來成為“phrases”，大概這就是中國學生為什么總是疏于去查“phrasal verb dictionary”或者“dictionary of idioms”的原因了罷。事實上，大多數英文詞典也包含有足夠多的phrasal verbs和idioms的解釋，但是，大多數學生總是以為只要認識一個句子里的每個單詞就可以了，于是總是出現理解上的漏洞。

看看這段文字（這是含有這道詞匯題的托福文章中的另外一個句子）：

But this increased protection is partially counteracted by the fact that mass roosts attract predators and are especially vulnerable if they are on the ground. Even those in trees can be attacked by birds of prey.

學生可能會去查counteracted（查過之后會懊悔“怎么這么簡單的組合詞竟然沒有一眼看出來？”），也會去查roost、predator、vulnerable，以及prey。然后就覺得“盡心盡力”了。可是，“birds of prey”并不是很多人想當然地以為的“被捕食的鳥”而是“食肉鳥、猛禽”。

如果你沒有在前面的章節“2.1 朗讀有助于提高文字理解能力”里看到過“birds of prey”的解釋，并且之前確實不知道這個詞組的含義，請問你自己會主動去查詞典嗎？

再看一段文字（這是Collegeboard網上提供的Online Course中閱讀練習文章中的一句話）：

I would rather chance my personal vision of the truth striking home here and there in the chaos of publication that exists than attempt to filter it through a few sets of official, honorable, and public-spirited scrutinizers.

我的一位同事曾經把這句話翻譯為：

我寧愿要冒險，用我關于真實的個人看法驚擾各地的家庭，在已經出版的資料的混亂中，而不是由少數值得尊敬的官員，照公德心來細查，而進行過濾。

我的這位同事是位非常認真的人，其他同事甚至認為他有時認真到神經質的地步。但這一次他還是出錯了。這句話里的“striking home here and there”肯定不是“驚擾各地的家庭”，因為“strike home”是個詞組，意思是““擊中要害”。他沒有去查，所以犯了“低級錯誤”。

《金山詞霸》應該是國產軟件中使用率最高的軟件之一，能排在《金山詞霸》之前的恐怕只有騰訊的QQ和少數幾個諸如迅雷之類下載工具而已了。IM工具除了 QQ之外還有很多選擇比如MSN、GTALK，下載工具除了迅雷之外還有快車、電雷等等，但是英漢詞典軟件里，十年來幾乎一直都是《金山詞霸》獨占鰲頭。

這個幫助了無數人的軟件實際上爛得一塌糊涂。十年來不停地推出新版本，除了錯誤越來越多之外，新功能乏善可陳。除了文本錯誤之外，不足的地方還有很多，比如：

單詞朗讀大多不是真人發音，而是微軟的機器引擎，含混不清，真正的“鬼話”。而少數單詞確實是真人發音，但也不知道哪里找來的人朗讀的，既不標準也不悅耳——所以完全沒用。
音標標注有AHD、D.J.、K.K.三種，但錯誤百出，所以根本不能看。
包括無數的垃圾字典。有用的就那么兩個：a) 簡明英漢詞典（收錄單詞數量最多，釋義簡明）b) 美國傳統詞典[雙解]，一定要用雙解的版本，因為英漢單解版本中的中文釋義，也不知道是找誰翻譯的，不堪入目。

盡管《金山詞霸》從來都不是令人滿意的產品，但確實還是有可取之處的。其中最受用的是它的“詞組自動識別”——金山公司自己并未大張旗鼓地宣傳的一個功能。看看下面的圖片就知道這個功能有什么用了。

學習英語的時候，常遇到的苦惱之一是“每個單詞都認識，但是拼起來就不明白……”。可是有比這個還可怕的，就是“以為自己看懂了，而實際上并沒有看懂……”——我經常說“你不知道并不可怕，可怕的是你不知道你不知道。” 指的就是這種情況。比如“purple passage”這個詞組，“purple”誰都認識，“passage”誰都認識，于是，如果沒有一個像《金山詞霸》這樣“智能”的鼠標辭典（當然前提是在閱讀的文本是電子文本而不是印刷版），絕大多數人可能就把自己糊弄過去了，而全然不知“purple passage”是一個詞組，這個詞組的意思是“詞藻華麗的段落”，而不是“紫色的篇章”。

印象中我第一次被《金山詞霸》的這個功能震動，是很多年前某次隨手用鼠標劃過一篇文章，得知“birds of prey”的意思原來是“食肉鳥，猛禽”，而不是我原來想當然以為的“被捕食的鳥”（就是本文最初提到的那段文字。后來講課的時候，把這個當作一個重要的例子，結果發現絕大多數學生與當初的我一樣）——那一瞬間頭皮發麻后背發涼，于是養成了經常用鼠標掃一遍讀過的文章的習慣；這些年，因此受益無窮。

實金山詞霸每日一句已經出來很久了，但是我都不知道，今天去金山詞霸的官網看了看，感覺這些句子都挺不錯的，所以就想著把它們給存下來。

我大概看了一下他的頁面，請求的敏感數據是加密的，頁面是基于請求的數據動態渲染的，去解析結構的話，會比較花時間，這里我就使用selenium來簡化操作,它可以模擬瀏覽器，直接把數據渲染成最終的展示出來的頁面，然后，直接解析最終的html就可以得到最終的結果。

安裝selenium

pip install selenium

因為是這里是用的google瀏覽器版本 83.0.4103.97（正式版本）（32 位），所以這里我們需要去http://npm.taobao.org/mirrors/chromedriver下載對應的chromedriver驅動，然后解壓到Python的安裝目錄。如果不指定自己的安裝路徑，可以在cmd中執行where python命令來查找

C:\Users\lenovo>where python
D:\Programs\Python\Python38-32\python.exe
C:\Users\lenovo\AppData\Local\Microsoft\WindowsApps\python.exe

把我們下載的chromedriver復制到對應的目錄，我這里是D:\Programs\Python\Python38-32\

使用的selenium

那么這里先簡單的寫幾句代碼

from selenium import webdriver
browser=webdriver.Chrome()
browser.get('http://news.iciba.com/views/dailysentence/daily.html#!/detail/title/2020-06-05')
print(browser.page_source)

我們運行python demo.py就會看到這樣的效果

這里我需要它的圖片、英文和漢譯，我們來看看它的網頁元素結構

它的英文和漢譯分別在detail-content-en和detail-content-zh兩個class節點中,這里我們需要借助另外一個插件來解析selenium獲取到的html，它就是PyQuery,先執行pip install PyQuery 把它安裝下來，現在我們來開始獲取他的英文內容、漢譯內容以及圖片地址

from selenium import webdriver
from pyquery import PyQuery as pq
from time import sleep

browser=webdriver.Chrome()
browser.get(
    'http://news.iciba.com/views/dailysentence/daily.html#!/detail/title/2020-06-05')  # 訪問頁面
sleep(5)  # 等待5秒鐘
html=browser.page_source  # 獲取頁面渲染好的html
page=pq(html)  # 裝載到pyquery中
en=page(".detail-content-en")   # 查找英文節點
zh=page(".detail-content-zh")   # 查找中文節點
img=page(".detail-banner-img")  # 查找圖片
print(en.text())
print(zh.text())
print(img.attr('src'))
browser.quit()  # 退出瀏覽器

現在,我們來把每日一句的內容保存下來

from selenium import webdriver
from pyquery import PyQuery as pq
import time
import requests

cur_date=time.strftime("%Y-%m-%d", time.localtime(time.time()))  # 取當前日期
browser=webdriver.Chrome()
browser.get(
    'http://news.iciba.com/views/dailysentence/daily.html#!/detail/title/'+cur_date)  # 訪問頁面
time.sleep(5)  # 等待5秒鐘
html=browser.page_source  # 獲取頁面渲染好的html
page=pq(html)  # 裝載到pyquery中
en=page(".detail-content-en")   # 查找英文節點
zh=page(".detail-content-zh")   # 查找中文節點
img=page(".detail-banner-img")  # 查找圖片
with open('D:/ciba/'+cur_date+'.txt', 'wb') as file:  # 將內容寫入txt文本
    file.write(en.text().encode())
    file.write("\n".encode())
    file.write(zh.text().encode())

img_url=img.attr('src')
r=requests.get(img_url)
with open('D:/ciba/'+cur_date+'.jpg', 'wb')as f:  # 將圖片保存成文件
    f.write(r.content)

browser.quit()  # 退出瀏覽器

現在，我們執行python demo.py,就可以得到這樣的效果

是不是感覺有點意思?

我只是記錄我的學習過程，由于書讀的少，可能很多地方表述或者是理解得不對，請輕噴并指正。

密完成《金山糍粑》附錄appendix，clucene全文檢索格式，使用了zlib壓縮，因為unicode編碼問題，用lucene.net無法正確解出，只好重新寫了一個字節轉換算法，然后deflate，ok[強][得意]。

dic詞庫是xml索引加zlib壓縮塊格式，每段16384(0x4000)字節。

語音庫使用dic詞庫類似格式，去掉了xml說明文件，然后索引到每個mp3的偏移量和文件大小，同時xor加密。

這樣就完成了《糍粑》的詞庫、附錄和語音庫解密工作，相當于掌握了源代碼，不好意思啦雷總[抱拳][捂臉]

操屁眼的视频在线免费看,日本在线综合一区二区,久久在线观看免费视频,欧美日韩精品久久综

安裝selenium

使用的selenium