一個做近紅外的化學計量學人——訪南開大學教授邵學廣
上海長肯設備供
近年來,我國近紅外光譜分析技術無論在基礎研究還是應用方面都取得了長足進展。而且在近紅外光譜分析技術研究的龐大人群中,總是能看到國內為數不多的化學計量學人身影。其中,南開大學教授、國內近紅外光譜分會副理事長邵學廣就是其中之一。
南開大學教授 邵學廣
日前,儀器信息網編輯采訪了邵學廣,請他介紹了他走進化學計量學、走進近紅外的歷程,并發表了他對化學計量學和近紅外發展趨勢、以及限制近外應用推廣難點等問題的看法,后也談到了如今熱點的近紅外大數據的發展前景。
走進化學計量學,扎根化學計量學
說起來,邵學廣并不是學化學計量學專業出身。在讀博士之前他學的是稀土化學應用專業,1992年博士畢業后選擇了”小波變換”為未來研究方向,從此才進入了化學計量學領域。邵學廣經常和學生們說起這段經歷,一開始很艱苦,*是照著書和手冊自學。曾經有兩篇有關小波變換的文獻,邵學廣每年都要看幾遍,據他自己說,一直到5年后他自己寫《化學信息學》一書的時候才真正讀懂了這兩篇文獻。
當時邵學廣決定寫《化學信息學》*是因為要開課卻沒現成的教材,沒想到這本書成為了國內一本關于化學信息學的書,目前已經出版3版。
為什么從小波變換開始,邵學廣說到,“關于小波變換,1986年上其他領域已經有人開始使用,化學領域真正的一篇文章發表在1992年。而1992年我正好剛剛參加工作需要尋找并確定今后的研究方向。那么,當時我覺得新提出來的小波變換會是一個很好的方向。”剛開始的5年多時間里其團隊一直在做方法,并在各種光譜、色譜方面廣泛嘗試,結果證明這個方法的效果特別好,更加增強了邵學廣的信心,從而這項工作邵學廣一直堅持到現在。
除了小波變換,邵學廣這些年主要研究工作包括免疫算法、化學因子分析、人工神經網絡、遺傳算法等算法,還包括分子模擬等理論化學計算方法研究。
“其實,我們實驗室做的有特色的是免疫算法,是我們的一種算法。”免疫算法主要用于色譜重疊組分信號解析,可以把單峰解出來。原來色譜分析10-20個成分的時候,需要用時30-40分鐘。而用了免疫算法只需10多分鐘進行分離,分離結束即直接就能夠計算出來。如,40多個組分的農殘分析只需10多分鐘。
結緣近紅外,思考近紅外
近紅外光譜的缺點之一是解釋性差,峰很寬、很模糊。在計量學出現之前,近紅外光譜一直沒有得到很好的發展。“近紅外和化學計量學是捆綁在一起的兩種技術,可以說計量學的發展推動了近紅外的發展;同樣也可以說近紅外給了化學計量學一個舞臺,讓它有了發揮作用的地方。”
近年來,近紅外光譜發展很快,而邵學廣在近紅外領域也已經做了將近20年。這期間他們嘗試了不同的建模方法,也提出了自己的方法,同時還研究了另一個非常重要的問題,即建模樣品的確定問題,發表了幾十篇的論文。“近紅外相關化學計量學方法的研究已經比較充分、成熟。盡管不能說哪種方法妥當,但是有很多方法已經能夠用了,想干什么事,基本上都可以做了。當然,更‘新鮮’的方法研究也是需要的,但是沒有那么緊迫了。”
關于近紅外數據處理的發展趨勢,邵學廣認為,根據具體的行業需求進行開發,不做大而全的軟件。如,我們之前與中檢院合作開發的判別藥品一致性的軟件已經交付,得到的反饋還不錯。另外,基于數據庫的一些算法要實現標準化。邵學廣認為,近紅外數據處理的下一步方向是高光譜,因為如今的近紅外光譜成像數據處理還有不太成熟的地方。
關于近外光譜分析技術應用與推廣的難點,是邵學廣常常思考的問題。首先,他提到的是“靈敏度”的局限。近紅外方法靈敏度很低,很多微量成分不好分析,這是限制近紅外光譜在科研領域應用推廣的很大一個原因。怎么讓近紅外能測微量成分,邵學廣已經研究7年多的時間了。邵學廣承擔基金委的一個重點項目就是研究這個問題,經過攻關2016年時檢測限已經達到微克級別。近紅外另一個缺點是結構分析能力差,在表征化合物結構方面遠遠弱于質譜或中紅外光譜。這幾年,邵學廣從做水的光譜入手,花了很大力氣力圖從復雜的水結構中把不同結構的水分子光譜提取出來。水中水分子結構非常復雜,有單獨的水分子、二個水分子結合、三個水分子結合、甚至更多。“希望大學、研究所更多人員加入到這方面的研究中來。”
近紅外光譜推廣應用更多的限制來自于儀器之間的差異、測量之間的差異。邵學廣這兩年做了很多模型轉移方面的研究工作,他認為儀器之間的差異基本上可以校正,不是太難。因為儀器之間差異是固定的,理論上也是可以校正的。邵學廣指出,真正難點在于測量之間的差異,如,樣品擺放位置、顆粒度大小等形態差異帶來的光譜變化會導致測量結果變化,且理論上就沒有解決方法,只能根據假設或一定的近似來修正。邵學廣基于假定光譜和操作條件之間存在著某些我們不知道的關系,從而建立相應校正模型把這種關系預測出來。“這個校正模型使用的效果挺好,但是還缺少相應的理論依據。”
推應用發展,落地人才培養
邵學廣強調,“化學計量學專業人才的缺乏是近紅外應用發展的主要難點。”從事化學計量學相關專業研究的人員較少,而且,化學計量學不是本科階段必須學習的內容,研究生階段開課的也不多。歐洲大學本科階段已經在教學大綱中規定化學計量學為必學內容,其份量已經占到分析化學內容的四分之一。但在國內還沒有這個要求。“這導致培養的相關人才太少,對化學計量學和近紅外的發展限制相當大。”
很多人提到化學計量學,會莫名的感覺有點“怕怕”。事實上,現在研究化學計量學的人雖然不算多,但是也很容易找到合作的人。另外,如今也有一些比較成熟的軟件,即使不懂化學計量學原理,只要會用軟件,也能解決問題。
現在,邵學廣在南開大學本科階段開設了計量學相關教學內容。而且,經常有外面學生來邵學廣實驗室學習,或者以項目合作的模式聯合培養,時間不等,邵學廣負責指導。再者,這幾年邵學廣的實驗室也開發出了一些軟件。像是具有使用便利等優點的小波變換算法,不但成為了邵學廣實驗室扣背景的標準方法,而且,邵學廣表示,對于小波變換,內行人可以靈活設置參數,外行人不調整參數也能使用。所有這些都是邵學廣在為實現“不應該讓不懂計量學成為計量學和近紅外應用的障礙”所做的努力。
由此延伸,邵學廣談到了近紅外的人才培養問題,并強調“打好地基”的重要性。近紅外研究人員不要只盯住應用去做,一方面要針對應用,但又不能*是應用。特別是對年輕研究人員,要把基本理論“打”扎實了,等到去做應用的時候,應用方法、技術會非常穩固和牢靠。否則,很多技術不牢靠反而會導致應用失敗。而且,糟糕的是,一旦失敗,大家就會認為這個方法不好,實際上會阻礙了這個領域的發展。
大數據推動近紅外爆炸式增長
如今“大數據”已經成為一個熱詞,邵學廣也在多個場合說到,近紅外的大數據時代已經來臨。“與其他大數據相比,近紅外光譜大數據有兩個特點:數據量大、信息量大。”特別是成像光譜和高光譜,高光譜儀器的檢測器和目前儀器所用的有所差異;而且常用的模型轉移、數據處理等和原來傳統光譜也有一些差別,所以,必須開發一些新的據分析方法。邵學廣介紹到,“原來只是1-2000個數據點,現在一個高光譜數據量上萬,可變量選擇的方法范圍很小。”
此外,一條光譜所含信息豐富,除了化學信息,還包括物理信息,如硬度、大小、位置等,需要綜合利用。在藥品的真假判別時,往往是隔著包裝測試的,包裝材料的信息、藥片壓的實不實、藥片的形狀等物理信息都可以判別。“我們近紅外不管是哪種信息,只要有這方面的信息,不用刻刻意強調是物理還是化學信息。”
“從應用角度看,近紅外大數據的價值,目前在于監控。”監控包括工業監控,甚至應用到“大街上”的空氣質量等監控。“大數據來源于實時,也來源于長期實時數據的積累。對大數據進行相關分析、可視化分析,把數據和事件相關并從中總結出其規律性,比如說大型活動的人流等。數據更多的時候就可以根據已有數據建立模型,根據光譜信息預測后續發展。”
“目前大數據研究還處于初級階段,炒概念的多些,但各行各業都在用。”如,已有按大數據系統設計的藥品數據庫,把全國藥監的數據集成在一個數據庫中。在這個庫的基礎上建立模型,可用于市場調查、藥品抽檢等。“只需做一個光譜,上傳到數據庫,數據庫就可根據模型判別藥品的真假,并把結果反饋回移動終端。目前該數據庫建設基本完成,相關技術均已成熟。”糧食領域也啟動了類似項目,雖不涉及網絡、無線通信,但也涉及數據庫建設。可輸入收購糧食樣品的光譜來得到樣品相關的濕度、蛋白質含量等各項參數。煙草行業的原料大數據系統、生產在線監控也已經做好。
“類似工作在許多行業都已經開展,但是真正投入使用的不多。”邵學廣這樣說到,“這些大數據系統的實際應用,不光是技術的問題,在于監管或被監管者是否想做。”
不過,邵學廣也指出,大數據的發展需要由應用需求驅動。像現在的物流、快遞行業,需求太大了。而實驗室對儀器中的大數據應用現在需求不強烈。但我們這些做研究工作的學者可提前做好方法。就過程分析而言,下一步一旦國內產品質量從產品檢驗控制轉向過程控制,從政府層面推廣過程控制,到那個時候,企業自然會來找,近紅外光譜會有一個爆炸式增長。