作者丨蘇北佛樓蜜
編輯丨陳伊凡
(資料圖)
2022年12 月,兩名計算生物學家Casey Greene和Milton Pividori開創(chuàng)了一項不同尋常的實驗:他們請一名非科學家的助手幫助他們改進三篇研究論文。在一份生物學手稿中,助手甚至在引用方程式時發(fā)現了一個錯誤,審稿順利完成且費用適中,每份文件不到0.50美元。
這名助手并非人類,而是一種名為GPT-3的人工智能算法。
“這將幫助我們提高研究人員的工作效率?!?科學家對此感到震驚。
如今,基于這一通用大模型算法誕生的產品ChatGPT,一經推出,就引發(fā)了現象級關注。一時間,全球科技巨頭競相宣布其將會把ChatGPT引入自己的業(yè)務。人們或驚嘆狂歡,或居安思危,ChatGPT所承載的意義似乎就快超越它本身。在百花齊放的應用場景中,生物技術領域能如何搭上ChatGPT的快車?
ChatGPT與生物技術的結合
2020年,人工智能公司OpenAI發(fā)布的一款模型,自發(fā)布初就被大肆宣傳為生成式AI聊天機器人式工具,無論是創(chuàng)作散文、詩歌、計算機代碼,還是編輯研究論文,似乎無所不能。
昨日,微軟(Microsoft)公司表示,將把ChatGPT整合到搜索引擎Bing和網絡瀏覽器中,谷歌(Google)公司也在今日展示了其名為Bard的人工智能對話系統(tǒng)。這些系統(tǒng)可以根據用戶提供的復雜問題,提供全面而綜合的回答,小到制定詳細的旅行計劃,大到分析公司的運營策略。
ChatGPT在生物技術上最有前景的應用似乎是在蛋白質生成和基因測序領域。
總部位于加利福尼亞的生物技術公司Profluent使用類似于ChatGPT的AI模型,創(chuàng)造了新型抗菌蛋白,并且已經證明它們能夠在實驗室中殺死細菌。
這一模型名稱為ProGen,是一種大型語言模型 (LLM),它利用大量文本作為訓練數據,開發(fā)分析和生成語言的能力——類似于ChatGPT,但 Progen的語言是蛋白質語言。
簡單來說,就是使用 AI 和大型語言模型,例如為 ChatGPT 提供支持的語言模型,來學習生物學的基本語言,并設計具有治愈疾病潛力的新蛋白質。
目前,ProGen生成了一百萬種不同的人工序列,研究人員從中挑選了 100種在實驗室中合成,其中66種產生了類似于雞蛋清溶菌酶的化學反應,用作陽性對照。
該團隊隨后選擇了五種新型抗菌蛋白,并測試了它們對大腸桿菌的抵抗力。其中兩種新蛋白質能夠殺死細菌。
同時,X射線成像顯示,盡管這些抗菌蛋白的氨基酸序列與任何已知的天然蛋白相差超過30%,但它們仍然折疊成與”天然表親們”幾乎相同的形狀。
這項研究可能意味著,未來我們能通過與AI合作,創(chuàng)造本不屬于自然界的蛋白質,并將這些蛋白質賦予不同的功能,人類成為了微觀世界里的上帝。
攻克蛋白質后,ChatGPT似乎又開始朝著基因高歌猛進。
科技公司Nvidia在今年的JP摩根醫(yī)療健康大會稱,隨著新一代基因組測序速度的不斷加快和成本的不斷降低,目前我們測序基因組DNA的能力已經超越了分析DNA序列并從中獲取洞見的能力。而更快速有效地處理海量的基因組序列信息離不開人工智能。
大型語言模型通過可以分析人類語言一樣分析DNA序列,以此加快基因組的拼接、基因突變的發(fā)現,并且用人類對話的方式將發(fā)現表述給研究人員。
比如,整合ChatGPT的基因測序分析系統(tǒng)可能在處理患者的基因組測序數據后給出——“這名患者的某基因上的突變可能導致罕見遺傳病A”的結論,它似乎代替了醫(yī)生。
ChatGPT是萬能的嗎?
一切的發(fā)現和應用似乎都朝著好的方向前進。但面對似乎全能的工具,隨之而來的是人類的反思和“批判”。它是萬能的嗎?
部分看客也跟著給出了自己的答案:不是。
首先,我們開始思考翻譯和替代的準確率?
比如,目前大型語言系統(tǒng)的缺陷在于“提供信息的真實度有待提高”。由于ChatGPT基于對已有語言數據的學習提供回答,它的回答也受到數據庫中不真實、有偏見、或者過時知識的影響。
這可能意味著對于專業(yè)性強的話題,如果大型語言系統(tǒng)沒有經過足夠專業(yè)數據的訓練,很可能提供錯誤的回答。對于不了解專業(yè)知識的普通人來說,無法偵辨虛實。
此外,由于海量的數據訓練是保證ChatGPT的基礎,因此在數據的輸入過程中,可能存在歷史偏見等遺留問題,種族、性別、文化、年齡歧視等不良因素都會隱匿在其中。想要人工剔除是十分困難的事情,如何防止ChatGPT根據這些數據輸出有害言論是需要解決的另一個挑戰(zhàn)。
在Nature上發(fā)表的最新評論中,有研究人員指出,建立使用ChatGPT的規(guī)范和法規(guī)至關重要,才能確保這一技術被正當、透明、公平的使用。
開發(fā)者比評論人更清楚這其中隱藏的問題。去年9月,Google子公司DeepMind發(fā)表了一篇關于名為Sparrow的“對話代理”的論文4,該公司的首席執(zhí)行官兼聯合創(chuàng)始人 Demis Hassabis 表示,該論文將在今年以私人測試版的形式發(fā)布。谷歌的目標是開發(fā)甄別包括引用消息來源的能力在內的功能。
一些科學家也認為,目前,ChatGPT還沒有接受足夠專業(yè)的內容培訓,無法對技術主題有所幫助。Kareem Carr是哈佛大學的生物統(tǒng)計學博士生,當他在工作中試用時感到不知所措。
“我認為ChatGPT 很難達到我需要的水平。”他說。
因此,一些科技公司正在根據專業(yè)科學文獻對聊天機器人進行培訓,盡管它們也遇到了自己的問題。
去年11月,擁有Facebook的科技巨頭Meta發(fā)布了一個名為Galactica的法學碩士項目,該項目接受過科學摘要培訓,旨在使其特別擅長制作學術內容和回答研究問題。
但測試中仍然出現了問題,目前該演示已從公共訪問中撤出。
對此,“不再能通過隨意濫用它來獲得樂趣了?!盡eta 的首席人工智能科學家Yann LeCun在推特上略顯憤懣地回應道。
種種小小的不愉快背后,可能意味著ChatGPT的果實并未完全成熟。狂歡之余,子彈仍需飛一會兒。
網站首頁 |網站簡介 | 關于我們 | 廣告業(yè)務 | 投稿信箱
Copyright © 2000-2020 m.netfop.cn All Rights Reserved.
中國網絡消費網 版權所有 未經書面授權 不得復制或建立鏡像
聯系郵箱:920 891 263@qq.com