pos機如何介紹

 新聞資訊2  |   2023-07-12 09:43  |  投稿人:pos機之家

網(wǎng)上有很多關(guān)于pos機如何介紹,自然語言處理宏觀介紹及應(yīng)用的知識,也有很多人為大家解答關(guān)于pos機如何介紹的問題,今天pos機之家(www.www690aa.com)為大家整理了關(guān)于這方面的知識,讓我們一起來看下吧!

本文目錄一覽:

1、pos機如何介紹

pos機如何介紹

飛馬網(wǎng)于2019年3月14日邀請到徐勝權(quán)為大家?guī)碜匀徽Z言處理方面的相關(guān)內(nèi)容。

現(xiàn)整理如下:

首先我來做一下自我介紹??赡茉谶€海報上已經(jīng)看到了我叫徐勝權(quán),是目前是在杭州一家上市公司,主要負責(zé)自然語言處理和知識圖譜這一塊的開發(fā)工作。首先這個是我們今天要講的主題,主題是什么?是自然語言處理的介紹及應(yīng)用,因為我們今天晚上沒有不會涉及到太太細節(jié)的技術(shù)內(nèi)容,主要是從宏觀層面上來,了解一下自然語言處理這一門學(xué)科,然后從整體上來了解一下。

首先在講開始之前安利一下nlp這一行業(yè)的薪資情況,目前我在這里是隨機搜的,杭州地區(qū)的,大家可以稍微看一下。然后來看一下自然語言處理這一行業(yè)的要求,我們可以看到它主要是包括一哪一些內(nèi)容?數(shù)學(xué)。數(shù)學(xué)相關(guān),然后有編程,然后有深度學(xué)習(xí)這一些框架,這一些要求,然后包括像語言學(xué)相關(guān)的知識。然后看到這張PPT的話是我們今天晚上主要所要講的三點內(nèi)容,第一就是自然語言處理簡介。第二就是它所涉及的一些方法,一些技術(shù)涉及哪些技術(shù),然后分享一下在nlp方面的一些學(xué)習(xí)方法。然后第三點就是自然語言處理技術(shù)在我們身邊有哪些應(yīng)用?

現(xiàn)在我們來講第一點就是自然語言處理的簡介。我們來看自然語言處理簡介是我們在學(xué)習(xí)一門新的知識的話,我們首先一般的流程是什么?一般是知道他是什么,然后是為什么,然后再怎么做是吧?我們首先看一下它是什么?自然語言處理就是指計算機對自然語言的形音義等信息進行處理。對,我們的輸入一般是字詞句或者篇章。但是我們在實際企業(yè)向應(yīng)用中,句子偏多,篇章級別的分析較少很少,一般都是短句左右。

所以從簡單來講,就是實現(xiàn)人機間的信息交流,包括像人機對話,這是個很典型的一個案例。是吧?我們來看一下馮志偉。馮志偉這個人大家可以去百度一下,人,這個人可以說是像中文自然語言處理的鼻祖,他可能是他研究最先開始研究這一塊。它解釋為自然語言處理,就是利用計算機工具,對人類特有的書面形式和口頭形式。這里為什么把它分為書面形式和口頭形式?因為我們在一般場景下我們處理的數(shù)據(jù)都是比較書面化的。然后口頭形式是什么?我們在口頭形式,就是我們在對話系統(tǒng)中有一個口語理解系統(tǒng),就是口語理解系統(tǒng),比如像我們在對話過程中有一些表達是非常口語化的,比如像什么吃飯先這一類情況。

所以我們要對這一個坐在對話的時候做一個特殊的處理。我們再來看一下自然語言處理的一些再細分的話,其實我一般情況下把自然語言處理分為三部分,第一部分是nlp。對一些類似文本數(shù)據(jù)的一個預(yù)祝里,包括像分詞,詞性標注,這一類這類情況做一個預(yù)處理,然后在下一個層面,自然語言理解NLU對數(shù)文本數(shù)據(jù)進行預(yù)處理之后,對我們的數(shù)據(jù)進行一個理解的過程。然后再是自然語言生成,自然語言生成的話,像我們有哪些很一些典型的場景?

有比如像對話生成,像自動生成詩歌,或者像現(xiàn)在有一個比較火的應(yīng)用,就是自動生成文章。自然語言生成就是指自然語言文本來表達給定的來表達給定的意圖。自然語言的理解和分析,我們可以把它看作是一個層次化的過程,也就是說把它分成五個層次,也就是更好,這樣能夠更好的體現(xiàn)語言語言本身的構(gòu)成。因為我們像中文和英語之類,其他的語言有可能會有一些不同。中文最大的差別就是中文和英語多一個分詞的一個過程。但是我們分詞有一個特點,就是它會影響我們,如果分子的準確率不高的話,它會影響到我們下一部分的下一部分的操作。

也這樣的話,也就是說會存在一個plan模板?,F(xiàn)在有像一些任務(wù),包括像秘密幾識別,關(guān)系抽取這一類任務(wù)的話,如果能夠部分詞的話就盡量不分子。所以我們當做一些自然語言處理任務(wù)的時候,想到的第一第一個想法并不是上來就進行分詞,我們我們把它分成五個層次,包括語音這一塊我們暫時不做研究。想可以大家可以自己想一下,包括像我們身邊用的最多的就是像小艾同學(xué)天貓精靈這一類,它首先是把我們的語音變換成變化成文本語音識別變化成文本之后再做,對文本進行處理。

這些處理包括哪些?像詞法分析,然后進行句法分析,還有在語義層面上的進行一些分析,包括像語音層面,我們下面來做,對下面這幾個做一個講解。

這個是一個流程圖。語音分析,主要就是根據(jù)像因為規(guī)則從語音中區(qū)分出一個個獨立的因素,再根據(jù)這些抽取出I對應(yīng)的詞數(shù)或者詞。最簡單的就是把語音轉(zhuǎn)成文本,最直觀的理解就是然后詞法分析就是找出詞匯的各個磁術(shù),包括像語言學(xué)的,企業(yè)的信息,通俗的來講的話就是我們說的分詞,包括以后要做的一些詞性標注,詞性標注,它的作用就是為了以后做句法分析來用,包括像標注它的動詞名詞,包括形容詞這一類。

我們的詞法分析主要包括哪些內(nèi)容呢?有磁性分詞,詞性標注,像還有新詞發(fā)現(xiàn),同義詞處理,還有漢字拼音互換等等,這些漢字和拼音之間的互換在我們的輸入法中是比較常見的111個場景。然后句法分析是一個目前是一個難點,它難在哪里呢?主要是我們的句子會有很多奇異信息,還有還有包括一些像多音字之類的。比如我舉一個例子,像之前網(wǎng)上比較火的一句話就是小龍女跟楊過說,比如像其他的小龍女對周伯通說,我也想過過過的生活。這個句子乍一聽,是不是很拗口?

但是我們?nèi)藶榈膩砝斫獾脑捠菦]有關(guān)系的。但是如果要讓技術(shù)會有很大的難度。比。因為它這個詞過而過的生活,想過兒過的生活,她很難處理?,F(xiàn)在我們來看一下,什么是句法分析,句法分析,就是對句子和短語的結(jié)構(gòu)進行分析,其主要的分析方式就是進行構(gòu)建分析解析樹,一個對句子進行一個樹形解析,它的目的就是找出詞和短語等相互關(guān)系,以及各自在劇中的作用,以及在I各個詞匯之間的一個依存關(guān)系。句法分析,像我們在從概念上來說的話,我們可以把它分為一個叫句法,結(jié)構(gòu)分析和依存關(guān)系分析這兩種。

I從完整性來完整性上來區(qū)分的話,句法結(jié)構(gòu)分析就是稱為完全句法分析它是什么意思?就是對我們輸入我們的一個跨越位。比如我們在前臺輸入一個塊為一個輸入,I輸入一句話,我們對整句話來進行分析。比如我們在我們有一個對話系統(tǒng)的場景,用戶輸入一句話,我想打車去上海,當然這是一個比較簡單的句子,我們就對在輸入的一整個單詞序列來判斷其構(gòu)成是否合乎給定的語法結(jié)構(gòu),因為我們再會給定一個規(guī)則和一個詞典規(guī)則是什么?就是類似類似像名詞,動詞名詞,它的一些成分,包括像明不定式,這是一個。

制定一個詞典,然后再根據(jù)詞典來判斷是否合乎句子的句法結(jié)構(gòu)。然后我們這個句法結(jié)構(gòu)通常一般是用樹狀數(shù)據(jù)結(jié)構(gòu)樹狀圖,也就是說我剛才有所提到的叫做解析數(shù)據(jù)。法解析順的話,我們目前存在解析數(shù)的生成其實是不難的。解析書的生成是不難,但是它有一個最大的難點是什么?有一個比較復(fù)雜一點的句子,也就是說其一起有歧義問題的句子。歧義我們以后等一下再稍微提一下。它會生成很多個解析樹,我們要從這很多個解析書里面去找出一個最優(yōu)的最優(yōu)的樹狀結(jié)構(gòu)出來,提示作為我們的結(jié)果。

目前是最難的是這一點,一個是歧義,歧義問題。另外我覺得還有另外一些問題,就是我們等會可能會提到知識圖譜的時候,等一下再講一下。然后我們再PPT里面沒有講的話,句法分析,我們來把它做一下分類,就是句法結(jié)構(gòu)分析和依從關(guān)系分析。嗯句法結(jié)構(gòu)分析就可以把它看成是一個句法的完整完整性分析,一層一層關(guān)系分析,可以把它當做是一個淺層的技法分析,淺層的技法分析,我們等會再提嗯句法結(jié)構(gòu)分析,也就是這種完整的完整成分分析的話,它主要任務(wù)它是有三點。

當然第一點是叫做判斷,我們輸入的字符串,也就是我們輸入的這個文本是何種語言。這個的話我們在一般情況下這種需要處理的,因為我們有的時候有一些在大部分場景,它默認情況下都是中文,但是我們在對話系統(tǒng)的場景中,對這一個的話可能是但是這個判斷必不可少。因為我們有的時候像對話口語會出現(xiàn)中文和英文夾雜著的這種情況,比如像說OK之類,就還有一些表達的話,可能就是類似像中文和英文都有。你答我電話就OK了,這種情況,我們可能要做一些特殊的處理。

還有一種場景,比如像早上打招呼,嗯甲看到乙說你好,然后以回復(fù)說hello這種情況也是一種場景。然后第二種,二第二個任務(wù)就是消除輸入句子中詞法和結(jié)構(gòu)等方面的歧義,簡單來說就是叫排氣工作。我們主要的奇異像有一些附著歧義,結(jié)構(gòu)歧義等等。比如像我們有一些場景叫做什么呢?是O的man,and woman,是吧?這種這種理解的話,很容易可以看作是像比如老人,老年人和老年的女人。如果她這種額可以指O的man和woman,然后也可以只是說目前在我看來提議問題是是一個最大也是最難處理的一個問題。

如果把棋一牌其處理好了,自然語言處理這一塊的研究會是有一個質(zhì)的飛躍。然后第三個就是像分析,輸入的句子的內(nèi)部結(jié)構(gòu),比如像成分構(gòu)成上下文關(guān)系,這個東西我應(yīng)該等一下講一個我們這一個架構(gòu)圖,等一下講一下。就把分析。包括像我們句法分析的話,會有什么像形式化的語法,形式化語法之后,發(fā)展有概率上下文無關(guān)法,包括像喬姆斯基范式之類這一塊,我忘了把我把下一張PPT發(fā)出來了,但是剛剛講到句法分析,還有一個淺層缺乏分析沒講到,就是依存關(guān)系分析,依存關(guān)系分析為什么叫依存關(guān)系?因為它其實我們可以把它稱為是叫做一個叫局部分析或者淺層分析。

它只淺層的句法分析,它是一個他主要的任務(wù)就是叫做識別,一個叫基本名詞短語叫做被cm P它是指什么叫基本名詞短語,就是指一個較簡單的非嵌套的名詞短語,它不含有其它子短語的一個短語叫基本名詞短語。所以像我們有一個子任務(wù),叫做產(chǎn)品,創(chuàng)新識別就是叫愉快識別,它可以把它歸類為向淺層句法分析這一塊,切我們的淺層句法,分析可以分為兩塊,一個就是愉快,就是我剛剛所提到的產(chǎn)品,創(chuàng)新識別,創(chuàng)新識別。我們有一個方法,就是基于序列標注,序列標注的思想,序列標注,比如像我們的內(nèi)媒體識別,實體識別這一塊。

實體識別是等一下,PPT里面有一個有一塊內(nèi)容叫知識抽取,知識抽取里面就有一塊內(nèi)容是實體抽取,實體抽取的思想可以跟歸為一類,叫做序列標注,它是一個它的訓(xùn)練數(shù)據(jù),是不用進行分詞分詞處理的,只是用RB和A來區(qū)分。比如像我們實體識別里面要抽取出人名字,可以把標項超抽取人機構(gòu)名時間等等我們這個時候的話,我們就可以構(gòu)建一個標簽舉證。像BB-poss,愛崗破損,BR-ORGA崗org。這個標簽矩陣是什么意思呢?

D就是指開頭,I就是指除了開頭以外,它的中間部分,中間和結(jié)尾部分都是用愛來來區(qū)分,然后非不是這一塊的話,我們就用O來區(qū)分,這樣的話就可以把它全部區(qū)分開來,反而從而進行識別。然后我們不管是完全句法分析或者淺層句法分析,我們都是構(gòu)造一個一個解析書的過程,構(gòu)造解析書的方法其實是有三種,一種是自頂向下剖析法,還有一種叫自底向上的剖析法。然后另外一種方法就是比較復(fù)雜,可能是把前兩者結(jié)合起來叫左腳分析法。它是把自頂向上和自底向上的兩種方法進行結(jié)合,來生成一個句法分析樹。

因為目前今天的話,我們不對這些技術(shù)細節(jié)來進行深入的討論。因為可能構(gòu)造句法非解析書的過程可能講兩個小時或者三個小時都可能都有可能。只是做一個大概的了解。不做愛細節(jié)方面的一些探討。然后到語義分析,我們在語意方面什么叫語義分析?就是找出像詞的一詞一結(jié)構(gòu)意義,以及結(jié)合意義,從而判斷他語言所表達的真正含義或者概念。我們有一個語義解析。再比如像對話里面有一個場景,就是像我們可能在漢語方面,同同一個詞在不同的場景,它表達的意思是不同的。

然而在同一個場景,它有多種的表達方式,對話里面一個如果一個用戶輸入,你今年幾歲了?或者這個時候他的問題是你今年幾歲,你可以回答我今年20歲。然后如果他換一種問法,你今年多大了?你的回答應(yīng)該是一樣的,照樣是我今年20歲。所以這種的話,他從你要從他的不同的表達當中,導(dǎo)致他找出他真正所要表達的意義。然后還有一種可能相比較更困難一些的同樣一個詞,在不同場景,它所表達的意義,比如說像有的時候,他有的時候可能表示疑問了,類似這種的話,這種在最這種處理就相當困難。

我們等一下用語用的話就是是什么?就是它一個最深層次的影響。比如說我們有的時候可能會出現(xiàn)這樣的情況,他會比如說我們犯了錯誤,領(lǐng)導(dǎo)他批評我,他但是他并不是直接的批評我,他只是他有可能會含沙射影的來講一下。這個時候就是我們要領(lǐng)會他深層次的意思,這種可以把它較為與用分析,然后大家大家可以看到這個圖,還看到我們在自然語言處理這一塊的一個由淺入深的四個層面,這個形式是指什么?就是形式化語言。形式化語言就是我們在已經(jīng)特定編輯好的一種意義就比如像最簡單的或者是一種什么情況呢?化學(xué)方程式。

它是一種形式化語言,它的表達是意義很簡單的。然后就到語義這一塊,我們目前所研究到的,我們僅僅還停留在語義和推理這一塊。推理我們等會再講到。這次圖譜內(nèi)容的時候,有會稍微等一會稍微提一下,就是知識推理。這是推理是什么呢?很簡單表示,比如我有一個推理是什么呢?比如叫一個推理的場景是什么?我想一下,比如我舉個例子,像王健林的兒子是王思聰,然后王健林的老婆是誰?他老婆是誰,我并不知道,然后我們可以從這。但是我們可以從這一句里面分析到,王繼林的兒子是王思聰,他的老婆是誰,但是我們并沒有提到王思聰?shù)哪赣H是誰。

這個時候我們就可以做一個推理性的工作。這是很簡單的一個推理,就是我們可以推理出王思聰?shù)哪赣H是誰?比如說我假設(shè)是A這個就是王思,王健林的老婆是A黃私,王健林的兒子是王肅。應(yīng)該推理出王思聰?shù)哪赣H是A這是一種場景,還有一種就是這種是可以把它規(guī)則歸結(jié)為情感分類細力度的情感分類。以像我這里的這PPT里面這個例子叫什么?像五星級賓館連游泳池都沒有,這肯定是一個差評。一個負面情感。這個在情感分類里面叫什么?一個叫情感分類,有一個顯示情感,還有一個是影視情感。

顯示情感就是我們在R語言的表達當中,很直接很直觀的表達出來的。這個東西很好。蘋果很甜,我很喜歡苡。這個東西很臟,我很討厭。這直接就顯示一顯示的指出了我對這一個的喜好。正面。我們?nèi)绻裨谧鱿褚恍┹浨榉治觯蛘呦駪蚵返那楦蟹治?,它它的分類并不只分為正面和正類和負累,因為在情感分析這一塊,歸根到底可以把它歸結(jié)為是一個文本分類的過程。

文本分類的話,我看到之前有一位老師是已經(jīng)有講過,像情感分類,我們的意圖識別等等,這一塊歸根到底都可以把它歸結(jié)為一個分類的文本分類的工作。

影視情感分類就是我上面舉的這個例子,他沒有很直接的表示出來,我對這個東西的喜好,叫做影視分類,這是影視分類比較困難的一個一塊。我還可以舉個例子,比如我的心情就像天氣一樣淅淅瀝瀝下著小雨。按道理來講,我能夠表示的是我心情比較不好。我心情很沮喪很差,這就是一個影視分類的問題。像然后這里是一個懸于用,其實與用我剛剛在推理到從推理到語用這一塊,其實可能是有一些可能差的不是特別多,可能有一些情況就在語音這一塊。

像金融海嘯來了,可能是可能會引發(fā)金融危機。這一類。在語用這一塊,馬上九點了,我們稍微講快一點,現(xiàn)在我們來看一下它的一些技術(shù),對一些技術(shù)性的總結(jié)和學(xué)習(xí)方法,自然語言處理這一塊怎么學(xué)?等一下我們現(xiàn)在第二個主題進行進行一下探討。大家可以看到這張圖,這張圖的話是從底從下往上看,從下往上看,這個叫資源第一層叫。這個應(yīng)該是看做是一個叫金字塔型結(jié)構(gòu),第一層是叫做資源建設(shè)資源介紹叫什么?語言學(xué)知識庫和語料庫的構(gòu)建。

語料庫這個東西,我自己把它歸結(jié)為類似可以把它歸結(jié)為一個數(shù)據(jù)倉庫,有可能你有的時候可能不僅僅是有語料庫,像語言學(xué)知識庫之類的,可能還有會還有來自像關(guān)系型數(shù)據(jù)庫等等一些一些數(shù)據(jù)。這個東西我們在構(gòu)建構(gòu)建語料庫的時候,可能有的時候還會存在一些把像一些基礎(chǔ)研究,像詞法,包括像詞法句法語這些基礎(chǔ)性研究的結(jié)果,把它回流到資源建設(shè)這一塊,它的結(jié)果用來跑數(shù)據(jù)的結(jié)果用來構(gòu)建語料庫。很簡單的,像像有的有一個案例就是什么呢?

我們有的時候會在構(gòu)建知識圖譜的知識圖譜的時候,我們要構(gòu)建一個自己的知識庫。但是往往我們會通過像詞法分析句法分析這一塊的基礎(chǔ)性研究,來進行一個像包括命名體識別,就是知識抽取的內(nèi)容,這是抽取關(guān)系抽取,構(gòu)建三元組來構(gòu)建知識庫。其實這兩個是分不開的。從基礎(chǔ)研究到構(gòu)建知識庫詞法分析,詞法分析句法語義。剛剛講到了,其實在基礎(chǔ)性研究上的話,這一塊我覺得嚴格意義上還要再加兩塊,內(nèi)容比較好。一塊一塊是語言模型,還有一塊就是知識圖譜。

現(xiàn)在有很多場景,也有很多公司的團隊,它是怎么弄呢?會構(gòu)建一個垂直領(lǐng)域,垂直領(lǐng)域就是特定領(lǐng)域,比如像司法領(lǐng)域,金融領(lǐng)域,醫(yī)療領(lǐng)域,教育行業(yè)等等,或者農(nóng)業(yè)這類的。你根據(jù)特定行業(yè)來構(gòu)建一個自己的知識圖譜,這個知識圖譜是什么呢?這只圖我最大的一個特點,他就是可以找關(guān)系,是吧?構(gòu)建出來一個知識圖譜,在基于知識圖譜做上層的一些研究,包括像精準營銷推薦系統(tǒng),然后還有像基于知識圖譜和像自然語言生成構(gòu)成的一個對話系統(tǒng),閑聊系統(tǒng),等等,就是這上面的機器人。

是吧?應(yīng)用技術(shù)研究這塊我們等一下會講到。應(yīng)用,包括像信息抽取信息抽取,可以歸結(jié)為知識抽取。等一下會講到。然后包括像機器翻譯,問答系統(tǒng)等等。然后再上層的就是應(yīng)用了。我們可能做一些實際的應(yīng)用,包括像在教育行業(yè),醫(yī)療行業(yè)司法行業(yè)金融行業(yè)機器人行業(yè)。舉一些例子,像我們經(jīng)常百度的杜小法。是吧?這些都是基于這項底層應(yīng)用研究來做出來的一些成果?,F(xiàn)在我們來看一下,這些主要我們就是一些應(yīng)用技術(shù),應(yīng)用技術(shù)它到底在應(yīng)用到哪一些方面?

比如我們可以做一下分類,像機器翻譯,這些翻譯現(xiàn)在是一個非常熱門的一個方向,包括現(xiàn)在的翻譯,不知道大家有沒有這種感覺,有的時候你可能會會用到谷歌翻譯或者百度翻譯的話,他比如說你有的時候,或者你寫論文的時候,你有一句話,你想翻譯成英語,你不會翻譯,你用百度翻譯,他翻譯出來的英文,他現(xiàn)在翻譯出來的結(jié)果比前幾年要好很多。前幾年就是很傻瓜式的按字面意義把它翻譯出來。但是它有的時候效果好了很多,包括同時里頭包括像中英漢翻譯漢陰,可能有的時候你看,做閱讀理解的時候不懂,你會把一下一個句子用百度翻譯成中文,以前都是很傻瓜式的,就根據(jù)字面意義來翻譯,現(xiàn)在他會結(jié)合了很多東西。

百度翻譯團隊是目前是第一個將神經(jīng)網(wǎng)絡(luò)應(yīng)用到機器翻譯這塊。有一篇論文不知道大家有沒有看過,但那個論文的名字我有點不太記得了,他是第一個將神經(jīng)網(wǎng)絡(luò)應(yīng)用到機器翻譯這一塊的。然后第二點,自動文摘可以類似維基樂機器理解這一塊,我們有一個比較長的文檔,提煉出一個很簡要的摘要,或者一個縮寫。自動文摘。可以隨便了解一下,我感覺自動文摘的應(yīng)用應(yīng)該不是特別的廣泛。有的時候可能會有一些應(yīng)用,但是并不是特別廣泛。然后第三點,第三點信息檢索。

大家不知道從在從事自然語言處理這一塊的話,可能會對信息檢索的理解要稍微深一些。但是其實信息檢索無時無時不在的。很簡單的,我們在如果我們有什么問題,百度一下,谷歌一下,這就是一個信息檢索的過程。信息檢索的概念就是從利用計算機從海量文本中找到符合用戶需求的需要的相關(guān)文檔。是吧?我們在百度一下,其實就是從百度互聯(lián)網(wǎng)中找到我們想想要的想要的內(nèi)容,他會做他對會對我們的一個搜索的結(jié)果進行一個排序,是吧?然后我們自己再要一個篩選的過程。

但是如果我們在自己項目中是一個特定領(lǐng)域的,包括像比如說類似司法行業(yè),我要檢索一條內(nèi)容,它可能它它是基于我們的知識庫來進行檢索的,所以他就并不像我們的百度這種形式,五花八門,各種廣告之類的東西都有,我們這種的檢索就會變得比較比較直接,可能搜索的內(nèi)容會比較少??赡芤灿锌赡芫褪撬麜芎芸斓臏p少出我們想要的東西。信息檢索我們還有一點就是叫語義檢索與建設(shè),比如我有個場景就是我要查查詢,姚明是身高有多高,是吧?

它會返回查詢姚明的身高。這是一個比較簡單的一個檢索的場景。但是我們在實現(xiàn)的話,我們G技術(shù)實現(xiàn)是把它轉(zhuǎn)換成一個邏輯形式的語言語音檢索,邏輯形式幾個方轉(zhuǎn)換成一個邏輯形式語言來進行進行一個跨越,我們可以把它類似,把它比作就是你輸入的一個問題,前臺一個跨越偉傳到后臺后臺進行解析,解析,包括有一些可能一些分詞序列標注,命題識別等等一些一系列操作。然后再根據(jù)我們的知識庫,或者是基于ES等等。boss。可以的。

各種情況都會有。然后在知識庫中檢索出我們想要的答案,答案,然后做一個排序,排序之后然后再返回給前臺。展示。這就是一個減少的一個過程。然后我們還有一種稍微復(fù)雜一點的場景,就是較多跳查詢。多條查詢是。我之前查詢的是姚明的身高是多少?然后現(xiàn)在我不想這么纏了?,F(xiàn)在我想查姚明的老婆是干什么工作的。比如我叔叔姚明的老婆是干什么工作,這個時候我們要做,就相當于這一步,我們的解析它會做兩種兩步處理。第一步你要先找到姚明,然后第一步你要先找到姚明的老婆,姚明了,你要定位到姚明的老婆是誰?

然后你從定位好了之后,你再定位到他是做什么工作的?叫做多跳查詢。剝掉查詢相,我們在知識圖譜里面會有一些像類似把它轉(zhuǎn)換成一種邏輯形式語言的一種說課語言來進行查詢,這是信息檢索的一個內(nèi)容。當然信息檢索他是叫A這里。PPT有一個有錯錯誤是AA不是A1修改一下。這里可能是寫的時候?qū)戝e了。信息檢索。目前也比國內(nèi)比較好的團隊是清華那邊劉志遠那邊。劉志遠老師實驗室里面做信息檢索是做得很好的。然后下一步我們到文本分可能是大家接觸的最多的,可能可能自從接觸自然語言開處理開始,可能第一做的第一個實驗就是進行文本分類工作,包括像新聞分類等等,是吧?

主題分類內(nèi)容根據(jù)標簽,根據(jù)高標簽我們文本分類,這是一個非常好的練手項目,知乎曾經(jīng)有一個知乎看山,他有一個比賽,叫做多標簽文本分類,它那個數(shù)據(jù)數(shù)據(jù)很大,數(shù)據(jù)量很大。大家可以百度一下,叫知乎看三多標簽,文本分類分可以第一名團隊把它的代碼和方案都已經(jīng)公布了,大家如果有興趣,練手研究一下,然后還有主題分類等等。文本分類它主要的方法像什么?像有text的cn阿特cn,還有把特色CNN結(jié)合起來,都這樣的方法都會有,然后是有一個情感分類。

3D版的classic,他情感分類的。我剛剛也有講到,把它歸結(jié)為一個歸根到底是一個文本分類的一個任務(wù)。因為我們我們情感分類可能就簡單一點的話,可能分為正類或者負累,然后細粒度更細的話,可能會分為5到6類,沮喪開心等等。是吧?文本分類的一個一個任務(wù)。文本分類之后,有的時候可以更一層,更層次的有像什么?這是情感分類的,可以把它支撐為項輿情分析。是吧?輿情分析系統(tǒng),下一步就是對話系統(tǒng)。對話系統(tǒng)呢怎么說呢?

是可以說是目前研究比較火的一個方向,應(yīng)用的最多的還是在特定領(lǐng)域的一些像客服工作咨詢工作,類似一些問答。單輪對話的問答,多輪對話目前在企業(yè)中應(yīng)用的并不是很多,問答,先看一下定義,就是想通過計算機用戶,簡單的就是人機交互對用戶輸入的文本進行理解,利用知識推理文本生成,之前有一些御廚里的工作項,然后進行知識推理文本生成,然后給出合理的回答。如果你有語音的話,會會把你的一個文本生成的文本再轉(zhuǎn)換成語音,是吧?

構(gòu)成一個對話系統(tǒng)。目前做一下分類,以單輪對話的還是為主的。因為你多輪對話可能主要存在一個,如果你用像基于神經(jīng)網(wǎng)絡(luò)的多輪對話生成,它存在一個問題,就是一個不可控性因素。比如說你給甲方做了一個系統(tǒng),你文本生成了,它生成的,你可能并不知道它會生成什么,是吧?如果生成了一些不可控性的因素,這東西你們沒辦法的,如果對他造成損失的話,這個所以現(xiàn)在應(yīng)用的最多的還是像基于知識庫的貨繼續(xù)檢索的。這類對話系統(tǒng),是可能是90%都是這樣,因為閑聊系統(tǒng)一來可能對一般性的工收益不大,因為很多公司它做這種系統(tǒng),就是對他的業(yè)務(wù)進行一個需要的一個幫助,或者是能夠商業(yè)性的。

因為你有的時候,如果你構(gòu)成一個閑聊,因為目前的話閑聊系統(tǒng)可能也并不是特別的成熟。你包括像天貓精靈,像包括小艾同學(xué),對。他剛剛叫了一聲,他答應(yīng)了。他。我好像還不太知道它構(gòu)成的是什么呢?它也是一個單指令,僅僅有的時候我有實驗的話,有它有可能僅僅在很簡單的情景下會有多指令。絕大部分是單指令,就是單單輪對話,它并不具備多少什么呢?多輪對話的一些記憶性。I包括天貓精靈等等這些東西的話,你可以試驗一下,也就是說你上面說了一句話,你下面再說,他就不記得你說的這句話是什么?

這就是簡單的一個單輪對話。下面是一個對話系統(tǒng)的稍微一個很簡單的一個展示,目前我自己有做一個一個對話系統(tǒng),把把知識庫換掉的話,在垂直領(lǐng)域是效果是還可以,但是在開放領(lǐng)域,閑聊領(lǐng)域其實效果并沒有達到我預(yù)想的那么好。你看這些這些很多東西,你有的時候你會發(fā)現(xiàn),他其實是基于基知識庫的,它并不是一個文本生成的。是吧?下面我們來看一下,下面我們來看一下知識,抽取知識抽取可以怎么說?它是歸結(jié)為知識圖譜的那一塊。說了很多知識圖譜,然后我們現(xiàn)在來講一下什么是知識圖譜,這是圖譜的,它的前身是雨衣網(wǎng)。

大家可以可能會如果有興趣可以去百度一下。前身是語義網(wǎng),經(jīng)過一系列的發(fā)展,谷歌在2012年還是2013年把它應(yīng)用到搜索引擎上,然后對搜索這一塊有了極大的提升。后來在大概14年左右,國內(nèi)公司很多公司就在開始構(gòu)建自己的知識圖,包括阿里京東百度都有自己比較稍微成熟一點的知識圖譜了。他知識圖譜它有個最主要的一個一個東西叫什么呢?它會它是一個類似一個關(guān)系,它把一些關(guān)系全部都理順了,全部都他會有一個圖數(shù)據(jù)庫。他把把所有的關(guān)系全部都理通,全部以知識圖譜的形式存儲,然后知識圖譜它包括有哪些?

像一個知識的一個獲取。這是獲取的話,有一個方式,什么是爬蟲,然后I基于自己的業(yè)務(wù)數(shù)據(jù),你要如果需要第三方數(shù)據(jù)的話,可能是要自己來寫爬蟲,爬數(shù)據(jù),扒別人的數(shù)據(jù),然后爬到數(shù)據(jù)之后,有這是表示。這表示向知識建模等等。這是建模之后有知識抽取。抽血,然后你可能爬蟲的話排的是多個數(shù)據(jù)源,你要做一個知識融合。這融合的話,你還有一些像實體,這里這是融合,這是推理向知識中包。這是存儲這些存儲的話,圖譜存儲。數(shù)據(jù)一個絕大,90%數(shù)據(jù)存在圖數(shù)據(jù)庫里面。

圖數(shù)據(jù)庫目前開源的開源有瓜地B像附件的話是吧?我們自己的知識圖譜的話是有做一個調(diào)研RNU for J的話,它有商業(yè)版和社區(qū)版兩種。一般的話,我們目前用的是社區(qū)版,根據(jù)調(diào)研,如果你是有在10億節(jié)點,你的圖譜是在10億節(jié)點以內(nèi),11個節(jié)點。因為圖譜的話,如果你有一個關(guān)系,比如你有一個像三元組我們構(gòu)成有一個三元組關(guān)系,類似比如我舉個例子,奧巴馬,三元組它是一個教主,衛(wèi)兵一種形式存儲的。因為為什么?你還可以最簡單的一個理解為就是實體一關(guān)系實體二,實體二和這個關(guān)系是指實體一和412之間是怎么樣的一個關(guān)系?

我簡單一個知識圖譜的一個簡單的舉例,就可以分為像奧巴馬出生于華農(nóng)讀讀。這是最簡單的一個三元組。三元組,里面有兩個節(jié)點,實體一和10.2,這可以看作是兩個節(jié)點。也就是說圖數(shù)據(jù)庫恩又不接,在10億節(jié)點以內(nèi)。商業(yè)版社區(qū)版是夠用的。這是講到稍微提一下知識圖譜的概念,因為這是圖譜的概念。這是圖譜,你不知道,可能大家以后如果有接觸的話,你會發(fā)現(xiàn)它會把我們自然原處理,自然語言理解,自然語言生成等等方面,包括像前端后端,爬蟲,數(shù)據(jù)庫等等等等內(nèi)容,他全部都融合在一起。

所以你想想要構(gòu)建一個好的知識圖譜是一個件比較困難的事情。它還有一點就是關(guān)系抽取,我們這里等會我們PPT里面有講到知識抽血看一下,它的概念就是將非結(jié)構(gòu)化數(shù)據(jù)轉(zhuǎn)化為結(jié)構(gòu)化的數(shù)據(jù),因為我們的數(shù)據(jù)源一般的情況下,我們數(shù)據(jù)源是分三種,一個叫非結(jié)構(gòu)化數(shù)據(jù),還有一個叫半結(jié)構(gòu)化數(shù)據(jù)。然后第三種就是結(jié)構(gòu)化數(shù)據(jù)。結(jié)構(gòu)化數(shù)據(jù)很好理解,就是我們存在賣騷客奧奧瑞克這類半結(jié)構(gòu)化數(shù)據(jù)是什么呢?也就是我們經(jīng)常遇到的像愛杰森,X ml等等,這類數(shù)據(jù)可能可以叫為叫做半結(jié)構(gòu)化數(shù)據(jù)。

非結(jié)構(gòu)化數(shù)據(jù),就是我們這些處理的文本數(shù)據(jù)等等。因為我們的核心知識抽取的核心就是在非結(jié)構(gòu)化數(shù)據(jù)這一塊,轉(zhuǎn)換為結(jié)構(gòu)化抽取,一般它的任務(wù)子任務(wù)分為哪些呢?數(shù)據(jù)實體數(shù)據(jù)剛剛之前有提到。實體,你包括時間,地點,人民機構(gòu)名金額等等,所以我們在做實體抽取的話,像之前說到的用序列標注的方法,構(gòu)建標簽局,用的最多的方法,以前都是基本上是用BI LSTM加上條件隨機場來做。但是自從去年我自己有做實驗,去年自從谷歌出了很火的一個詞,向量模型BRT號稱有3億參數(shù),把它用到實體抽取這一塊,效果確實是有明顯的提升,提升比較大。

我之前用條件司機廠家雙向神經(jīng)神經(jīng)網(wǎng)絡(luò)來做的話是F1直將近是在89%,加入BABRT來優(yōu)化之后,可以達到96%-97%,效果已經(jīng)非常好。當然這只是因為我的訓(xùn)練數(shù)據(jù)的話是司法行業(yè)民事判判決書之類這一行業(yè)。但是如果你在對開放領(lǐng)域,所以你可能要在訓(xùn)練數(shù)據(jù)的話,要更多更多一些,可能效果會更好一點。然后第二個任務(wù)就是關(guān)系抽取,關(guān)系出去。是吧?剛剛之前有講過兩個實體之間的關(guān)系,比如像王思聰是王健林的兒子,我們抽取出來之后,會以一個三元組的形式來表示。

是吧?關(guān)系抽取比較困難的一點。我目前是最近是有在寫一篇寫一篇論文,就是關(guān)于關(guān)系索取的。我感覺關(guān)系出關(guān)系抽取目前最大的難度就是它不準確。是吧?關(guān)系。你可能一句話里面有多關(guān)系,而且你關(guān)系的類別很多,不僅僅是像父子同學(xué)這一類的關(guān)系,是吧?你有的時候發(fā)生像借款關(guān)系,A與某某時候發(fā)生與B發(fā)生借款等等。然后下一步就是事件抽取,事件抽取也是一個核心事件,抽取的主要任務(wù)是學(xué)車。事件的觸發(fā)詞,事件類型,論員以及論員角色,比如從一篇新聞報道中抽出某一某一恐怖事件的基本信息,像包括像時間,什么時候這個事件是什么時候發(fā)生的?

發(fā)生在哪里?失事的事件制造者,失事者是誰?受試者是誰?襲擊目標傷亡人數(shù)等等是。大家可以發(fā)現(xiàn)看到有一個什么?就是時間和事件。當然如果我們的一個抽取的一個文本里面,它有多個時間多個事件的話,還存在一個難點,就是一個叫時間序列化的問題,就是你必須要把這個時間跟這個事件一一對應(yīng)起來,是吧?然后收取這個比較簡單,我們標包在標簽矩陣里面把他加上。就OK了。其實這一塊用的不是很多,有的時候術(shù)語也有可能把它類似。

他把它看成像人民或機構(gòu)名之類的,是一個數(shù)術(shù)語。然后像除了上面這些還有應(yīng)用,還有一些像隱喻計算,自動校對作文評分作文評分等一下,在應(yīng)用里面有講到語音識別等等。然后就講到學(xué)習(xí)方法。學(xué)習(xí)方法,其實其實不管我們學(xué)任何一門東西沒有捷徑了,大家可能有感覺像做算法,自然語言處理,等等語音圖像等等,這一塊,可能對數(shù)學(xué)的要求是相對較高一點。包括像數(shù)學(xué)分析高等數(shù)學(xué),高等代數(shù)概率論。數(shù)理統(tǒng)計等等隨機過程。像時間序列分析可能可能在做。MAP方面他對對隨機過程和時間序列分析這一塊的要求稍微高一些,因為我們把它當都是把文本當成一個序列來看的話,所以有時間的話可以多看看數(shù)學(xué)基礎(chǔ)等等。

然后英語基礎(chǔ)為什么叫英語基礎(chǔ)呢?可能涉及到在學(xué)習(xí)過程中看看文獻,看國外的博客等等。因為可能在這方面的話,國內(nèi)的研究和國外確實是有一些差距的??赡芪覀冃枰炊嗫匆恍╉敃恼撐模ㄏ馎CL等等,這些點會的論文它全部都是英文的,所以我們對英文的基礎(chǔ)也要也要提升上來。第三點就是讀論文,讀一些經(jīng)典性的論文。讀論文之后,把論文的模型理解之后,浮現(xiàn)出來,所以我們有的時候盡量選哪些那些可以能。之前就有存在很多問題是什么呢?

就是很多論文他不能復(fù)現(xiàn),你有的時候不能復(fù)現(xiàn)的話,你可能在工程上沒辦法使用。所以盡量挑選一些提供了代碼的,提供能夠做實驗且能夠?qū)嶒灣晒Φ模俏襾韥砜?。然后第四個就是知乎博客像get up等等,這方面也是很重要的一個學(xué)習(xí)資源。然后我們開始進入到我們的今天的第三部分,可能也是最后一部分,現(xiàn)在是9點半。PPT也只有幾張了?稍微然后在自然語言處理在我們身邊的一些應(yīng)用。第一個向我們的有智慧醫(yī)療,可能智慧醫(yī)療這里可能就是有一個知識圖譜的一個多模態(tài)。

多模態(tài)的一個知識圖譜。智慧醫(yī)療有的時候類似像問診,是吧?看看后面類似這里就是一個對話系統(tǒng),你看它后面是一個單輪對話,是吧?有的時候像一個問答,這一塊想要把問診做好還是非常難的,因為現(xiàn)在有的時候應(yīng)用最多的可能在醫(yī)療上應(yīng)用比較多的,可能是在圖像方面,類似像影像分析等等。但是目前僅限于一些咨詢咨詢和問答工作,但是如果你要真正叫一個醫(yī)生來根據(jù)你根據(jù)你人工智能提供的方案來來問診確診等等。我相信肯定沒有哪個醫(yī)生會會相信的。

是吧?因為醫(yī)生他要對他的診斷負責(zé),所以你有的時候你可能人工智能做的太再好,你說的再再準確,你可能分析覺得覺得你的分析在準,醫(yī)生都不會相信你,他還是要自己根據(jù)自己的判斷來來確診。所以人工智能只能對象醫(yī)療行業(yè)做一個參考性的一個工作,輔助他服做一個輔助,并不能判斷它替代它來做一個醫(yī)療診斷的一個決策。這一個智慧司法就是我現(xiàn)在正在做的一個工作,類似像法律咨詢,法條查詢,律師推薦案情分析等等,然后我現(xiàn)在在后面這邊也是一個基本性的一個問答工作,我們目前是也有在自己構(gòu)建一個金融司法,我們主要是金融行業(yè)金融司法的一個我們在知識圖譜的層面上,其實還有更多更多一個內(nèi)容就是就是找不良資產(chǎn)找老賴,是吧?

可能我們從一些判決文書當中,可能早會找到像一些不良資產(chǎn)內(nèi)容,類似像比如某某某在何時欠了某某某的錢,然后這個錢他不還。告上法庭,說走司法這一條路,然后查封某某的資產(chǎn)等等,我們是有一個這樣的一個場景。比如說我欠了誰的錢,然后在我在另外一處也有又有房產(chǎn),誰又有誰還有另外一些人來欠我的錢,所以我們要找到這些這些類似這些證據(jù)或者一些關(guān)系把它找出來,然后是吧?這里下一下一步就是一個智能教育,這里就是類似一個這個案例是一個評分,作文評分的一個工作。

這里就是對一個篇章級的一個分析。智能教育我們目前我覺得可能只能起一個參考性的作用,我們最后講一個案例,就是一個智能音箱,智能音箱,包括像天貓精靈等等是吧?然后有小艾同學(xué),像小孩小愛我,因為我把天貓精靈和小艾同學(xué)我都有。我來把它關(guān)掉,你好像沒有智能設(shè)備先去購買一個班。因為我因為我一說小孩同學(xué)他我這邊他就答應(yīng)了,所以我把它關(guān)掉。我對比了天貓精靈和小艾同學(xué),我個人已覺得小孩同學(xué)是更有趣一些,包括像這里有一些案例,包括像雷軍有多少錢等等。

大家如果有的話可以自己來嘗試一下。小艾同學(xué)我個人感覺是目前智能音箱里面做的比較好的一個一個產(chǎn)品,然后這是一個小艾同學(xué)。這里還有一個案例,我們沒有講到微軟的微軟小兵,大家有時間可以去體驗一下,我覺得如果相比的話,我覺得微軟小冰是做的是最成功的一個對話系統(tǒng),大家可以自己去體驗一下。然后然后今天的內(nèi)容現(xiàn)在是9:36,今天的內(nèi)容的話可能也分享就到此為止。到這里結(jié)束了??赡苤v的也并不是很好,因為第一次用到語音直播,可能剛開始十幾分鐘沒有完全習(xí)慣,到后來的話是可能現(xiàn)在已經(jīng)用了好。

以上就是關(guān)于pos機如何介紹,自然語言處理宏觀介紹及應(yīng)用的知識,后面我們會繼續(xù)為大家整理關(guān)于pos機如何介紹的知識,希望能夠幫助到大家!

轉(zhuǎn)發(fā)請帶上網(wǎng)址:http://www.www690aa.com/newsone/83453.html
上一篇:0.55的pos機0.58 下一篇:pos機簡單廣告

你可能會喜歡:

版權(quán)聲明:本文內(nèi)容由互聯(lián)網(wǎng)用戶自發(fā)貢獻,該文觀點僅代表作者本人。本站僅提供信息存儲空間服務(wù),不擁有所有權(quán),不承擔(dān)相關(guān)法律責(zé)任。如發(fā)現(xiàn)本站有涉嫌抄襲侵權(quán)/違法違規(guī)的內(nèi)容, 請發(fā)送郵件至 babsan@163.com 舉報,一經(jīng)查實,本站將立刻刪除。